- Hunyuan3D 2.0 es un sistema de síntesis 3D a gran escala para generar assets 3D con texturas de alta resolución
- Dos componentes principales:
- Hunyuan3D-DiT: un modelo de generación de formas a gran escala, construido sobre un transformer de difusión basado en flujo escalable, que proporciona una base estable al generar geometría alineada con imágenes condicionales específicas
- Hunyuan3D-Paint: genera mapas de textura de alta resolución y gran viveza para mallas (
mesh) generadas o mallas hechas manualmente, aprovechando un sólido conocimiento previo de geometría y difusión
- Hunyuan3D-Studio es una plataforma que facilita el proceso de regeneración de assets 3D, permitiendo que tanto profesionales como aficionados manipulen o animen mallas de forma eficiente
- Hunyuan3D 2.0 muestra un rendimiento superior al de modelos previos de código abierto y propietarios: en detalle geométrico, alineación condicional, calidad de texturas, etc.
Hunyuan3D 2.0
Arquitectura
- Pipeline de generación en dos etapas: generación de malla seguida por síntesis de mapas de textura
- Separa las dificultades de la generación de forma y de textura, y ofrece texturizado flexible para mallas generadas o mallas hechas manualmente
Rendimiento
- Hunyuan3D 2.0 muestra un rendimiento superior en comparación con otros métodos de generación 3D, tanto de código abierto como propietarios
- Supera todos los referentes en CMMD, FID_CLIP, FID y CLIP-score
Modelos preentrenados
- Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B parámetros
- Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B parámetros
- Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B parámetros
Uso de la API
- Diseño de API similar a diffusers para usar los modelos Hunyuan3D-DiT y Hunyuan3D-Paint
- Se pueden generar mallas con Hunyuan3D-DiT
- Se puede realizar síntesis de texturas con Hunyuan3D-Paint
App de Gradio
- Se puede alojar en una computadora personal mediante la app de Gradio
📑 Plan de código abierto
- Incluye código de inferencia, checkpoints del modelo, informe técnico, ComfyUI y versión de TensorRT
1 comentarios
Comentarios de Hacker News
En las preguntas sobre modelos de malla 3D, hay una discusión sobre si existe algún modelo adecuado para fotogrametría. Se usaron fotos de alta calidad, iluminación consistente y un fondo de color sólido, pero las aplicaciones comunes generan mallas de pocos polígonos o con muchos agujeros.
Hay una opinión de que la IA generativa reducirá a cero el costo marginal de crear contenido 3D interactivo. Esto tiene el potencial de impulsar el metaverso.
La licencia de Tencent Hunyuan 3D 2.0 no aplica en la Unión Europea, el Reino Unido ni Corea del Sur.
Hay una opinión de que, aunque existe un diagrama que muestra que la malla se genera con el algoritmo de marching cubes, en realidad parece generarse de otra manera.
Hay preguntas sobre si el modelo de IA puede ejecutarse en casa. Por ejemplo, se discute si puede correr en una tarjeta gráfica 4090.
Hay una opinión de que cualquier cosa que incluya la palabra "avanzado" es buena.
Los sistemas de contenido generado por usuarios pueden sufrir el llamado "problema de penes".
Hay una opinión de que en los modelos generativos hay que confiar, pero verificar. Es importante probarlos directamente.
Se intentó probar el modelo enlazado en la página de Huggingface, pero no se pudo testear por un error de sobreuso. Los resultados se ven bastante bien.
Se necesitan prompts largos, y eso puede generar sospechas. Se probó con prompts simples para ver qué tan difícil es usarlo en la práctica.
El resultado del prompt "guitarra" apareció como una guitarra algo gruesa, y el prompt "hoja de monstera" produjo una forma un poco extraña.
El resultado del prompt del personaje "Super Mario" es dudoso. Luigi debería verse distinto de Mario, pero no es así.
El resultado del prompt "Peach" da risa. Aparece como un durazno con una cara linda.
El resultado del prompt "Toad" parece una especie de Squirtle deformado.
El artículo está disponible en arXiv. Los modelos generativos se entrenan con muchos datos y quizá necesiten una interfaz similar a una base de datos.
Se puede imaginar un modelo enfocado en objetos funcionales para impresión 3D.