Hunyuan3D 2.0 – el sistema de Tencent para generar assets 3D de alta resolución

(github.com/Tencent)

3 puntos por GN⁺ 2025-01-23 | 1 comentarios | Compartir por WhatsApp

Hunyuan3D 2.0 es un sistema de síntesis 3D a gran escala para generar assets 3D con texturas de alta resolución
Dos componentes principales:
- Hunyuan3D-DiT: un modelo de generación de formas a gran escala, construido sobre un transformer de difusión basado en flujo escalable, que proporciona una base estable al generar geometría alineada con imágenes condicionales específicas
- Hunyuan3D-Paint: genera mapas de textura de alta resolución y gran viveza para mallas (mesh) generadas o mallas hechas manualmente, aprovechando un sólido conocimiento previo de geometría y difusión
Hunyuan3D-Studio es una plataforma que facilita el proceso de regeneración de assets 3D, permitiendo que tanto profesionales como aficionados manipulen o animen mallas de forma eficiente
Hunyuan3D 2.0 muestra un rendimiento superior al de modelos previos de código abierto y propietarios: en detalle geométrico, alineación condicional, calidad de texturas, etc.

Hunyuan3D 2.0

Arquitectura

Pipeline de generación en dos etapas: generación de malla seguida por síntesis de mapas de textura
Separa las dificultades de la generación de forma y de textura, y ofrece texturizado flexible para mallas generadas o mallas hechas manualmente

Rendimiento

Hunyuan3D 2.0 muestra un rendimiento superior en comparación con otros métodos de generación 3D, tanto de código abierto como propietarios
Supera todos los referentes en CMMD, FID_CLIP, FID y CLIP-score

Modelos preentrenados

Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B parámetros
Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B parámetros
Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B parámetros

Uso de la API

Diseño de API similar a diffusers para usar los modelos Hunyuan3D-DiT y Hunyuan3D-Paint
Se pueden generar mallas con Hunyuan3D-DiT
Se puede realizar síntesis de texturas con Hunyuan3D-Paint

App de Gradio

Se puede alojar en una computadora personal mediante la app de Gradio

📑 Plan de código abierto

Incluye código de inferencia, checkpoints del modelo, informe técnico, ComfyUI y versión de TensorRT

1 comentarios

GN⁺ 2025-01-23

Comentarios de Hacker News

En las preguntas sobre modelos de malla 3D, hay una discusión sobre si existe algún modelo adecuado para fotogrametría. Se usaron fotos de alta calidad, iluminación consistente y un fondo de color sólido, pero las aplicaciones comunes generan mallas de pocos polígonos o con muchos agujeros.
Hay una opinión de que la IA generativa reducirá a cero el costo marginal de crear contenido 3D interactivo. Esto tiene el potencial de impulsar el metaverso.
La licencia de Tencent Hunyuan 3D 2.0 no aplica en la Unión Europea, el Reino Unido ni Corea del Sur.
Hay una opinión de que, aunque existe un diagrama que muestra que la malla se genera con el algoritmo de marching cubes, en realidad parece generarse de otra manera.
Hay preguntas sobre si el modelo de IA puede ejecutarse en casa. Por ejemplo, se discute si puede correr en una tarjeta gráfica 4090.
Hay una opinión de que cualquier cosa que incluya la palabra "avanzado" es buena.
Los sistemas de contenido generado por usuarios pueden sufrir el llamado "problema de penes".
Hay una opinión de que en los modelos generativos hay que confiar, pero verificar. Es importante probarlos directamente.
Se intentó probar el modelo enlazado en la página de Huggingface, pero no se pudo testear por un error de sobreuso. Los resultados se ven bastante bien.
Se necesitan prompts largos, y eso puede generar sospechas. Se probó con prompts simples para ver qué tan difícil es usarlo en la práctica.
El resultado del prompt "guitarra" apareció como una guitarra algo gruesa, y el prompt "hoja de monstera" produjo una forma un poco extraña.
El resultado del prompt del personaje "Super Mario" es dudoso. Luigi debería verse distinto de Mario, pero no es así.
El resultado del prompt "Peach" da risa. Aparece como un durazno con una cara linda.
El resultado del prompt "Toad" parece una especie de Squirtle deformado.
El artículo está disponible en arXiv. Los modelos generativos se entrenan con muchos datos y quizá necesiten una interfaz similar a una base de datos.
Se puede imaginar un modelo enfocado en objetos funcionales para impresión 3D.

Hunyuan3D 2.0 – el sistema de Tencent para generar assets 3D de alta resolución

Hunyuan3D 2.0

Arquitectura

Rendimiento

Modelos preentrenados

Uso de la API

App de Gradio

📑 Plan de código abierto

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News