3 puntos por GN⁺ 2025-01-23 | 1 comentarios | Compartir por WhatsApp
  • Hunyuan3D 2.0 es un sistema de síntesis 3D a gran escala para generar assets 3D con texturas de alta resolución
  • Dos componentes principales:
    • Hunyuan3D-DiT: un modelo de generación de formas a gran escala, construido sobre un transformer de difusión basado en flujo escalable, que proporciona una base estable al generar geometría alineada con imágenes condicionales específicas
    • Hunyuan3D-Paint: genera mapas de textura de alta resolución y gran viveza para mallas (mesh) generadas o mallas hechas manualmente, aprovechando un sólido conocimiento previo de geometría y difusión
  • Hunyuan3D-Studio es una plataforma que facilita el proceso de regeneración de assets 3D, permitiendo que tanto profesionales como aficionados manipulen o animen mallas de forma eficiente
  • Hunyuan3D 2.0 muestra un rendimiento superior al de modelos previos de código abierto y propietarios: en detalle geométrico, alineación condicional, calidad de texturas, etc.

Hunyuan3D 2.0

Arquitectura

  • Pipeline de generación en dos etapas: generación de malla seguida por síntesis de mapas de textura
  • Separa las dificultades de la generación de forma y de textura, y ofrece texturizado flexible para mallas generadas o mallas hechas manualmente

Rendimiento

  • Hunyuan3D 2.0 muestra un rendimiento superior en comparación con otros métodos de generación 3D, tanto de código abierto como propietarios
  • Supera todos los referentes en CMMD, FID_CLIP, FID y CLIP-score

Modelos preentrenados

  • Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B parámetros
  • Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B parámetros
  • Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B parámetros

Uso de la API

  • Diseño de API similar a diffusers para usar los modelos Hunyuan3D-DiT y Hunyuan3D-Paint
  • Se pueden generar mallas con Hunyuan3D-DiT
  • Se puede realizar síntesis de texturas con Hunyuan3D-Paint

App de Gradio

  • Se puede alojar en una computadora personal mediante la app de Gradio

📑 Plan de código abierto

  • Incluye código de inferencia, checkpoints del modelo, informe técnico, ComfyUI y versión de TensorRT

1 comentarios

 
GN⁺ 2025-01-23
Comentarios de Hacker News
  • En las preguntas sobre modelos de malla 3D, hay una discusión sobre si existe algún modelo adecuado para fotogrametría. Se usaron fotos de alta calidad, iluminación consistente y un fondo de color sólido, pero las aplicaciones comunes generan mallas de pocos polígonos o con muchos agujeros.

  • Hay una opinión de que la IA generativa reducirá a cero el costo marginal de crear contenido 3D interactivo. Esto tiene el potencial de impulsar el metaverso.

  • La licencia de Tencent Hunyuan 3D 2.0 no aplica en la Unión Europea, el Reino Unido ni Corea del Sur.

  • Hay una opinión de que, aunque existe un diagrama que muestra que la malla se genera con el algoritmo de marching cubes, en realidad parece generarse de otra manera.

  • Hay preguntas sobre si el modelo de IA puede ejecutarse en casa. Por ejemplo, se discute si puede correr en una tarjeta gráfica 4090.

  • Hay una opinión de que cualquier cosa que incluya la palabra "avanzado" es buena.

  • Los sistemas de contenido generado por usuarios pueden sufrir el llamado "problema de penes".

  • Hay una opinión de que en los modelos generativos hay que confiar, pero verificar. Es importante probarlos directamente.

  • Se intentó probar el modelo enlazado en la página de Huggingface, pero no se pudo testear por un error de sobreuso. Los resultados se ven bastante bien.

  • Se necesitan prompts largos, y eso puede generar sospechas. Se probó con prompts simples para ver qué tan difícil es usarlo en la práctica.

  • El resultado del prompt "guitarra" apareció como una guitarra algo gruesa, y el prompt "hoja de monstera" produjo una forma un poco extraña.

  • El resultado del prompt del personaje "Super Mario" es dudoso. Luigi debería verse distinto de Mario, pero no es así.

  • El resultado del prompt "Peach" da risa. Aparece como un durazno con una cara linda.

  • El resultado del prompt "Toad" parece una especie de Squirtle deformado.

  • El artículo está disponible en arXiv. Los modelos generativos se entrenan con muchos datos y quizá necesiten una interfaz similar a una base de datos.

  • Se puede imaginar un modelo enfocado en objetos funcionales para impresión 3D.