MeshGPT: tecnología de generación de mallas triangulares con un transformador solo decodificador
(nihalsid.github.io)MeshGPT: transformador solo decodificador para la generación de mallas triangulares
- MeshGPT genera mallas triangulares al muestrear de forma autorregresiva un modelo transformer que produce tokens a partir de un vocabulario geométrico aprendido.
- Estos tokens pueden decodificarse como caras de una malla triangular, y las mallas generadas se caracterizan por ser limpias, consistentes, con bordes afilados y alta fidelidad.
Resumen
- MeshGPT es un nuevo método de generación de mallas triangulares que refleja la compacidad característica de las mallas creadas por artistas, en contraste con las mallas triangulares densas extraídas de campos neuronales.
- Inspirado por los recientes avances en potentes modelos de lenguaje a gran escala, adopta un enfoque basado en secuencias que genera de forma autorregresiva mallas triangulares como una secuencia de triángulos.
- Primero aprende un vocabulario de embeddings potencialmente cuantizados usando convolución sobre grafos, y luego estos embeddings son secuenciados y decodificados en triángulos por un decodificador para reconstruir eficazmente la malla.
Comparación en video y otras aplicaciones
- El enfoque de MeshGPT genera mallas compactas con detalles geométricos afilados, mientras que los métodos existentes tienden a perder estos detalles, producir mallas excesivamente trianguladas o generar formas demasiado simples.
- Cuando se le proporciona una malla parcial, este método puede inferir múltiples posibles completaciones de forma.
- Este método puede usarse para generar activos 3D para una escena; aquí se muestra una habitación llena de activos generados con este método.
Resumen del método
- Primero se aprende un vocabulario para mallas triangulares, y luego se usa para realizar la generación autorregresiva de mallas.
- Se aprende un vocabulario de embeddings geométricos a partir de una colección de formas diversas, mediante una red encoder-decoder con cuantización vectorial.
- Una vez completamente entrenado, este transformer permite muestrear directamente la malla como una secuencia de tokens del vocabulario aprendido.
Opinión de GN⁺
MeshGPT presenta un enfoque innovador que supera los métodos existentes de generación de mallas, mostrando mejoras notables en cobertura de formas y puntajes FID. Esta tecnología representa un gran avance en el campo del modelado 3D y los gráficos por computadora, y resulta especialmente interesante por su capacidad de generar directamente mallas compactas con bordes afilados que imitan mejor los patrones de triangulación eficientes de las mallas hechas por humanos. Estos avances ofrecen nuevas herramientas para los creadores de contenido 3D y abren la posibilidad de generar activos 3D de mejor calidad de manera más rápida y eficiente.
1 comentarios
Opiniones de Hacker News
Una investigación que muestra una idea revolucionaria, con muchos detalles incluidos en el paper. Ya se sabe que los modelos transformer pueden escalar, y se espera que esta idea sea usada por muchas empresas para entrenar pipelines generales de generación de assets 3D.
Como ingeniero de machine learning interesado en Blender y en el desarrollo de juegos como hobby, esta investigación me parece impresionante, pero no es útil de forma práctica para ejemplos limitados de mobiliario. Un modelador experimentado puede crear estas mallas en menos de 5 minutos, y además todavía se necesitan polígonos para la generación. El siguiente paso probablemente será el control de generación de seeds usando LLM y agregar modelos de imagen a la parte autorregresiva de la arquitectura. Entonces sí podríamos ver assets realmente adecuados para juegos móviles.
Como alguien cuyo trabajo es la producción 3D/cinematográfica, la situación actual me parece muy interesante y también aterradora.
Tengo curiosidad por saber cuál es la entrada. ¿Convierte consultas de texto como "silla" en mallas? Edición: parece que el método principal de entrada y salida es la completación de mallas, no una función simple.
Parece que los problemas difíciles que quedaban y que no habían tenido grandes avances desde los 90 de alguna manera se resolverán con transformers. Es fascinante vivir en esta época.
La próxima innovación será una UX para generar escenas 3D con modelos como este frente a VR. Eso nos permitirá generar entornos 3D permanentes y arbitrarios para cualquier ambiente del que tengamos datos de entrenamiento. Los modelos de difusión podrían usarse para generar texturas.
Incluso si esto fuera "solo" autocompletado de mallas, sería muy útil para artistas 3D. Actualmente hay una brecha entre cómo se esculpen personajes y cómo se animan. Retopologizar un modelo toma mucho tiempo. Una retopología basada en transformers que tome una malla burda y entregue una topología limpia sería un enorme ahorro de tiempo.
Me encanta esta área. El paper incluye un sitio web genial, ejemplos y videos. Se siente mucho más refrescante que el estilo de paper con abstract, introducción y resultados densos.
¡Esta tecnología está mejorando muchísimo! Todavía hay bordes raros, pero ahora se siente más como un tema de "detalles repetitivos" que como un problema algorítmico o complejo. Si pudiéramos meter todas las mallas en una carpeta, entrenar una red y luego pedirle otra cosa en ese estilo, ya no haría falta retopologizar lo generado ni aplicar otras influencias creativas. Claro, hasta llegar completamente a ese punto, procgen sigue dando un mejor servicio, pero me emociona muchísimo la rapidez con la que está avanzando esta tecnología. Ojalá en la presentación de Unreal del próximo año hablen de una nueva función de "Asset Generator".
¡Esta tecnología de verdad se ve genial! Parece que sería de enorme ayuda para desarrolladores indie de juegos al generar una gran cantidad de assets.