TRELLIS - Modelo de generación de mallas 3D

(trellis3d.github.io)

1 puntos por GN⁺ 2024-12-10 | 1 comentarios | Compartir por WhatsApp

TRELLIS es un modelo generativo que crea assets 3D a partir de texto o imágenes como condición, y mejora la calidad y la flexibilidad de salida al combinar la representación latente unificada SLAT con Rectified Flow Transformers
SLAT representa geometría y texturas al contener tanto una grilla 3D dispersa como características visuales multivista, y puede decodificarse en Radiance Fields, 3D Gaussians y meshes
Se entrenó un modelo de hasta 2 mil millones de parámetros con un dataset de 500 mil assets 3D, y sus autores afirman que logra mayor calidad que métodos existentes, incluidos enfoques recientes de escala similar
Además de generación texto-a-3D e imagen-a-3D, admite la generación de variaciones de assets 3D existentes y edición de regiones locales, mostrando operaciones como quitar un brazo, agregar un arma o reemplazar piernas
Los materiales publicados se limitan a fines académicos y de investigación; persisten posibles sesgos del dataset basado en internet y limitaciones para generar objetos realistas del mundo real

Objetivos y alcance de TRELLIS

TRELLIS es un modelo generativo 3D nativo orientado a una generación 3D escalable y diversa
La página del proyecto es la única página web oficial de TRELLIS, y el trabajo figura como CVPR 2025 Highlight
Su objetivo central es crear assets 3D de alta calidad condicionados por texto o imágenes, y ofrecer diversos formatos de salida y funciones de edición
El código, los modelos y los datos se publicarán

Representación Structured LATent (SLAT)

SLAT es una representación latente 3D unificada para generación 3D de alta calidad y multipropósito
Define vectores latentes locales en vóxeles activos (active voxels) que intersectan la superficie del objeto
Los vectores latentes locales se codifican renderizando densamente el asset 3D desde múltiples vistas y luego fusionando y procesando características de imagen
Estas características provienen de un codificador de visión preentrenado y complementan la estructura gruesa proporcionada por los vóxeles activos para capturar geometría fina y propiedades visuales
Al aplicar distintos decodificadores, SLAT puede convertirse en varias representaciones 3D
- Radiance Fields
- 3D Gaussians
- meshes

Arquitectura del modelo generativo y entrenamiento

TRELLIS es una gran familia de modelos generativos 3D construida sobre SLAT, que usa prompts de texto o imágenes como condición
El pipeline de generación se divide en 2 etapas
- Primero genera la estructura dispersa de SLAT
- Luego genera los vectores latentes de las celdas no vacías
El modelo backbone usa Rectified Flow Transformers y está adaptado para manejar la dispersión de SLAT
La escala de entrenamiento llega hasta 2 mil millones de parámetros y usa un dataset grande compuesto por 500 mil objetos 3D diversos
Los resultados son assets 3D con geometría detallada y texturas vívidas, y sus autores afirman que superan ampliamente a métodos anteriores

Ejemplos de generación y edición, y formatos de salida

Los ejemplos de texto-a-3D usan prompts de texto creados por GPT-4
- Teléfono rotativo vintage de cobre
- Casa de ladrillo de dos pisos con techo rojo y cerca
- Esfera brillante sobre un pedestal de piedra
- Robot esférico con diseño dorado y plateado
Los ejemplos de imagen-a-3D usan prompts de imagen creados por DALL-E 3
En la página, la apariencia y la geometría se renderizan desde 3D Gaussians y meshes, respectivamente
Los archivos GLB se extraen horneando la apariencia de 3D Gaussians sobre una mesh
Para un asset 3D dado, puede generar variaciones coherentes con un prompt de texto
- Textura metálica y acabado de pintura naranja y blanca
- Textura similar a tela tejida en verde y morado
- Textura metálica estilo arma medieval con correa de cuero y acentos azules
- Estructura high-tech similar a vidrio transparente
Las manipulaciones locales editan una región específica según un prompt de texto o imagen
- Quitar un brazo de un mecha de combate humanoide
- Agregar un arma de rayos gigante
- Reemplazar las piernas por un chasis con orugas
Los assets 3D generados pueden componerse para crear diseños de arte 3D complejos y llenos de vida

Fines de investigación y limitaciones

TRELLIS es un proyecto puramente de investigación
El dataset utilizado es público y fue revisado para evitar información de identificación personal o contenido dañino
Dado que el dataset fue recopilado de internet, pueden persistir posibles sesgos
El modelo actual tiene fortalezas en la generación de assets 3D de estilo artístico
Su capacidad para generar objetos realistas del mundo real es limitada
Los materiales de la página se ofrecen únicamente con fines académicos y de investigación para explorar tecnologías de generación texto-a-3D e imagen-a-3D
No están pensados para uso ni explotación comercial
El artículo relacionado es el preprint de arXiv Structured 3D Latents for Scalable and Versatile 3D Generation

1 comentarios

GN⁺ 2024-12-10

Opiniones en Hacker News

Wow, es realmente impresionante, pero creo que es la primera vez que me da náusea ver contenido generado por IA.
Está tan bien hecho que me invade una tristeza al verlo como assets producidos en masa, de altísima calidad pero sin alma.
No quiero desmerecer el logro en sí; más bien se siente como si anunciara el fin de los assets hechos a mano.
No es tanto que me den lástima los artistas, sino que me da pena por mí mismo, porque quiero justamente esa cualidad de que algo haya sido hecho por manos humanas.
Esa es también la razón por la que no me gustan mucho los juegos con generación procedural. Quiero caminar por un mundo que salió de la cabeza de alguien; si quisiera un mundo generado proceduralmente que existe sin una razón particular, simplemente saldría a caminar afuera.
No quiero contenido ni montones de objetos para revisar, sino obras de arte hechas con un propósito por personas de nuestra época, que contengan su visión, ideas, valores, perspectivas y personalidad. No necesariamente tienen que verse tan bien; basta con que hayan sido creadas con intención.
- También se puede pensar así: ahora los juegos AAA ya no van a poder diferenciarse solo por tener “gráficos increíbles”.
  Para ser sinceros, la mayoría de los lanzamientos nuevos de hoy se parecen más a la misma jugabilidad con gráficos actualizados.
  Pero si pronto yo también voy a poder hacer eso, me pregunto qué tendrán preparado los grandes estudios para hacer que volvamos a ellos.
- La frase “si quisiera un mundo generado proceduralmente que existe sin una razón particular, saldría afuera” me recordó cuando empecé a hacer ejercicio al aire libre hace unos años.
  Antes casi no salía y pasaba el tiempo en una habitación relativamente oscura, pero un día miré al cielo y pensé: “Wow, estas nubes se parecen a las nubes de juegos como Horizon o Assassin's Creed”.
  También sentí algo de tristeza al ver los assets. Al ver “una casa de ladrillo de dos pisos con techo rojo y una cerca”, me acordé del ejemplo de animación/keyframes de three.js.
  El ejemplo de three.js fue hecho a mano por una persona y había una intención real detrás de cada decisión, pero Trellis se ve simplemente como una mezcla de trabajos encontrados en internet y en juegos, como un “puf, aquí está”.
  Con la IA se perderá cierto valor, pero por eso mismo el contenido hecho a mano quizá se vuelva más valioso. La duda es si reconoceremos ese valor lo suficiente como para que los artistas puedan sostenerse.
  https://threejs.org/examples/#webgl_animation_keyframes
- A muchos desarrolladores de juegos no les gusta el diseño de niveles, y la razón por la que no usan generación procedural es que eso es difícil, así que terminan construyendo a la fuerza mundos hechos a mano.
  Yo soy de esos, así que me daría bastante risa si alguien jugara mi juego y pensara que el nivel “brotó” de mi cabeza, como si yo fuera un artista profundo.
  Siento mucho orgullo por otras partes del desarrollo de juegos, pero mi diseño de niveles no es una de ellas.
- No creo que esta tecnología cambie fundamentalmente el ámbito de competencia humana.
  Cuando empiece a usarse ampliamente, habrá una avalancha de productos masivos de baja calidad, pero los artistas de verdad que quieren crear algo con intención aprenderán a usar esta tecnología como un peldaño hacia algo más grande.
  Al ver a personas como Martin Nebelong, están aprendiendo a aprovechar la IA manteniendo al humano dentro del bucle.
  https://x.com/martinnebelong?s=21&t=cTpE-rRbCiocUlN0VaSheQ
- Para alguien que no sabe crear assets 3D, es una herramienta de prototipado realmente buena.
  Es parecido a cómo el scripting visual, como Unreal Blueprints, abrió el desarrollo de juegos y el modding a personas que no estaban familiarizadas con la programación.
  Así que, si puedes obtener modelos para poner en un prototipo sin tener que aprender Blender, Maya, etc., está bien. Aunque se vean algo irregulares y raros, al menos tienes contenido.
Wow, los resultados son excelentes. No soy experto, pero siento que esto era lo que todos imaginaban desde que salió la primera demo de NeRF
Buscando, encontré incluso un comentario que escribí hace 5 años deseando esto: https://news.ycombinator.com/item?id=22642628
El siguiente paso es adjuntar automáticamente “nodos” a las imágenes 3D para que el modelo pueda pivotar o rotar. Entonces saldrían directamente contenido animado e interactivo bajo demanda
Podrías poner fotos de tu infancia para recrear recuerdos, y agregar muestras de voz de un ser querido para que te hable. Para más inmersión, te pones audífonos con cancelación de ruido y entras en VR
¡Próximamente! Haz clic aquí para unirte a la lista de espera de “Surrender Reality”
- El siguiente paso es generar modelos con una topología de malla de mayor calidad, para que la malla no se rompa al animarla y editarla
  He hecho mucha retopología, y si riggeas estos modelos tal cual, aparecerán problemas de sombreado y deformación de todo tipo. Incluso sin animarlos, de cerca la triangulación es bastante evidente
  Aun así, la generación de assets 3D de alta calidad parece estar a la vuelta de la esquina. Bastaría combinar el enfoque que se ve aquí con remallado cuadrangular por IA basado en campos de dirección estimados y detección de características, y eso también está mejorando de forma aterradora
- Intuitivamente, la combinación de un motor 3D con esta tecnología parece una mejor solución que el enfoque actual de renderizar video rasterizado directamente desde el espacio latente. Casualmente, Sora también se lanzó hoy
  Puede que no sea realista entrenar una red para riggear y animar mallas, y configurar escenas completas de videos arbitrarios como “gemelos digitales”
  Pero si una configuración así fuera posible, creo que permitiría controlar el video generado con mucho más detalle, manteniendo intacto el resto
- No tengo muy claro qué significan exactamente esos “nodos” aquí. La rotación o el zoom arbitrarios solo suenan bien en teoría cuando quieres un lazy susan o una cabeza de exorcista girando sin parar
  El siguiente paso probablemente esté más cerca de una topología simétrica más normal, mejores mapas UV y rigging automático (FK/IK) para facilitar la animación
- Me pregunto qué impacto tendrá esto en los artistas 3D de estudios de desarrollo de juegos
  ¿Los estudios usarán estas herramientas manteniendo a sus artistas para crear más contenido más rápido y fácilmente, o se quedarán solo con algunos, recortarán el otro 80% y los reemplazarán con estas herramientas?
- No solo sirve para contenido animado e interactivo bajo demanda, sino también para renderizado de imágenes estáticas
  Hasta ahora, las imágenes 2D generadas por IA tienen iluminación incorrecta y muchos errores. Una vez que se convierten en una escena 3D y se renderizan con una herramienta gratuita como Blender, la iluminación pasa a ser correcta y configurable, y los detalles erróneos se pueden arreglar fácilmente
  Ya existen herramientas absurdamente potentes, y desde aquí parece que se volverán mucho más potentes mucho más rápido
No es perfecto, pero es mucho mejor que la mayoría de los generadores de modelos 3D que he probado hasta ahora
Antes los resultados eran increíblemente malos; esta vez, fueron más que aceptables
Ahora solo necesito que entregue un formato de archivo que pueda meter directo en Orca Slicer
Impresionante. Hice este dirigible low-poly con layer diffusion: https://image.non.io/b3f843be-b1b4-468a-a0ec-9d58b191beee.we...
El resultado es este: https://video.non.io/video-2732101706.mp4
Sinceramente no está nada mal, y se está acercando al punto de poder usarse como asset de juego
Probé con una imagen del caza furtivo F-117 de Wikipedia y la salida fue un fracaso total
Los ejemplos de la página del proyecto me dejaron sin entender cómo los generaron, y desde la silueta básica estaba todo completamente mal
Esperaba poder subir imágenes desde varios ángulos para corregirlo, pero no parece haber esa función
- El F-117 tiene una forma muy particular. Si no sabes cómo se ve originalmente, extrapolarlo a partir de una sola vista desde un ángulo específico es bastante difícil incluso para una persona
  Si no estaba en el dataset, eso se le puede perdonar. Sobre todo porque, por su forma angulosa, parece fácil que lo clasifique erróneamente como algo que no es un avión
  No lo digo por la calidad general del modelo; el F-117 casi seguro sería una prueba injusta
Vi que esto se publicó hace unos días, pero es una demo muy impresionante y me gustaría que se discutiera aquí
https://news.ycombinator.com/item?id=42342557
Se ve el potencial, pero las imágenes que puse parecen haberse salido mucho de la distribución de entrenamiento, porque solo generó unas placas planas raras
- Logré que funcionara bien con imágenes tipo juego isométrico, mirando personajes u objetos desde arriba
  Cuando usaba imágenes de frente, todos los resultados salían planos
- Otra herramienta milagrosa. Hasta que la pruebas tú mismo
Depende mucho de la imagen, pero fue realmente sorprendente cómo reprodujo el pelaje de animales con una combinación adecuada de malla poligonal y texturas transparentes
Los ejemplos de la página ni siquiera mostraban esta capacidad
https://imgur.com/a/qJp4HNX
AlphaFold es un modelo que genera 3D a partir de secuencias de proteínas 1D, y su representación interna de datos es sofisticada y compleja
En cambio, este paper es interesante porque básicamente voxeliza los datos de entrada y crea el set de entrenamiento tomando muchas fotos desde distintos ángulos
Pude usar esto para ir desde una imagen generada por IA hasta una impresión 3D. Dejé los pasos resumidos aquí: https://x.com/ryanlanciaux/status/1866163343788007619
- Es realmente futurista. Puedes crear una imagen con palabras y convertirla en un objeto físico en tu casa, pero el texto plano y las imágenes que explican el proceso no se pueden leer por culpa de un sitio roto

TRELLIS - Modelo de generación de mallas 3D

Objetivos y alcance de TRELLIS

Representación Structured LATent (SLAT)

Arquitectura del modelo generativo y entrenamiento

Ejemplos de generación y edición, y formatos de salida

Fines de investigación y limitaciones

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News