Stable Fast 3D - generación rápida de assets 3D a partir de una sola imagen

(stability.ai)

3 puntos por GN⁺ 2024-08-02 | 1 comentarios | Compartir por WhatsApp

Genera assets 3D de alta calidad a partir de una sola imagen en apenas 0.5 segundos
Construido sobre TripoSR. Se caracteriza por importantes mejoras de arquitectura y funciones mejoradas
Aplicable no solo para desarrolladores de videojuegos y realidad virtual, sino también para profesionales del comercio minorista, la arquitectura, el diseño y otras ocupaciones intensivas en gráficos
El modelo está disponible en Hugging Face y se publica bajo la Stability AI Community License
Se puede acceder fácilmente al modelo desde la API de Stability AI y el chatbot Stable Assistant, además de compartir creaciones 3D con el visor 3D y probarlas en realidad aumentada
Se puede probar con una versión de prueba gratuita

Cómo funciona

El usuario empieza subiendo una sola imagen del objeto
Stable Fast 3D genera rápidamente un asset 3D completo, que incluye una malla con UV unwrapped, parámetros de material y colores albedo con iluminación reducida, entre otros elementos
Opcionalmente, puede realizar reconstrucción en quads o triángulos, lo que solo añade entre 100 y 200 ms al tiempo de procesamiento

Casos de uso

Aprovechar tiempos de inferencia rápidos cuando la experimentación es clave durante la preproducción
Assets estáticos para juegos (objetos de fondo, utilería, muebles)
Modelos 3D para comercio electrónico
Generación rápida de modelos para AR/VR

Velocidad y calidad se encuentran

Ventaja de rendimiento en varias áreas clave frente a la competencia
Velocidad rápida de 0.5 segundos por generación de asset 3D en una GPU con 7 GB de VRAM
Mallas con UV unwrap de alta calidad y parámetros de material
Menor mezcla de iluminación en las texturas
Posibilidad de generar parámetros de material adicionales y mapas normales

Investigación y desarrollo

Basado en TripoSR, pero con un modelo completamente reentrenado y cambios importantes en la arquitectura
Las mejoras incluyen generación explícita de mallas y nuevas técnicas para generar rápidamente mallas texturizadas
El informe técnico destaca cómo se logra una velocidad de inferencia rápida con menor iluminación horneada y parámetros de material

Disponibilidad

El código del modelo Stable Fast 3D está disponible en Github y Hugging Face
Bajo la Stability AI Community License, se permite el uso no comercial y el uso comercial para ingresos anuales de hasta $1M
Se puede acceder al modelo mediante la API y Stable Assistant

Opinión de GN⁺

Esta tecnología de generación de modelos 3D es interesante porque puede aplicarse en diversos campos como videojuegos, realidad virtual/aumentada, diseño y arquitectura. En particular, poder generar rápidamente assets 3D de alta calidad a partir de una sola imagen puede ayudar a mejorar la productividad.
Sin embargo, a medida que se expanden este tipo de modelos basados en IA, podrían afectar los empleos de profesionales especializados como diseñadores gráficos o modeladores. Esto se debe a que assets 3D que antes se producían manualmente podrían automatizarse. Aunque parece difícil que la IA sustituya por completo a las personas, una reducción parcial de ciertos roles parece inevitable.
También debe considerarse el problema de los derechos de autor de los modelos 3D generados. Debería haber una compensación o crédito adecuado por las imágenes utilizadas en el entrenamiento. Parece necesario establecer regulaciones legales y lineamientos para el contenido generado por IA.
Tecnologías similares incluyen Nvidia Instant Nerf y RealityScan de Epic Games. Estas ofrecen funciones para generar modelos 3D a partir de fotos o escaneos. Su alta compatibilidad con motores de juego es una ventaja. Sin embargo, parece que todavía les falta alcanzar la velocidad de Stable Fast 3D para producir resultados de alta calidad a partir de una sola imagen.
En resumen, Stable Fast 3D parece contribuir a mejorar la productividad en el campo de los gráficos 3D, como videojuegos y XR, gracias a su velocidad y calidad. Aun así, será necesario avanzar en un proceso de consenso social sobre las cuestiones éticas y legales.

1 comentarios

GN⁺ 2024-08-02

Opiniones en Hacker News

A pesar de todas las expectativas puestas en los LLM, es probable que la generación de imágenes y los recursos gráficos sean los verdaderos ganadores a largo plazo de la IA actual
- Las "alucinaciones" no son un bug, sino una función
- Es fácil ver resultados irreales y sesgados sin necesidad de pruebas estadísticas complejas
- La intuición humana es útil para evaluarlos y, a diferencia de los modelos de generación de texto, no está sobrevalorada
- Incluso los métodos con pérdidas o con ruido pueden ser útiles para diversas tareas creativas
- No hace falta que sea perfecto, y es fácil detectar y corregir rasgos distorsionados
- No se necesita consistencia, pero si se logra, puede aportar muchísimo valor en aplicaciones como el video
- Técnicas como LoRA permiten incluso a usuarios no especializados entrenar fácilmente modelos de personajes, estilos o conceptos específicos
- Los modelos de generación de imágenes/visuales han mejorado mucho en el último año, y su ritmo de mejora no se ha frenado más que el de los modelos de texto
- El futuro no será un reemplazo total de fotógrafos, directores de cine y similares, sino una nueva generación de herramientas potentes basadas en IA
- Son muy útiles las herramientas que permiten añadir o quitar conceptos de una imagen con unos cuantos prompts de texto
- Está surgiendo una nueva generación de usuarios avanzados, como pasó con Photoshop en los 90
En la tercera imagen que probaron, todas las IA 3D parecían renderizados 2D de un modelo 3D
- Se probó con una imagen de cel shading, y el resultado del modelo era muy plano y con mala topología
- Parece que, sin sombras correctas, no puede recalcular los vectores normales y por eso no entiende la estructura
- Estaría bien que indicaran qué tipo de conjunto de entradas esperan que dé resultados adecuados
Todavía no es perfecto, pero está bastante genial
- Puede usarse como decoración de poco esfuerzo para agregar complejidad a una escena principal, no como recurso principal
- Puede usarse en situaciones donde un impostor billboard 2D no serviría
- Puedes generar una imagen con Midjourney, Bing o Dalle3, arrastrarla y soltarla, y obtener una presentación 3D sorprendentemente buena
- Puede usarse como decoración en una escena 3D donde la cámara no vaya a mostrar la parte trasera
No veo la hora de que esta tecnología mejore
- Los resultados de prueba no fueron útiles
- Hace falta más trabajo para corregir los malos modelos generados a partir de la salida de imagen
- Parece mejor pasar por una serie de pasos para obtener lentamente un producto final de mayor calidad
- Tal vez no estoy viendo el caso de uso correcto
Generar un recurso 3D en la GPU toma 0.5 segundos con 7 GB de VRAM
- Pensé que sería un modelo solo para centros de datos, pero 7 GB de VRAM sugiere que puede correr en hardware que muchos artistas 3D ya tienen
Tengo muchas ganas de que esto realmente dé resultados en esta área
- Se puede probar arrastrando una imagen en la demo de HuggingFace
- No funcionó bien con una imagen de un gato, pero sí bastante bien con una imagen de un iPhone
- Fue impresionante con una imagen de panqueques y pésimo con una imagen de un cohete
- Volvió a ser impresionante con una imagen de bolas de billar
Pienso imprimir en 3D muchas cosas divertidas con esta tecnología
Parece que usaron la clásica táctica de infomercial de desaturar la imagen de comparación para que se vea mejor
Se puede interactuar con el modelo en la página del proyecto
Me despertó el entusiasmo por la pintura de miniaturas

Stable Fast 3D - generación rápida de assets 3D a partir de una sola imagen

Cómo funciona

Casos de uso

Velocidad y calidad se encuentran

Investigación y desarrollo

Disponibilidad

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News