3 puntos por GN⁺ 2024-08-02 | 1 comentarios | Compartir por WhatsApp
  • Genera assets 3D de alta calidad a partir de una sola imagen en apenas 0.5 segundos
  • Construido sobre TripoSR. Se caracteriza por importantes mejoras de arquitectura y funciones mejoradas
  • Aplicable no solo para desarrolladores de videojuegos y realidad virtual, sino también para profesionales del comercio minorista, la arquitectura, el diseño y otras ocupaciones intensivas en gráficos
  • El modelo está disponible en Hugging Face y se publica bajo la Stability AI Community License
  • Se puede acceder fácilmente al modelo desde la API de Stability AI y el chatbot Stable Assistant, además de compartir creaciones 3D con el visor 3D y probarlas en realidad aumentada
  • Se puede probar con una versión de prueba gratuita

Cómo funciona

  • El usuario empieza subiendo una sola imagen del objeto
  • Stable Fast 3D genera rápidamente un asset 3D completo, que incluye una malla con UV unwrapped, parámetros de material y colores albedo con iluminación reducida, entre otros elementos
  • Opcionalmente, puede realizar reconstrucción en quads o triángulos, lo que solo añade entre 100 y 200 ms al tiempo de procesamiento

Casos de uso

  • Aprovechar tiempos de inferencia rápidos cuando la experimentación es clave durante la preproducción
  • Assets estáticos para juegos (objetos de fondo, utilería, muebles)
  • Modelos 3D para comercio electrónico
  • Generación rápida de modelos para AR/VR

Velocidad y calidad se encuentran

  • Ventaja de rendimiento en varias áreas clave frente a la competencia
  • Velocidad rápida de 0.5 segundos por generación de asset 3D en una GPU con 7 GB de VRAM
  • Mallas con UV unwrap de alta calidad y parámetros de material
  • Menor mezcla de iluminación en las texturas
  • Posibilidad de generar parámetros de material adicionales y mapas normales

Investigación y desarrollo

  • Basado en TripoSR, pero con un modelo completamente reentrenado y cambios importantes en la arquitectura
  • Las mejoras incluyen generación explícita de mallas y nuevas técnicas para generar rápidamente mallas texturizadas
  • El informe técnico destaca cómo se logra una velocidad de inferencia rápida con menor iluminación horneada y parámetros de material

Disponibilidad

  • El código del modelo Stable Fast 3D está disponible en Github y Hugging Face
  • Bajo la Stability AI Community License, se permite el uso no comercial y el uso comercial para ingresos anuales de hasta $1M
  • Se puede acceder al modelo mediante la API y Stable Assistant

Opinión de GN⁺

  • Esta tecnología de generación de modelos 3D es interesante porque puede aplicarse en diversos campos como videojuegos, realidad virtual/aumentada, diseño y arquitectura. En particular, poder generar rápidamente assets 3D de alta calidad a partir de una sola imagen puede ayudar a mejorar la productividad.
  • Sin embargo, a medida que se expanden este tipo de modelos basados en IA, podrían afectar los empleos de profesionales especializados como diseñadores gráficos o modeladores. Esto se debe a que assets 3D que antes se producían manualmente podrían automatizarse. Aunque parece difícil que la IA sustituya por completo a las personas, una reducción parcial de ciertos roles parece inevitable.
  • También debe considerarse el problema de los derechos de autor de los modelos 3D generados. Debería haber una compensación o crédito adecuado por las imágenes utilizadas en el entrenamiento. Parece necesario establecer regulaciones legales y lineamientos para el contenido generado por IA.
  • Tecnologías similares incluyen Nvidia Instant Nerf y RealityScan de Epic Games. Estas ofrecen funciones para generar modelos 3D a partir de fotos o escaneos. Su alta compatibilidad con motores de juego es una ventaja. Sin embargo, parece que todavía les falta alcanzar la velocidad de Stable Fast 3D para producir resultados de alta calidad a partir de una sola imagen.
  • En resumen, Stable Fast 3D parece contribuir a mejorar la productividad en el campo de los gráficos 3D, como videojuegos y XR, gracias a su velocidad y calidad. Aun así, será necesario avanzar en un proceso de consenso social sobre las cuestiones éticas y legales.

1 comentarios

 
GN⁺ 2024-08-02
Opiniones en Hacker News
  • A pesar de todas las expectativas puestas en los LLM, es probable que la generación de imágenes y los recursos gráficos sean los verdaderos ganadores a largo plazo de la IA actual

    • Las "alucinaciones" no son un bug, sino una función
    • Es fácil ver resultados irreales y sesgados sin necesidad de pruebas estadísticas complejas
    • La intuición humana es útil para evaluarlos y, a diferencia de los modelos de generación de texto, no está sobrevalorada
    • Incluso los métodos con pérdidas o con ruido pueden ser útiles para diversas tareas creativas
    • No hace falta que sea perfecto, y es fácil detectar y corregir rasgos distorsionados
    • No se necesita consistencia, pero si se logra, puede aportar muchísimo valor en aplicaciones como el video
    • Técnicas como LoRA permiten incluso a usuarios no especializados entrenar fácilmente modelos de personajes, estilos o conceptos específicos
    • Los modelos de generación de imágenes/visuales han mejorado mucho en el último año, y su ritmo de mejora no se ha frenado más que el de los modelos de texto
    • El futuro no será un reemplazo total de fotógrafos, directores de cine y similares, sino una nueva generación de herramientas potentes basadas en IA
    • Son muy útiles las herramientas que permiten añadir o quitar conceptos de una imagen con unos cuantos prompts de texto
    • Está surgiendo una nueva generación de usuarios avanzados, como pasó con Photoshop en los 90
  • En la tercera imagen que probaron, todas las IA 3D parecían renderizados 2D de un modelo 3D

    • Se probó con una imagen de cel shading, y el resultado del modelo era muy plano y con mala topología
    • Parece que, sin sombras correctas, no puede recalcular los vectores normales y por eso no entiende la estructura
    • Estaría bien que indicaran qué tipo de conjunto de entradas esperan que dé resultados adecuados
  • Todavía no es perfecto, pero está bastante genial

    • Puede usarse como decoración de poco esfuerzo para agregar complejidad a una escena principal, no como recurso principal
    • Puede usarse en situaciones donde un impostor billboard 2D no serviría
    • Puedes generar una imagen con Midjourney, Bing o Dalle3, arrastrarla y soltarla, y obtener una presentación 3D sorprendentemente buena
    • Puede usarse como decoración en una escena 3D donde la cámara no vaya a mostrar la parte trasera
  • No veo la hora de que esta tecnología mejore

    • Los resultados de prueba no fueron útiles
    • Hace falta más trabajo para corregir los malos modelos generados a partir de la salida de imagen
    • Parece mejor pasar por una serie de pasos para obtener lentamente un producto final de mayor calidad
    • Tal vez no estoy viendo el caso de uso correcto
  • Generar un recurso 3D en la GPU toma 0.5 segundos con 7 GB de VRAM

    • Pensé que sería un modelo solo para centros de datos, pero 7 GB de VRAM sugiere que puede correr en hardware que muchos artistas 3D ya tienen
  • Tengo muchas ganas de que esto realmente dé resultados en esta área

    • Se puede probar arrastrando una imagen en la demo de HuggingFace
    • No funcionó bien con una imagen de un gato, pero sí bastante bien con una imagen de un iPhone
    • Fue impresionante con una imagen de panqueques y pésimo con una imagen de un cohete
    • Volvió a ser impresionante con una imagen de bolas de billar
  • Pienso imprimir en 3D muchas cosas divertidas con esta tecnología

  • Parece que usaron la clásica táctica de infomercial de desaturar la imagen de comparación para que se vea mejor

  • Se puede interactuar con el modelo en la página del proyecto

  • Me despertó el entusiasmo por la pintura de miniaturas