11 puntos por GN⁺ 2025-08-18 | 1 comentarios | Compartir por WhatsApp
  • LL3M usa varios grandes modelos de lenguaje para escribir automáticamente código Python y generar y editar assets 3D en Blender
  • A partir de instrucciones de texto del usuario, crea directamente formas creativas y precisas e implementa manipulaciones geométricas complejas mediante código
  • A diferencia de las herramientas existentes de generación de modelos 3D, ofrece creación de assets sin restricciones e interacción detallada
  • El código de Blender generado es claro y tiene alta transparencia de parámetros, por lo que usuarios o agentes pueden modificarlo fácilmente o mejorarlo de forma iterativa
  • Muestra amplias posibilidades para el procesamiento de assets 3D, como estilización consistente, edición de materiales e implementación de jerarquías

Resumen de LL3M

  • LL3M es un framework innovador en el que varios agentes de grandes modelos de lenguaje (LLM) escriben código Python para generar y editar assets 3D en Blender
  • Cuando el usuario da instrucciones en texto, LL3M automatiza la creación de formas creativas y la manipulación geométrica precisa, y usa código de alto nivel como forma de representación 3D para permitir mejoras iterativas y trabajo colaborativo
  • El código está explicado con claridad y deja transparentes varios parámetros y estructuras, lo que facilita tanto la edición adicional como la retroalimentación continua del usuario

Resumen del pipeline

  • El pipeline se compone de tres etapas principales (generación inicial, mejora automática y mejora basada en retroalimentación del usuario)
    • En la etapa de generación inicial se crea una forma básica, mientras LL3M detecta y mejora automáticamente estructuras lógicamente inadecuadas o elementos geométricos simples
    • La segunda etapa aplica correcciones automáticas más refinadas y también refleja formas o relaciones complejas
    • La última etapa acepta solicitudes de edición adicionales del usuario y hace posible una generación de assets 3D interactiva e iterativa
  • Cada etapa implementa un método de mejora iterativa y gradual basado en la división de roles entre agentes

Galería y rendimiento

  • Generación de formas diversas: implementa mediante código arreglos complejos y detalles finos de molinos de viento, pianos, baterías y más
  • Aplicación consistente de estilo: aplica la misma instrucción "steampunk" a varias mallas (sombreros) para generar resultados variados manteniendo un estilo común
  • Soporte para edición de materiales: por ejemplo, permite cambiar el material definiendo solo la parte de la hoja con nodos de shader separados

Interpretabilidad del código

  • El código generado incluye lógica estructural, nombres de variables claros y comentarios, por lo que es fácil de entender y modificar
  • Ejemplo: es posible cambiar directamente la lógica del patrón del teclado o las variables del ancho de las teclas
  • Los nodos y parámetros de Blender quedan expuestos tal cual, de modo que es posible ajustar intuitivamente propiedades visuales como color y patrón

Reutilización y generalidad del código

  • Incluso entre formas diferentes, se reutilizan patrones de código de alto nivel como bucles, modificadores y configuración de nodos
  • Esto permite generar código modular y editable a partir de distintos prompts

Escena y estructura jerárquica

  • Genera múltiples objetos y organiza automáticamente sus relaciones espaciales mediante instancing y parenting
  • Ejemplo: al crear un objeto compuesto como una lámpara, refleja la estructura de relaciones padre-hijo para que las transformaciones se propaguen jerárquicamente
  • Cada parte recibe nombres semánticos significativos, lo que permite gestionarlas eficientemente en el scene graph de Blender

1 comentarios

 
GN⁺ 2025-08-18
Comentarios en Hacker News
  • He tenido un éxito inesperado usando meshy.ai para convertir las imágenes que quieren mis amigos en buenos modelos 3D. Mi flujo de trabajo es: 1) convierto la imagen original a algo con apariencia de malla renderizada suave usando un modelo de imágenes como GPT-5 o Midjourney, es decir, quitando detalles innecesarios o efectos transparentes y tridimensionales. 2) Luego meto esa imagen depurada en el modo image to 3D de meshy.ai y, si no me convence, vuelvo al paso 1 para cambiar el estilo de la imagen y elegir otra opción. 3) Al final la paso a Blender para editar la malla como quiera (ajustar partes específicas, agregar asimetría, etc.) y hacer trabajo adicional de modelado. La estructura de la malla es bastante estable y da la impresión de que quizá usan marching cubes o dual contouring sobre algún generador tipo NeRF. Yo soy realmente rápido con CAD mecánico, pero mi nivel en Blender es normal, así que me resulta muy eficiente que la IA haga la estructura general del modelo y yo solo tenga que corregir y completar a mano. Por ejemplo, si un amigo me pide modificar una estatua de una persona real, antes eso me tomaba demasiado tiempo; con la combinación de IA + Blender, siento una gran mejora de productividad porque invierto 5 minutos en crear el modelo y luego alrededor de 1 hora en pulirlo en Blender
    • En el paso 1 mencionaste convertir la imagen a algo con apariencia de malla render matte; me gustaría entender a qué tipo de imagen te refieres exactamente. Entiendo lo de volver opacas las superficies transparentes, pero quisiera pedir si puedes compartir un ejemplo de la imagen completa o los prompts que usas en ese proceso
    • GPT-5 es un modelo solo de texto. ChatGPT sigue usando 4o para procesar imágenes
  • Llevo más de 7 años usando Blender, y he dejado más de 1000 respuestas en Blender Stack Exchange con unos 48,000 puntos. Esta herramienta de Blender basada en IA tal vez sirva para aprender Python, especialmente lo básico de la API de Python de Blender, pero en la práctica no le veo mucha necesidad. Las tareas que muestran como ejemplo son realmente muy fáciles de hacer en Blender, y con este tipo de herramientas solo salen resultados planos ajustados al prompt que ingresaste. El modelado básico es algo que puedes aprender en un día de tutoriales y hacer tú mismo, y lo importante es que así los modelos reflejan tu propia creatividad. Después de más o menos una semana, puedes hacerlo tú mismo más rápido que con prompts de IA y además ir mejorando tu habilidad. No se aprende mucho con IA. meshy.ai está bien para convertir fotos o renders en mallas y aplicar texturas razonables, pero después de eso parece más bien útil para quien no sea bueno esculpiendo. Como referencia, dejé mis pruebas con meshy.ai aquí
    • Incluso siguiendo tutoriales de Blender durante varios días, hay gente que no puede llegar al nivel de los ejemplos. Creo que estás proyectando demasiado tu propia habilidad. Para alguien que no es artista de modelado 3D, sino simplemente un usuario que necesitaba un modelo 3D, esta tecnología es realmente útil
    • Yo también uso Houdini como hobby, y aunque puedo hacer un solo modelo parametrizado en unos días, para crear un video corto o una escena completa se necesitan cientos o miles de modelos, texturas, rigging, animación e incluso simulaciones. Incluso una animación de 2 minutos es casi imposible para un artista en solitario. La mayoría termina comprando paquetes de assets y combinándolos, pero entonces tu arte queda atado a ese estilo. Este tipo de herramientas de IA alivia muchísimo aunque sea una o dos de esas etapas, y amplía lo que una sola persona puede hacer
    • Como desarrollador y diseñador de herramientas de soporte al cliente con IA, siento que tengo que seguir explicándole a la empresa que a los LLM les falta iniciativa en la conversación y creatividad. Me gustaría que se enfocaran menos en funciones aisladas y más en integrar IA dentro de las herramientas para acelerar trabajo repetitivo. Por ejemplo, funciones como la automatización de restricciones con IA en Fusion360 sí elevan de verdad la productividad. Para Blender, herramientas orientadas en esa dirección (por ejemplo: conexión automática de materiales) me resultan mucho más interesantes
    • Si eres un usuario que no quiere pasar semanas aprendiendo Blender, entonces lo más eficiente es poder invertir solo unas horas y aun así obtener un resultado suficientemente útil
    • Vale la pena recordar que hoy es el peor momento que tendrá esta herramienta. A partir de ahora solo va a mejorar, así que la aplicación de los LLM en este campo apenas está comenzando
  • Esta es justo la dirección que llevo tiempo enfatizando a mis amigos. En adelante va a ganar el software creativo centrado en APIs. After Effects ofrece una API de JS bastante decente, y Da Vinci Resolve puede automatizarse con varios scripts como Python y Lua. También soporta bien rollback de transacciones durante el proceso de scripting. Cada vez hace más falta un MCP generalizado para los entornos de scripting de la mayoría de las apps de escritorio. También se necesita captura de pantalla integrada con entrada multimodal
  • Hace poco escribí con Claude un script de automatización en Lua para crear personajes de generación procedural en Aseprite (editor de pixel art). Podía reproducir los resultados con un valor de semilla y más o menos salía una forma humana, pero todavía estaba muy lejos en calidad. Aun así, fue muy accesible y divertido de usar.
    • Si este tema te interesa, también podría valer la pena echarle un vistazo a pixellab.ai. Están haciendo un plugin para Aseprite que genera imágenes de sprites bastante decentes solo con prompts
    • Yo también sigo buscando una buena IA para pixel art. La mayoría de las herramientas que he probado son simplemente aceptables, pero no impresionantes. Si alguien ha tenido una buena experiencia, me gustaría pedir recomendaciones con enlaces
  • Antes de menospreciar la calidad de los modelos 3D, conviene recordar el antiguo Dancing Baby y las primeras animaciones de Pixar; el avance ha sido realmente asombroso. Espero con ganas una época en la que baste con darle un prompt a un LLM para que salga un modelo 3D casi terminado, y yo solo tenga que hacer las texturas, el baking y la exportación
    • Yo también espero que pronto llegue la era en la que los datos experimentales acumulados por la humanidad durante billones de horas se agreguen en modelos estadísticos, y las empresas los moneticen sin pagar ni un centavo a quienes realmente hicieron posible eso
    • Un LLM es un modelo de lenguaje, y los datos de malla no son lenguaje. En teoría podría generar una malla simple con Python, pero nadie va a crear arte 3D verdaderamente hermoso de esta forma. Igual que no haces arte vectorial escribiendo SVG a mano, producir arte visual solo con un LLM es difícil. Un LLM puede servir como interfaz para otros modelos, pero por sí solo no puede crear todo
  • Me anima mucho ver cuánto ha mejorado recientemente la inteligencia espacial de los LLM. Hace apenas un año, incluso al pedirles que escribieran historias con conceptos de posición como arriba/abajo, izquierda/derecha o adelante/atrás, se confundían por completo y no lograban distinguirlos bien. Le pregunté a GPT cuál era el software CAD más conveniente para hacer scripting y respondió Freecad. Blender es más un modelador que una herramienta CAD, ya que, entre otras cosas, no permite mediciones de precisión. La API de Freecad está menos organizada, así que a GPT le cuesta recordar o encontrar bien las funciones relacionadas. Blender funciona mucho mejor porque tiene muchos usuarios y mucho código compartido
    • Me pregunto qué tal será OpenSCAD
    • Me pregunto si también se podrían escribir scripts para automatizar tareas de medición en CAD
  • He intentado usar Blender varias veces y siempre termino abandonándolo. Ahora solo uso Blender cuando hago títulos animados en Openshot. Siempre será bienvenida cualquier forma de facilitar el uso de herramientas avanzadas
  • Creo que van a aparecer grandes modelos basados en tokens para todo, porque todos los datos del mundo pueden tokenizarse. No es obligatorio pasar por el lenguaje, y la IA poco a poco podrá manejar datos geométricos con fluidez
    • El rechazo hacia los datos generados por IA proviene en gran parte de esa limitación al lenguaje. Por eso no logra reflejarse una entrada realmente creativa
    • Así como word2vec provocó una gran innovación en su momento, los modelos 3D también podían representarse fundamentalmente en un espacio vectorial
  • El punto importante aquí es el flujo de trabajo con agentes. A medida que la comprensión del mundo 3D por parte de los LLM siga mejorando, esto va a servir en muchas situaciones. También será útil para revisar errores de expertos, hacer recomendaciones o mostrar ayuda emergente, funcionando en segundo plano para encontrar problemas sin intervención humana. La capacidad de controlarlo de forma programática también va a volverse cada vez más valiosa
  • No soy modelador, pero lo he intentado varias veces mientras desarrollaba un juego 3D en solitario. Para mí, modelar era un doloroso requisito obligatorio. Si existieran herramientas así, planeo usarlas en proyectos indie para crear rápidamente modelos base de muy bajo poligonaje y luego usarlos como base para refinarlos a mano con más detalle. Desde mi perspectiva, ahorrar tiempo vale más que lograr calidad máxima