7 puntos por GN⁺ 2025-05-10 | 1 comentarios | Compartir por WhatsApp
  • LegoGPT es un proyecto innovador que genera estructuras LEGO estables y realmente ensamblables usando solo texto como entrada
  • Construyó el dataset StableText2Lego, que ofrece más de 47,000 estructuras LEGO físicamente estables y descripciones detalladas
  • El algoritmo aplica validación rápida y rollback basado en física para eliminar automáticamente estructuras irreales
  • Los diseños LEGO generados pueden ser ensamblados en la práctica tanto por personas como por robots, e incluso admiten diversas expresiones de color y textura
  • Este sistema abre nuevas posibilidades en áreas como prototipado de diseño creativo, educación y aplicaciones de robótica

Introducción al proyecto

  • LegoGPT es el primer enfoque que genera, de manera completamente automatizada y a partir de prompts de texto ingresados por el usuario, estructuras LEGO realmente ensamblables y físicamente estables
  • El proyecto fue construido con un dataset de estructuras LEGO a gran escala y descripciones detalladas, y produce resultados con estabilidad, diversidad y calidad estética incluso en el proceso de ensamblaje real
  • Se verificó experimentalmente que los resultados de generación de estructuras LEGO pueden ser ensamblados manualmente por personas o de forma automática con un brazo robótico

Dataset StableText2Lego

  • El dataset StableText2Lego voxeliza formas a partir de mallas 3D de ShapeNetCore y aplica diversos métodos de colocación de bricks para adoptar solo estructuras que pasan la verificación de estabilidad física
  • Durante el proceso de generación de datos, para cada estructura se renderizan vistas desde 24 ángulos, y con base en ellas GPT-4o genera automáticamente descripciones detalladas
  • El dataset así construido incluye más de 47,000 estructuras LEGO con formas, estructuras y texturas diversas, así como más de 28,000 objetos 3D únicos

Pipeline de LegoGPT

  • Las estructuras LEGO se tokenizan como secuencias de texto de abajo hacia arriba, con un método de raster-scan
  • Al emparejar cada secuencia de bricks con una descripción en lenguaje natural, se realiza ajuste fino sobre un modelo basado en LLaMA-3.2-Instruct-1B para aprender el mapeo entre descripción y secuencia de bricks
  • En la etapa de inferencia, LegoGPT genera la estructura LEGO de forma progresiva para un prompt de texto prediciendo y agregando bricks uno por uno
  • Cada vez que se agrega un brick, se realiza una validación sobre formato, existencia en la biblioteca de bricks y colisiones, y tras generar toda la estructura se revalida la estabilidad física
  • Si la estructura final es inestable, se eliminan tanto el brick inestable como todos los bricks añadidos después, y se hace rollback hasta un estado estable para regenerarla

Ejemplos de generación paso a paso de estructuras LEGO

  • "Un bote esbelto con casco largo y angosto"
  • "Un librero con repisas horizontales"
  • "Una banca con reposabrazos y sin respaldo"
  • Cada ejemplo se genera paso a paso desde un prompt de texto hasta una estructura LEGO que refleja claramente sus rasgos visuales

Ensamblaje automático con robots

  • Los modelos LEGO generados se aplicaron al ensamblaje real con un brazo robótico y se mostraron en una demostración en video a 8x de velocidad
  • Muestran la viabilidad real de ensamblaje robótico en casos como "Un bote esbelto con casco largo y angosto" y "Una guitarra asimétrica de 6 cuerdas"

Modelos LEGO generados con textura y color

  • A partir de prompts en lenguaje natural como "Una banca cubierta de musgo", "Material cyberpunk con gradiente neón" o "Estantería de estudio victoriano", ofrece diseños LEGO capaces de expresar textura, material y efectos estéticos específicos
  • También permite diseños LEGO que reflejan solo con texto colores variados y efectos metálicos, como en "Sunburst Les Paul with amber finish"

Citas y apoyo a la investigación

  • Se indican la información del paper, los autores y las instituciones que apoyaron esta investigación (por ejemplo, Packard Foundation, Amazon Faculty Award, etc.)
  • Es un proyecto desarrollado con diversos apoyos académicos e industriales, como la Microsoft Research PhD Fellowship de uno de los investigadores principales

Referencias del proyecto y plantilla

  • La plantilla del sitio toma como referencia y aprovecha el diseño de los proyectos Custom Diffusion y DreamFusion

1 comentarios

 
GN⁺ 2025-05-10
Comentarios de Hacker News
  • Usamos verificación de validez eficiente y rollback basado en física para aumentar la estabilidad de los resultados, podando predicciones de tokens imposibles según las leyes físicas y las restricciones de ensamblaje. Una de las cosas más interesantes de usar IA es precisamente esta forma de generar y optimizar posibilidades dentro de restricciones específicas del dominio programadas manualmente. Por ejemplo, una IA de semáforos necesita restricciones duras para evitar choques. Dentro de esas restricciones, la IA puede experimentar libremente con ideas de optimización. Al final, la clave está en cómo diseñas el espacio del problema y las restricciones. En este caso, son los ladrillos LEGO, sus combinaciones y su estabilidad
    • Este enfoque es un ejemplo clásico de metaheurísticas que existen desde hace décadas. Hay muchos algoritmos distintos, y hasta hay una introducción ligera que vale la pena revisar https://cs.gmu.edu/~sean/book/metaheuristics/
    • Hoy en día, incluso los LLM ya están mostrando una versión simple de esto. Si usas el modo JSON Schema para bloquear estados inválidos desde el origen y sueltas el modelo dentro de un espacio restringido, al menos puedes garantizar que solo produzca resultados válidos. Es una especie de seguridad de tipos. La lógica de validación y corrección también puede aplicarse a varios escenarios de verificación. Ojalá veamos más usos así
    • Para este tipo de problema, pensaría en un modelo basado en MILP o CLP. Las restricciones definen el espacio de búsqueda, y el algoritmo del solver explora ese espacio
    • También podría ser interesante para aprendizaje por refuerzo. Si le das al sistema una recompensa negativa, podría empezar a obedecer reglas de seguridad. Aun así, en producción siempre hay que mantener salvaguardas https://en.wikipedia.org/wiki/Reinforcement_learning
    • No he leído cómo aplican las restricciones. Se usa algo parecido cuando obligas a un LLM a producir salida estructurada como JSON. En llama.cpp también hay soporte para coincidencia con gramáticas personalizadas
    • Estoy totalmente de acuerdo con esto. Si limitas la generación con física, legalidad y restricciones de herramientas, el modelo se parece menos a un simple predictor de palabras y más a un motor de exploración y verificación. Es más cercano a la síntesis de programas. El verdadero valor está en definir el espacio del problema con tanto cuidado que el modelo quede encerrado dentro de una "caja" donde solo pueda producir resultados realmente útiles
    • Como experimento curioso: pídele a un LLM que diga "APPLE", pero pon los logits de los tokens relacionados con Apple en -infinito para que no pueda usar esa palabra. Entonces saldrá algo como "Banana. Es broma. Banana. Oh, me equivoqué porque es deliciosa. Voy de nuevo: Orange. Ah, ahora fue grape. No, esa verdura crujiente carrot"
    • Yo también creo que este es el ámbito donde la IA realmente brilla. Los humanos definen las reglas —leyes físicas, seguridad vial, etc.— y la IA encuentra la mejor solución dentro de un espacio de búsqueda enorme
    • Creo que la retroalimentación de errores es la llave que realmente abrirá posibilidades. Por ejemplo, si a un bot de texto-a-SQL le das los errores del proveedor SQL como feedback, produce consultas mucho mejores
    • Hay una idea parecida en química combinatoria, así que tal vez podríamos llamarlo AI Chemistry https://en.wikipedia.org/wiki/Combinatorial_chemistry
  • Este proyecto probablemente reciba una carta de advertencia de los abogados de LEGO. Si quieren irse a la segura, mejor no usen la palabra LEGO y usen Bricks o Klemmbausteine (alemán). Mucha gente ya ha tenido conflictos con el equipo legal de LEGO y de verdad es muy desgastante
    • Como realmente están usando ladrillos LEGO, no hay mucho margen para confusión. Aun así, es ambiguo que no aclaren explícitamente que no están afiliados a LEGO. Por otro lado, como no parece que busquen monetizar esto, también se ve débil el argumento de que LEGO esté siendo perjudicada, así que el riesgo parece bajo
    • Incluso youtubers o sitios pequeños de hobby a veces reciben avisos de retirada solo por el contexto en que usan la palabra
    • Mientras tanto, Amazon vende sin problema el Boy and Tiger Adventure Blocks Set, que copia tanto a LEGO como a Calvin & Hobbes https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
    • Como esto es investigación académica, pensaría que entra dentro de uso justo
    • ¡Yo pienso lo mismo! Seguro pronto habrá problemas
    • Me pregunto por qué la gente actúa como Nintendo en vez de adoptar a la comunidad como Sega
  • El resultado no me parece muy impresionante. Usa muy pocos tipos de ladrillos y el resultado final tampoco se parece mucho a lo que pretendía representar. Me da la impresión de que un algoritmo hecho a mano podría dar mejores resultados
    • Lo genial de esta investigación no está en el realismo de las fotos, sino en la combinación de comprensión del lenguaje y ensamblaje físicamente posible
    • Solo la textura falsa hace que se vea convincente. Si solo usaran ladrillos de color, no sería más que un bloque
    • Considerando que es un modelo 1B ajustado finamente, es bastante interesante
    • Lo que de verdad hace falta es una IA a la que le des una foto de mi montón de ladrillos y me genere instrucciones de armado usando solo las piezas que tengo. Técnicamente ya se podría hacer hoy, pero habría que entrenar un modelo especializado aparte
  • En iPhone, si haces scroll hasta donde está un GIF, este se reproduce automáticamente y eso vuelve muy incómoda la navegación del sitio
    • Me pregunto cuándo aprenderá todo el mundo que nunca deberían poner reproducción automática
    • En cambio, yo en Firefox de escritorio ni siquiera me di cuenta de que había GIFs, así que no podía entender qué querían mostrar las imágenes
    • Puedes arreglar este problema poniendo el atributo playsinline en la etiqueta video https://developer.mozilla.org/en-US/docs/…. Es una pena que iOS tenga este comportamiento por defecto
  • Yo no quiero automatizar el armado de LEGO. Lo divertido es construirlo uno mismo. Lo que sí hace falta es automatizar lo que viene después: ordenar, clasificar por color y forma, y guardarlo todo bien. Ojalá los científicos empezaran por resolver los problemas que el mundo realmente necesita. Ahí sí hay valor y dinero de verdad
    • Hay un caso de alguien que clasificó 2 toneladas de Lego, y también un artículo con enlaces sobre la primera máquina que clasifica Lego automáticamente con IA https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
    • Lo difícil de resolver problemas del mundo real es la cultura académica donde lo único que importa es publicar papers
    • La verdadera innovación no consiste en automatizar la parte divertida, sino en hacer desaparecer la parte tediosa
    • Yo también entré para decir esto. El verdadero problema de Lego es la limpieza y el orden
  • ¡Qué proyecto tan genial! Ver el proceso de armado en GIF es súper adictivo. Para quienes estaban buscando información del dataset, la comparto aquí https://huggingface.co/datasets/AvaLovelace/StableText2Lego. Tiene más de 47,000 estructuras LEGO y cubre más de 28,000 objetos 3D únicos en 21 categorías de ShapeNetCore. La forma de hacer inferencia local está en GitHub https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
  • Si ves "a basic sofa", al seguir el orden de la animación hay ladrillos que quedan flotando en el aire. Eso da una pista de las limitaciones de cómo el modelo genera los diseños. Si quisieran usar robots para ensamblar automáticamente los diseños generados, creo que este diseño causaría problemas importantes
    • Yo también vine a señalar eso. El resultado final se ve bien, pero el orden de ensamblaje en la animación tiene muchos problemas. Primero habría que construir el piso de dos capas para que el nivel superior fije los ladrillos del nivel inferior. Solo después se pueden colocar las patas
  • Da risa ver a un robot de $50,000 armando unos Legos que cuestan unos cuantos dólares. Parece una especie de asilo para robots
    • En 10 años quizá tengamos robots ensambladores mucho más rápidos que los humanos
    • Por eso mismo todavía es común ensamblar a mano en Asia
    • La gente dice que LEGO es caro, pero si compras un robot que arme LEGO te das cuenta de lo caro que de verdad puede ser
  • No parece ser mucho más que convertir un modelo 3D en vóxeles y luego pasarlo a ladrillos. Para obtener resultados realmente buenos, hay que aprovechar creativamente muchos tipos de ladrillos, no solo 2x2 y 2x4. Me pregunto cuál sería el mejor algoritmo para generar automáticamente MOC (construcciones originales) hermosos. Estoy pensando en hacer una competencia de kaggle de $50,000; me interesa saber qué opinan