La pieza faltante en robótica: el modelo del mundo (World Model)

(signalfire.com)

14 puntos por GN⁺ 2026-02-06 | Aún no hay comentarios. | Compartir por WhatsApp

Aunque la IA de software ha avanzado de forma vertiginosa, los robots en el mundo físico todavía tienen dificultades incluso con tareas básicas como doblar la ropa o acomodar el lavavajillas
El mundo físico está lleno de fricción, oclusión, dinámicas impredecibles y aleatoriedad, lo que lo hace esencialmente distinto de los entornos de IA centrados en texto
Un World Model no funciona programando directamente las leyes físicas, sino aprendiendo de la experiencia real para predecir estados futuros según las acciones
JEPA (Joint-Embedding Predictive Architecture) filtra el ruido al predecir representaciones abstractas en lugar de predicciones a nivel de píxel, pero tenía el problema del colapso de representación (collapse)
LeJEPA resuelve este problema con una técnica de regularización matemática y presenta una base teórica para que la robótica pase de enfoques manuales basados en reglas a enfoques basados en aprendizaje

La brecha entre la IA digital y los robots físicos

Los LLM pueden escribir código, diseñar fármacos y proteínas, resumir documentos legales, dar tutoría a estudiantes, generar música y arte, e incluso resolver problemas de razonamiento matemático que la IA clásica no pudo resolver durante décadas
En cambio, los robots del mundo físico, una vez que salen de entornos de almacén controlados, siguen fallando de forma constante en tareas básicas como doblar la ropa, limpiar una habitación desordenada, recoger objetos irregulares, acomodar el lavavajillas, cocinar o poner la mesa
Aún no se han logrado robots asistentes domésticos autónomos, ni sistemas capaces de desplazarse con seguridad por entornos impredecibles, ni una manipulación flexible de objetos al nivel de un bebé; los robots de fábricas y laboratorios siguen siendo costosos, frágiles, dependientes de scripts y estrechamente especializados
Investigadores en robótica como Rodney Brooks se muestran escépticos ante los enfoques de “solo visión”, y señalan que la manipulación depende en gran medida de señales de tacto, retroalimentación de fuerza y propiocepción, señales que los sistemas actuales no tienen o manejan de forma muy rudimentaria
Los modelos de lenguaje operan en el texto, un mundo estable con una estructura consistente, y las acciones digitales son reversibles; en cambio, el mundo físico está lleno de fricción, oclusión, dinámicas impredecibles y aleatoriedad constante

Definición y papel del World Model

Los humanos, al tomar decisiones y planear en el mundo real, dependen de una representación interna (internal representation) del entorno; planear significa imaginar mentalmente los estados futuros que podrían surgir según las acciones
Esta representación interna conserva solo la información necesaria para resolver un problema y elimina los detalles innecesarios; por ejemplo, al planear una ruta al trabajo se consideran la carretera, el tiempo y el tráfico, pero no se incluye información irrelevante como el ruido específico que hace cada vehículo
En un nivel más alto, estas representaciones internas reflejan la estructura del mundo, lo que permite encajar con rapidez situaciones nuevas dentro de patrones ya conocidos
- Ejemplo: aunque uno se encuentre con una puerta con una manija de una forma nunca vista, puede reconocerla como manija por su forma y ubicación, e inferir cómo funciona a partir de la comprensión general de que “las puertas se abren aplicando fuerza a la manija”
Un World Model es distinto de una política (policy) que convierte observaciones directamente en acciones; en vez de tomar decisiones por sí mismo, su papel es predecir cómo cambiaría el mundo ante varias acciones posibles y generar representaciones comprimidas de estados futuros
Si existe ese modelo predictivo, un planificador (o una política de nivel inferior) puede comparar y evaluar varios futuros imaginados para elegir la secuencia de acciones que lleve al mejor resultado

Cuatro propiedades de un World Model útil

Reflejar la estructura del mundo: debe contener representaciones que revelen la estructura del mundo, no solo datos sensoriales en bruto
Generalización entre múltiples tareas: debe poder adaptarse a nuevas tareas sin volver a aprender todo desde cero cada vez
Filtrado de detalles irrelevantes: debe concentrarse solo en la información que afecta el resultado y eliminar elementos innecesarios
Predecir cambios del mundo según las acciones: debe poder anticipar resultados posibles antes de actuar realmente

Historia del aprendizaje de representaciones significativas del mundo

Los principales avances en percepción con deep learning produjeron, incluso sin proponérselo, representaciones estructuradas del mundo en su interior
Los modelos entrenados en visión por computadora para clasificar imágenes como gato, perro o elefante formaron representaciones internas bien organizadas y reutilizables
En el proceso de optimizar un objetivo simple como adivinar el contenido de una imagen, las características aprendidas terminaron codificando de manera natural información como forma, textura, postura y semántica
Estas representaciones obtenidas pueden usarse como entrada de estado para tareas como detección de objetos, seguimiento o segmentación, incluso sin entrenamiento adicional
Más adelante, el aprendizaje se amplió más allá del enfoque centrado en clasificación hacia métodos de reconstrucción de imágenes que rellenan partes faltantes a partir del contexto dado, y con ello surgieron representaciones más ricas y generalizables
Pero también se hizo evidente una limitación fundamental: las entradas sensoriales siempre incluyen detalles irrelevantes para las tareas posteriores y, además, imposibles de predecir
- Ejemplo: los finos patrones de ondulación en la superficie de una olla hirviendo son esencialmente aleatorios y casi no aportan a ninguna toma de decisiones
- Los modelos basados en reconstrucción intentan predecir incluso esos detalles, y por ello terminan codificando junto con el World Model una aleatoriedad sin significado
- Como resultado, la representación del mundo se forma enredada con ruido, en lugar de centrarse en la estructura esencial

El enfoque de JEPA

Si la reconstrucción de imágenes es un problema de completar patrones (predecir los píxeles faltantes cuando se da una parte de la imagen), entonces un World Model puede verse como un problema de completar patrones en el tiempo
- El problema consiste en predecir el estado futuro dado el estado actual del mundo y una secuencia de acciones
JEPA (Joint-Embedding Predictive Architecture), en vez de centrarse en reconstrucción de imágenes o en predecir futuros frames de video a nivel de píxel, se enfoca en predecir representaciones abstractas del futuro condicionadas por variables latentes
Las variables latentes pueden entenderse como las acciones que ejecuta el robot o como factores independientes que influyen en los cambios futuros
Al entrenarse para predecir el estado abstracto de una escena, y no su apariencia exacta a nivel de píxel, forma representaciones organizadas y accionables sin desperdiciar capacidad del modelo en detalles visuales irrelevantes
JEPA construye representaciones que capturan elementos estables y significativos, al mismo tiempo que excluyen de manera natural los detalles altamente aleatorios
El propio objetivo de entrenamiento lo lleva a no codificar la forma exacta del vapor que sale de una tetera ni la textura minuciosa de una tela arrugada
- Esos detalles son inherentemente impredecibles y, de hecho, dificultan la predicción del estado futuro del mundo
Para lograr alto rendimiento, el modelo debe representar los aspectos predecibles que realmente importan para entender cómo cambia el mundo
La clave de esta elección arquitectónica es que el objetivo del modelo deja de ser la simple reconstrucción y pasa a ser aprender la dinámica predecible del mundo

Limitaciones de JEPA y el problema del colapso de representación

La razón por la que JEPA no logró expandirse ampliamente en los últimos años es que resulta difícil distinguir con claridad entre detalles ruidosos e impredecibles y estructura significativa
Sin restricciones adecuadas, el modelo tiende a colapsar hacia una representación trivial (trivial representation)
Es parecido a un sistema de archivo que, para resolver el problema de tener demasiada información, decide desechar por completo las categorías mismas de los documentos
- Los modelos JEPA toman un atajo para evitar el ruido impredecible y, en ese proceso, eliminan también la estructura útil

LeJEPA: una solución matemática

Randall Balestriero y Yann LeCun propusieron LeJEPA, que introduce un regularizador con base matemática para evitar el colapso de representación que aparece en JEPA
La idea central es hacer que el espacio de representación interna mantenga una resolución uniforme en todas las direcciones, en lugar de concentrar demasiada varianza en unas pocas características y descuidar las demás
Para ello, la distribución de embeddings se induce hacia la forma de una gaussiana isotrópica (isotropic Gaussian)
Esta restricción guía al modelo a usar su capacidad de manera equilibrada a lo largo de las dimensiones de representación, manteniendo representaciones internas ricas y bien condicionadas
Aunque a primera vista parece una restricción geométrica simple, muestra efectos potentes como los siguientes
- Mejora de la estabilidad durante el entrenamiento
- Conservación de estructura significativa
- Posibilidad de aprender representaciones ricas y predecibles sin heurísticas como data augmentation o negativos contrastivos
Esto representa un cambio: dejar atrás técnicas temporales para evitar el colapso y pasar a un enfoque teórico que guía al modelo a aprender la estructura misma del mundo sin dejarse arrastrar por el ruido

Un nuevo camino que propone el World Model

Estas ideas sugieren un cambio fundamental en la manera de entender la robótica
Durante décadas, la robótica ha estado atrapada en un ciclo como este
- Diseñar manualmente una solución para una tarea específica
- Confirmar fallas en casos extremos
- Seguir agregando reglas y excepciones
El World Model plantea una vía para salir de ese ciclo
- En vez de programar directamente las leyes físicas en la máquina
- es posible pasar a sistemas que aprendan a predecir estados futuros del mundo y a razonar sobre ellos

Preguntas abiertas que siguen sin resolverse

Cómo guiar de manera eficiente al modelo para que explore acciones significativas y útiles
Cómo escalar hasta abarcar toda la complejidad de los entornos no estructurados
Cómo mantener la seguridad y la alineación con la intención humana a medida que aumenta la autonomía
Estos problemas están lejos de ser simples, pero tienen una naturaleza cualitativamente distinta a la de los obstáculos que frenaron la robótica durante los últimos 50 años
Lo que cambió es que ahora existe un marco teórico que se ajusta a la estructura del problema

Conclusión

LeJEPA y enfoques relacionados no son una mejora incremental más, sino que presentan una base matemática para aprender World Models capaces de lidiar con la incertidumbre del mundo real
Por primera vez, la brecha entre la inteligencia digital y la capacidad física empieza a verse no como ciencia ficción, sino como un desafío que la investigación puede superar

La pieza faltante en robótica: el modelo del mundo (World Model)

La brecha entre la IA digital y los robots físicos

Definición y papel del World Model

Cuatro propiedades de un World Model útil

Historia del aprendizaje de representaciones significativas del mundo

El enfoque de JEPA

Limitaciones de JEPA y el problema del colapso de representación

LeJEPA: una solución matemática

Un nuevo camino que propone el World Model

Preguntas abiertas que siguen sin resolverse

Conclusión

Lecturas relacionadas

Aún no hay comentarios.