- Aunque la IA de software ha avanzado de forma vertiginosa, los robots en el mundo físico todavía tienen dificultades incluso con tareas básicas como doblar la ropa o acomodar el lavavajillas
- El mundo físico está lleno de fricción, oclusión, dinámicas impredecibles y aleatoriedad, lo que lo hace esencialmente distinto de los entornos de IA centrados en texto
- Un World Model no funciona programando directamente las leyes físicas, sino aprendiendo de la experiencia real para predecir estados futuros según las acciones
- JEPA (Joint-Embedding Predictive Architecture) filtra el ruido al predecir representaciones abstractas en lugar de predicciones a nivel de píxel, pero tenía el problema del colapso de representación (collapse)
- LeJEPA resuelve este problema con una técnica de regularización matemática y presenta una base teórica para que la robótica pase de enfoques manuales basados en reglas a enfoques basados en aprendizaje
La brecha entre la IA digital y los robots físicos
- Los LLM pueden escribir código, diseñar fármacos y proteínas, resumir documentos legales, dar tutoría a estudiantes, generar música y arte, e incluso resolver problemas de razonamiento matemático que la IA clásica no pudo resolver durante décadas
- En cambio, los robots del mundo físico, una vez que salen de entornos de almacén controlados, siguen fallando de forma constante en tareas básicas como doblar la ropa, limpiar una habitación desordenada, recoger objetos irregulares, acomodar el lavavajillas, cocinar o poner la mesa
- Aún no se han logrado robots asistentes domésticos autónomos, ni sistemas capaces de desplazarse con seguridad por entornos impredecibles, ni una manipulación flexible de objetos al nivel de un bebé; los robots de fábricas y laboratorios siguen siendo costosos, frágiles, dependientes de scripts y estrechamente especializados
- Investigadores en robótica como Rodney Brooks se muestran escépticos ante los enfoques de “solo visión”, y señalan que la manipulación depende en gran medida de señales de tacto, retroalimentación de fuerza y propiocepción, señales que los sistemas actuales no tienen o manejan de forma muy rudimentaria
- Los modelos de lenguaje operan en el texto, un mundo estable con una estructura consistente, y las acciones digitales son reversibles; en cambio, el mundo físico está lleno de fricción, oclusión, dinámicas impredecibles y aleatoriedad constante
Definición y papel del World Model
- Los humanos, al tomar decisiones y planear en el mundo real, dependen de una representación interna (internal representation) del entorno; planear significa imaginar mentalmente los estados futuros que podrían surgir según las acciones
- Esta representación interna conserva solo la información necesaria para resolver un problema y elimina los detalles innecesarios; por ejemplo, al planear una ruta al trabajo se consideran la carretera, el tiempo y el tráfico, pero no se incluye información irrelevante como el ruido específico que hace cada vehículo
- En un nivel más alto, estas representaciones internas reflejan la estructura del mundo, lo que permite encajar con rapidez situaciones nuevas dentro de patrones ya conocidos
- Ejemplo: aunque uno se encuentre con una puerta con una manija de una forma nunca vista, puede reconocerla como manija por su forma y ubicación, e inferir cómo funciona a partir de la comprensión general de que “las puertas se abren aplicando fuerza a la manija”
- Un World Model es distinto de una política (policy) que convierte observaciones directamente en acciones; en vez de tomar decisiones por sí mismo, su papel es predecir cómo cambiaría el mundo ante varias acciones posibles y generar representaciones comprimidas de estados futuros
- Si existe ese modelo predictivo, un planificador (o una política de nivel inferior) puede comparar y evaluar varios futuros imaginados para elegir la secuencia de acciones que lleve al mejor resultado
Cuatro propiedades de un World Model útil
- Reflejar la estructura del mundo: debe contener representaciones que revelen la estructura del mundo, no solo datos sensoriales en bruto
- Generalización entre múltiples tareas: debe poder adaptarse a nuevas tareas sin volver a aprender todo desde cero cada vez
- Filtrado de detalles irrelevantes: debe concentrarse solo en la información que afecta el resultado y eliminar elementos innecesarios
- Predecir cambios del mundo según las acciones: debe poder anticipar resultados posibles antes de actuar realmente
Historia del aprendizaje de representaciones significativas del mundo
- Los principales avances en percepción con deep learning produjeron, incluso sin proponérselo, representaciones estructuradas del mundo en su interior
- Los modelos entrenados en visión por computadora para clasificar imágenes como gato, perro o elefante formaron representaciones internas bien organizadas y reutilizables
- En el proceso de optimizar un objetivo simple como adivinar el contenido de una imagen, las características aprendidas terminaron codificando de manera natural información como forma, textura, postura y semántica
- Estas representaciones obtenidas pueden usarse como entrada de estado para tareas como detección de objetos, seguimiento o segmentación, incluso sin entrenamiento adicional
- Más adelante, el aprendizaje se amplió más allá del enfoque centrado en clasificación hacia métodos de reconstrucción de imágenes que rellenan partes faltantes a partir del contexto dado, y con ello surgieron representaciones más ricas y generalizables
- Pero también se hizo evidente una limitación fundamental: las entradas sensoriales siempre incluyen detalles irrelevantes para las tareas posteriores y, además, imposibles de predecir
- Ejemplo: los finos patrones de ondulación en la superficie de una olla hirviendo son esencialmente aleatorios y casi no aportan a ninguna toma de decisiones
- Los modelos basados en reconstrucción intentan predecir incluso esos detalles, y por ello terminan codificando junto con el World Model una aleatoriedad sin significado
- Como resultado, la representación del mundo se forma enredada con ruido, en lugar de centrarse en la estructura esencial
El enfoque de JEPA
- Si la reconstrucción de imágenes es un problema de completar patrones (predecir los píxeles faltantes cuando se da una parte de la imagen), entonces un World Model puede verse como un problema de completar patrones en el tiempo
- El problema consiste en predecir el estado futuro dado el estado actual del mundo y una secuencia de acciones
- JEPA (Joint-Embedding Predictive Architecture), en vez de centrarse en reconstrucción de imágenes o en predecir futuros frames de video a nivel de píxel, se enfoca en predecir representaciones abstractas del futuro condicionadas por variables latentes
- Las variables latentes pueden entenderse como las acciones que ejecuta el robot o como factores independientes que influyen en los cambios futuros
- Al entrenarse para predecir el estado abstracto de una escena, y no su apariencia exacta a nivel de píxel, forma representaciones organizadas y accionables sin desperdiciar capacidad del modelo en detalles visuales irrelevantes
- JEPA construye representaciones que capturan elementos estables y significativos, al mismo tiempo que excluyen de manera natural los detalles altamente aleatorios
- El propio objetivo de entrenamiento lo lleva a no codificar la forma exacta del vapor que sale de una tetera ni la textura minuciosa de una tela arrugada
- Esos detalles son inherentemente impredecibles y, de hecho, dificultan la predicción del estado futuro del mundo
- Para lograr alto rendimiento, el modelo debe representar los aspectos predecibles que realmente importan para entender cómo cambia el mundo
- La clave de esta elección arquitectónica es que el objetivo del modelo deja de ser la simple reconstrucción y pasa a ser aprender la dinámica predecible del mundo
Limitaciones de JEPA y el problema del colapso de representación
- La razón por la que JEPA no logró expandirse ampliamente en los últimos años es que resulta difícil distinguir con claridad entre detalles ruidosos e impredecibles y estructura significativa
- Sin restricciones adecuadas, el modelo tiende a colapsar hacia una representación trivial (trivial representation)
- Es parecido a un sistema de archivo que, para resolver el problema de tener demasiada información, decide desechar por completo las categorías mismas de los documentos
- Los modelos JEPA toman un atajo para evitar el ruido impredecible y, en ese proceso, eliminan también la estructura útil
LeJEPA: una solución matemática
- Randall Balestriero y Yann LeCun propusieron LeJEPA, que introduce un regularizador con base matemática para evitar el colapso de representación que aparece en JEPA
- La idea central es hacer que el espacio de representación interna mantenga una resolución uniforme en todas las direcciones, en lugar de concentrar demasiada varianza en unas pocas características y descuidar las demás
- Para ello, la distribución de embeddings se induce hacia la forma de una gaussiana isotrópica (isotropic Gaussian)
- Esta restricción guía al modelo a usar su capacidad de manera equilibrada a lo largo de las dimensiones de representación, manteniendo representaciones internas ricas y bien condicionadas
- Aunque a primera vista parece una restricción geométrica simple, muestra efectos potentes como los siguientes
- Mejora de la estabilidad durante el entrenamiento
- Conservación de estructura significativa
- Posibilidad de aprender representaciones ricas y predecibles sin heurísticas como data augmentation o negativos contrastivos
- Esto representa un cambio: dejar atrás técnicas temporales para evitar el colapso y pasar a un enfoque teórico que guía al modelo a aprender la estructura misma del mundo sin dejarse arrastrar por el ruido
Un nuevo camino que propone el World Model
- Estas ideas sugieren un cambio fundamental en la manera de entender la robótica
- Durante décadas, la robótica ha estado atrapada en un ciclo como este
- Diseñar manualmente una solución para una tarea específica
- Confirmar fallas en casos extremos
- Seguir agregando reglas y excepciones
- El World Model plantea una vía para salir de ese ciclo
- En vez de programar directamente las leyes físicas en la máquina
- es posible pasar a sistemas que aprendan a predecir estados futuros del mundo y a razonar sobre ellos
Preguntas abiertas que siguen sin resolverse
- Cómo guiar de manera eficiente al modelo para que explore acciones significativas y útiles
- Cómo escalar hasta abarcar toda la complejidad de los entornos no estructurados
- Cómo mantener la seguridad y la alineación con la intención humana a medida que aumenta la autonomía
- Estos problemas están lejos de ser simples, pero tienen una naturaleza cualitativamente distinta a la de los obstáculos que frenaron la robótica durante los últimos 50 años
- Lo que cambió es que ahora existe un marco teórico que se ajusta a la estructura del problema
Conclusión
- LeJEPA y enfoques relacionados no son una mejora incremental más, sino que presentan una base matemática para aprender World Models capaces de lidiar con la incertidumbre del mundo real
- Por primera vez, la brecha entre la inteligencia digital y la capacidad física empieza a verse no como ciencia ficción, sino como un desafío que la investigación puede superar
Aún no hay comentarios.