La inteligencia espacial es la próxima frontera de la IA

(drfeifei.substack.com)

14 puntos por GN⁺ 2025-11-12 | 1 comentarios | Compartir por WhatsApp

La inteligencia espacial (spatial intelligence) es un área clave que transformará de forma fundamental la manera en que la IA entiende e interactúa con el mundo real y el virtual
Los modelos de lenguaje de gran escala (LLM) actuales sobresalen en el procesamiento del lenguaje, pero sus capacidades de razonamiento espacial —como distancia, dirección y consistencia física— todavía no alcanzan el nivel humano
Como nuevo enfoque para resolver esto, se propone el “world model”, una arquitectura de modelos generativos de nueva generación con características generativas, multimodales e interactivas
World Labs está desarrollando este tipo de modelos, y una versión inicial llamada “Marble” ya demostró la capacidad de generar y mantener entornos 3D consistentes a partir de múltiples entradas
La inteligencia espacial es la siguiente etapa del avance de la IA para ampliar las capacidades humanas en campos como la creatividad, la robótica, la ciencia, la medicina y la educación

El concepto y la importancia de la inteligencia espacial

La inteligencia humana evolucionó a partir del bucle percepción-acción (perception-action loop), y la inteligencia espacial es un elemento central que lo hace posible
- Acciones cotidianas como estacionar un auto, agarrar objetos o moverse en entornos complejos dependen del razonamiento espacial
- Incluso en el desarrollo infantil previo al lenguaje, el sentido espacial se adquiere mediante la interacción con el entorno
La creatividad y la imaginación también se basan en la inteligencia espacial
- Desde las pinturas rupestres hasta el cine, los videojuegos y la realidad virtual (VR), los humanos han representado el mundo a través del pensamiento espacial
- La simulación espacial también cumple un papel clave en diseño industrial, gemelos digitales y entrenamiento de robots
Históricamente, la inteligencia espacial también fue un motor del desarrollo de la civilización
- El cálculo de la circunferencia de la Tierra por Eratóstenes, la innovación estructural de la Spinning Jenny y el descubrimiento de la estructura del ADN fueron resultado del pensamiento espacial
La IA actual avanzó en reconocimiento visual y generación, pero todavía carece de consistencia espacial en aspectos como la comprensión de distancias, direcciones y leyes físicas
- Incluso los modelos multimodales más recientes muestran bajo desempeño en rotación de objetos, navegación en laberintos y predicción física
- Esta limitación restringe aplicaciones en el mundo real como control de robots, conducción autónoma y aprendizaje inmersivo

World models: una nueva arquitectura de IA para materializar la inteligencia espacial

Para implementar la inteligencia espacial, se necesita un world model más complejo que un LLM
- Debe comprender, generar e interactuar de manera integrada con la complejidad semántica, física, geométrica y dinámica del mundo real y virtual
Las tres capacidades clave de un world model
1. Generativo (Generative): generar mundos consistentes en términos perceptivos, geométricos y físicos
  - Debe simular espacios reales o virtuales y mantener continuidad entre el estado actual y los estados previos
2. Multimodal (Multimodal): procesar e integrar diversos tipos de entrada como imágenes, video, texto y gestos
  - Debe contar al mismo tiempo con fidelidad visual y capacidad de interpretación semántica
3. Interactivo (Interactive): predecir y generar el siguiente estado según las acciones ingresadas
  - Si se le da un estado objetivo, también debe poder prever los cambios del mundo y las acciones necesarias para llegar a él
Reflejar de manera consistente leyes físicas, estructuras geométricas y dinámica es técnicamente mucho más complejo que la generación de lenguaje

La investigación de World Labs y los desafíos técnicos

World Labs se fundó a inicios de 2024 y actualmente investiga world models centrados en inteligencia espacial
Principales temas de investigación
- Definición de una función de aprendizaje universal: establecer un objetivo de entrenamiento que sea tan simple como la “predicción del siguiente token” de los LLM, pero que también incorpore leyes físicas y geométricas
- Datos de entrenamiento a gran escala: uso de múltiples fuentes como imágenes y videos de internet, datos sintéticos e información de profundidad y tacto
- Nuevas arquitecturas de modelos: investigación sobre tokenización basada en percepción 3D y 4D, y estructuras de memoria
  - Ejemplo: RTFM (Real-Time Frame-based Model) usa frames espaciales como memoria para generación en tiempo real y mantenimiento de consistencia
Marble, el primer resultado, genera y mantiene entornos 3D consistentes a partir de múltiples entradas, y ya fue mostrado a algunos usuarios
- Sigue en desarrollo con miras a un lanzamiento futuro

Áreas de aplicación de la inteligencia espacial

Creatividad y producción de contenidos

Marble ofrece a cineastas, diseñadores de videojuegos y arquitectos la capacidad de crear mundos 3D totalmente explorables
- Permite probar distintas escenas y puntos de vista sin restricciones de presupuesto o geografía
- Hace posible crear experiencias inmersivas en narrativa, arte, educación y diseño
El diseño de narrativas espaciales puede acortar los procesos de visualización en arquitectura, industria y diseño de moda
La expansión de experiencias inmersivas basadas en VR y XR permitirá que incluso creadores individuales construyan sus propios mundos

Robótica

El cuello de botella del aprendizaje robótico es la escasez de datos de entrenamiento, y los world models pueden compensarlo
- Reducen la brecha entre simulación y realidad, permitiendo aprender en diversos entornos
La inteligencia espacial es esencial para desarrollar robots colaborativos con humanos
- Robots capaces de empatizar y colaborar con metas y acciones humanas en laboratorios, hogares y otros espacios
También puede usarse para construir entornos de entrenamiento y benchmarks para robots de múltiples formas —nanobots, robots blandos y robots para aguas profundas o el espacio—

Ciencia, medicina y educación

Investigación científica: simulaciones multidimensionales para acelerar experimentos y reducir costos computacionales en áreas como clima y materiales
Medicina: mayor uso de IA basada en inteligencia espacial en descubrimiento de fármacos, diagnóstico por imágenes y monitoreo de pacientes
Educación: visualización de conceptos complejos y oferta de entornos de aprendizaje inmersivos personalizados
- Los estudiantes podrán explorar estructuras celulares o eventos históricos, y los especialistas practicar habilidades mediante simulaciones realistas

Una visión de desarrollo de IA centrada en el ser humano

El objetivo del desarrollo de la IA es ampliar las capacidades humanas, no reemplazarlas
- Debe avanzar en una dirección que eleve la creatividad, la productividad, la conexión y la satisfacción con la vida
La inteligencia espacial se presenta como una tecnología que expande la imaginación, el cuidado y la capacidad de exploración humanas
Para hacer realidad esta visión, se necesita la colaboración de todo el ecosistema de IA, incluidos investigadores, empresas y responsables de políticas públicas

Conclusión

La IA ya transformó a la sociedad en múltiples niveles, pero la inteligencia espacial se perfila como la próxima gran etapa de innovación
Los world models hacen posible desarrollar máquinas espacialmente inteligentes que interactúen de forma armónica con el mundo real
Se considera un punto de inflexión tecnológico capaz de mejorar actividades humanas esenciales como la investigación de enfermedades, la narrativa y el cuidado
Así como la evolución de la inteligencia humana comenzó con la inteligencia espacial, se plantea la visión de que la culminación de la IA también llegará a través de la inteligencia espacial

1 comentarios

GN⁺ 2025-11-12

Opiniones en Hacker News

Al leer esto, no me queda claro qué es exactamente lo que entienden
En las notas casi no hay información sustancial; básicamente se queda en “reunir datos espaciales como ImageNet”
La gente que investiga inteligencia espacial suele estar más del lado de la neurociencia
En el artículo de revisión que escribí, explicaba que el entorhinal cortex, las grid cell y las transformaciones de coordenadas podrían ser la clave
Todos los animales exploran el mundo transformando coordenadas en tiempo real, y los humanos son quienes tienen la mayor cantidad de representaciones de coordenadas
Creo que la inteligencia a nivel humano consiste en saber cuándo y cómo transformar marcos de coordenadas para extraer información útil
Lo escribí antes del boom de los LLM, pero sigo creyendo que esa dirección es la correcta
- Yo tenía ideas parecidas en los años 90
  Eso me llevó a investigar detección de colisiones, animación basada en física, resolución de ecuaciones no lineales y locomoción con patas sobre terreno irregular, aunque no era IA
  Hoy en día la idea parece ser meter una cantidad brutal de cómputo y esperar que el sistema de aprendizaje encuentre por sí solo una representación interna del mundo espacial
  La locomoción robótica ha mejorado bastante, pero la manipulación en entornos no estructurados sigue siendo muy mala
  Comparado con los videos del laboratorio de McCarthy en Stanford en los años 60, no ha cambiado tanto
  Antes pensaba que había que lograr primero una inteligencia al nivel de un ratón o una ardilla antes que una inteligencia humana, así que me sorprendió que la IA abstracta llegara primero
  Últimamente me parecen interesantes las investigaciones de generación de video que predicen la siguiente escena a partir de videos cortos
  Creo que el núcleo del sentido común es justamente la capacidad de anticipar “qué va a pasar después” en una escala de tiempo corta
- Es interesante que tanto tú como los Moser (ganadores del Nobel) crean que las grid cell son clave para que los animales entiendan su posición en el mundo
  También vale la pena revisar este comunicado del Nobel
- Leí unos cuantos párrafos y lo dejé porque nunca aparecía una definición de ‘inteligencia espacial’
  Hay demasiadas palabras de moda estilo VC como “transform”, “revolutionize”, “next frontier” y “North Star”, y eso me hizo perder confianza
- Leí tu artículo con gusto; la bibliografía estuvo especialmente interesante
  El paper de Nature de 2018, "Vector-based navigation using grid-like representations in artificial agents",
  el de Nature de 2024, "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
  y también la simulación de grid-cell de DeepMind valen mucho la pena
  En neurociencia llevan bastante tiempo investigando la percepción espacial
- Al final, lo importante es si se puede obtener insight real de este tipo de investigación
  Copiar sistemas biológicos tal cual casi siempre fracasa
  Las CNN se inspiraron en el cerebro, pero estructuralmente son distintas, y los LLM casi no se parecen al cerebro humano
  La similitud funcional de los LLM no viene de imitar la estructura cerebral, sino del proceso de entrenamiento
Esto no pasa de ser un sistema de simulación que funciona en un mundo virtual estrecho
Sistemas así casi no ayudan a aprender la compleja dinámica del mundo real
Un modelo de mundo virtual no es más que un caso especial simplificado de un modelo del mundo físico, y no veo evidencia de que esta empresa haya logrado avances sustanciales en inteligencia espacial
Hace poco tuve una experiencia sorprendente aplicando agentic coding a CAD
Tenía que añadir roscas a un modelo para impresión 3D, e hice que el agente pudiera ‘sentir’ el modelo usando geometría computacional
Convolucioné el volumen completo del modelo con el radio de una esfera para encontrar la ubicación del puerto y añadir la rosca
Después de varios intentos funcionó, y eso me hizo darme cuenta de que el modelo necesita tener una especie de ‘sentido táctil’
Al final, el modelo 3D tenía que estar implementado como código para poder validarse
- El potencial del Generative CAD es enorme
  Probé con OpenSCAD, pero a los modelos actuales les falta sentido común sobre cómo se conectan las formas
  Si hubiera más datasets de CAD basados en código, sería muchísimo más útil
  Si no, al final hará falta aprendizaje basado en simulación física
- Me da curiosidad si usaste CadQuery; si escribiste algo sobre lo que aprendiste, me gustaría verlo
- Me gustaría conocer más en detalle el proceso de implementación; también me pregunto si planeas escribirlo
- Yo también estoy experimentando con enfoques de objetos 3D generativos, así que me interesa escuchar más
- A diferencia de un prompt para LLM, describir objetos geométricos en texto es realmente difícil
  Se vuelve ambiguo a nivel de “no lo pongas ahí, ponlo allá”
Genie 3 ya logró hasta cierto punto el objetivo que ella mencionó: un modelo de mundo controlable con leyes físicas consistentes
Su modelo hermano, Veo 3, también muestra capacidad de resolver problemas espaciales
Genie y Veo están mucho más cerca de su visión que World Labs
Pero como el texto no menciona en absoluto los modelos de Google, termina pareciendo un artículo de autopromoción
- Gemini ER también es un modelo que opera espacialmente en el mundo real
  Ver DeepMind Gemini Robotics ER
La IA actual solo aprende de la web y no aprende a partir de la interacción con humanos
Los humanos aprenden mediante toda una vida de contexto y memoria, pero en la IA ese contexto desaparece cuando termina la conversación
Si existiera una memoria contextual masiva personalizada, el valor sería mucho mayor
- Nested Learning de Google Research podría ser una solución a este problema
  En el enfoque tradicional aparece el catastrophic forgetting cuando se entrena de nuevo, pero Nested Learning divide el sistema en muchos modelos pequeños para no arruinar otras partes al reentrenar
- El ‘contexto’ humano es el resultado de miles de millones de años de acumulación evolutiva
  La comprensión espacial que tenemos es inmensa, casi como una simulación cuántica a escala cósmica
  En cambio, hoy apenas podemos simular de forma completa cosas al nivel de átomos o células
Al leer esto pensé que el primer caso en que los humanos ‘pensaron por delante de la naturaleza’ fue la rueda
La naturaleza es irregular, pero los humanos construyeron caminos planos para hacer posible el rodamiento
El avance de la ciencia y la tecnología es otro ejemplo de cómo se puede transmitir entre generaciones la intuición de patrones
No sé si la ‘superinteligencia’ puede existir en una forma distinta de la velocidad, pero la capacidad de pensar en 3D será esencial para que la IA supere a los humanos y a la naturaleza
- El cuerpo humano es un sistema organizado de células que cooperan
  Así como los vasos sanguíneos transportan nutrientes y señales, los caminos también transportan recursos
  Tal vez la naturaleza solo extendió esa capacidad de organización a escala de especie, y no hay mucha base para decir que los humanos están por encima de la naturaleza
La cognición humana es una estructura construida sobre la inteligencia espacial
No está hecha solo de pensamiento abstracto, sino de una experiencia integrada basada en los sentidos
La evolución no logró la generalización mediante un cerebro simbólico, sino a través de la fusión de los sentidos
La inteligencia no surge de un algoritmo, sino de una armonía coherente entre sentidos
La integridad sensorial es, de hecho, el camino a seguir
Estoy siguiendo esta entrada de blog que resume el estado actual del razonamiento espacial en los LLM
La conclusión es… que todavía falta bastante camino
Los spatial token podrían ayudar, pero no son indispensables
Muchos problemas físicos todavía se pueden resolver con papel y lápiz
Me sorprende que una imagen de 512×512 pueda representarse con 85 tokens, y un video con 263 tokens por segundo
Esto parece un nuevo problema de equilibrio entre memoria e embedding
Como en la pregunta de “si puedes girar una manzana en tu cabeza”, los embeddings espaciales podrían permitir una comprensión intuitiva de la dinámica
En nuestro equipo de FlyShirley también estamos investigando esta área mediante simulaciones de entrenamiento de pilotos, y planeamos probar el modelo de Fei-Fei
Como el aprendizaje y el razonamiento basados en video requieren recursos de cómputo enormes,
me cuesta ver si este enfoque realmente ayudará a los asistentes agentes (coding, marketing, gestión de agenda, etc.)
Más bien creo que tendrá una estructura de cómputo mucho más favorable en robótica

La inteligencia espacial es la próxima frontera de la IA

El concepto y la importancia de la inteligencia espacial

World models: una nueva arquitectura de IA para materializar la inteligencia espacial

La investigación de World Labs y los desafíos técnicos

Áreas de aplicación de la inteligencia espacial

Creatividad y producción de contenidos

Robótica

Ciencia, medicina y educación

Una visión de desarrollo de IA centrada en el ser humano

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News