14 puntos por GN⁺ 2025-11-12 | 1 comentarios | Compartir por WhatsApp
  • La inteligencia espacial (spatial intelligence) es un área clave que transformará de forma fundamental la manera en que la IA entiende e interactúa con el mundo real y el virtual
  • Los modelos de lenguaje de gran escala (LLM) actuales sobresalen en el procesamiento del lenguaje, pero sus capacidades de razonamiento espacial —como distancia, dirección y consistencia física— todavía no alcanzan el nivel humano
  • Como nuevo enfoque para resolver esto, se propone el “world model”, una arquitectura de modelos generativos de nueva generación con características generativas, multimodales e interactivas
  • World Labs está desarrollando este tipo de modelos, y una versión inicial llamada “Marble” ya demostró la capacidad de generar y mantener entornos 3D consistentes a partir de múltiples entradas
  • La inteligencia espacial es la siguiente etapa del avance de la IA para ampliar las capacidades humanas en campos como la creatividad, la robótica, la ciencia, la medicina y la educación

El concepto y la importancia de la inteligencia espacial

  • La inteligencia humana evolucionó a partir del bucle percepción-acción (perception-action loop), y la inteligencia espacial es un elemento central que lo hace posible
    • Acciones cotidianas como estacionar un auto, agarrar objetos o moverse en entornos complejos dependen del razonamiento espacial
    • Incluso en el desarrollo infantil previo al lenguaje, el sentido espacial se adquiere mediante la interacción con el entorno
  • La creatividad y la imaginación también se basan en la inteligencia espacial
    • Desde las pinturas rupestres hasta el cine, los videojuegos y la realidad virtual (VR), los humanos han representado el mundo a través del pensamiento espacial
    • La simulación espacial también cumple un papel clave en diseño industrial, gemelos digitales y entrenamiento de robots
  • Históricamente, la inteligencia espacial también fue un motor del desarrollo de la civilización
    • El cálculo de la circunferencia de la Tierra por Eratóstenes, la innovación estructural de la Spinning Jenny y el descubrimiento de la estructura del ADN fueron resultado del pensamiento espacial
  • La IA actual avanzó en reconocimiento visual y generación, pero todavía carece de consistencia espacial en aspectos como la comprensión de distancias, direcciones y leyes físicas
    • Incluso los modelos multimodales más recientes muestran bajo desempeño en rotación de objetos, navegación en laberintos y predicción física
    • Esta limitación restringe aplicaciones en el mundo real como control de robots, conducción autónoma y aprendizaje inmersivo

World models: una nueva arquitectura de IA para materializar la inteligencia espacial

  • Para implementar la inteligencia espacial, se necesita un world model más complejo que un LLM
    • Debe comprender, generar e interactuar de manera integrada con la complejidad semántica, física, geométrica y dinámica del mundo real y virtual
  • Las tres capacidades clave de un world model
    1. Generativo (Generative): generar mundos consistentes en términos perceptivos, geométricos y físicos
      • Debe simular espacios reales o virtuales y mantener continuidad entre el estado actual y los estados previos
    2. Multimodal (Multimodal): procesar e integrar diversos tipos de entrada como imágenes, video, texto y gestos
      • Debe contar al mismo tiempo con fidelidad visual y capacidad de interpretación semántica
    3. Interactivo (Interactive): predecir y generar el siguiente estado según las acciones ingresadas
      • Si se le da un estado objetivo, también debe poder prever los cambios del mundo y las acciones necesarias para llegar a él
  • Reflejar de manera consistente leyes físicas, estructuras geométricas y dinámica es técnicamente mucho más complejo que la generación de lenguaje

La investigación de World Labs y los desafíos técnicos

  • World Labs se fundó a inicios de 2024 y actualmente investiga world models centrados en inteligencia espacial
  • Principales temas de investigación
    • Definición de una función de aprendizaje universal: establecer un objetivo de entrenamiento que sea tan simple como la “predicción del siguiente token” de los LLM, pero que también incorpore leyes físicas y geométricas
    • Datos de entrenamiento a gran escala: uso de múltiples fuentes como imágenes y videos de internet, datos sintéticos e información de profundidad y tacto
    • Nuevas arquitecturas de modelos: investigación sobre tokenización basada en percepción 3D y 4D, y estructuras de memoria
      • Ejemplo: RTFM (Real-Time Frame-based Model) usa frames espaciales como memoria para generación en tiempo real y mantenimiento de consistencia
  • Marble, el primer resultado, genera y mantiene entornos 3D consistentes a partir de múltiples entradas, y ya fue mostrado a algunos usuarios
    • Sigue en desarrollo con miras a un lanzamiento futuro

Áreas de aplicación de la inteligencia espacial

Creatividad y producción de contenidos

  • Marble ofrece a cineastas, diseñadores de videojuegos y arquitectos la capacidad de crear mundos 3D totalmente explorables
    • Permite probar distintas escenas y puntos de vista sin restricciones de presupuesto o geografía
    • Hace posible crear experiencias inmersivas en narrativa, arte, educación y diseño
  • El diseño de narrativas espaciales puede acortar los procesos de visualización en arquitectura, industria y diseño de moda
  • La expansión de experiencias inmersivas basadas en VR y XR permitirá que incluso creadores individuales construyan sus propios mundos

Robótica

  • El cuello de botella del aprendizaje robótico es la escasez de datos de entrenamiento, y los world models pueden compensarlo
    • Reducen la brecha entre simulación y realidad, permitiendo aprender en diversos entornos
  • La inteligencia espacial es esencial para desarrollar robots colaborativos con humanos
    • Robots capaces de empatizar y colaborar con metas y acciones humanas en laboratorios, hogares y otros espacios
  • También puede usarse para construir entornos de entrenamiento y benchmarks para robots de múltiples formas —nanobots, robots blandos y robots para aguas profundas o el espacio—

Ciencia, medicina y educación

  • Investigación científica: simulaciones multidimensionales para acelerar experimentos y reducir costos computacionales en áreas como clima y materiales
  • Medicina: mayor uso de IA basada en inteligencia espacial en descubrimiento de fármacos, diagnóstico por imágenes y monitoreo de pacientes
  • Educación: visualización de conceptos complejos y oferta de entornos de aprendizaje inmersivos personalizados
    • Los estudiantes podrán explorar estructuras celulares o eventos históricos, y los especialistas practicar habilidades mediante simulaciones realistas

Una visión de desarrollo de IA centrada en el ser humano

  • El objetivo del desarrollo de la IA es ampliar las capacidades humanas, no reemplazarlas
    • Debe avanzar en una dirección que eleve la creatividad, la productividad, la conexión y la satisfacción con la vida
  • La inteligencia espacial se presenta como una tecnología que expande la imaginación, el cuidado y la capacidad de exploración humanas
  • Para hacer realidad esta visión, se necesita la colaboración de todo el ecosistema de IA, incluidos investigadores, empresas y responsables de políticas públicas

Conclusión

  • La IA ya transformó a la sociedad en múltiples niveles, pero la inteligencia espacial se perfila como la próxima gran etapa de innovación
  • Los world models hacen posible desarrollar máquinas espacialmente inteligentes que interactúen de forma armónica con el mundo real
  • Se considera un punto de inflexión tecnológico capaz de mejorar actividades humanas esenciales como la investigación de enfermedades, la narrativa y el cuidado
  • Así como la evolución de la inteligencia humana comenzó con la inteligencia espacial, se plantea la visión de que la culminación de la IA también llegará a través de la inteligencia espacial

1 comentarios

 
GN⁺ 2025-11-12
Opiniones en Hacker News
  • Al leer esto, no me queda claro qué es exactamente lo que entienden
    En las notas casi no hay información sustancial; básicamente se queda en “reunir datos espaciales como ImageNet”
    La gente que investiga inteligencia espacial suele estar más del lado de la neurociencia
    En el artículo de revisión que escribí, explicaba que el entorhinal cortex, las grid cell y las transformaciones de coordenadas podrían ser la clave
    Todos los animales exploran el mundo transformando coordenadas en tiempo real, y los humanos son quienes tienen la mayor cantidad de representaciones de coordenadas
    Creo que la inteligencia a nivel humano consiste en saber cuándo y cómo transformar marcos de coordenadas para extraer información útil
    Lo escribí antes del boom de los LLM, pero sigo creyendo que esa dirección es la correcta

    • Yo tenía ideas parecidas en los años 90
      Eso me llevó a investigar detección de colisiones, animación basada en física, resolución de ecuaciones no lineales y locomoción con patas sobre terreno irregular, aunque no era IA
      Hoy en día la idea parece ser meter una cantidad brutal de cómputo y esperar que el sistema de aprendizaje encuentre por sí solo una representación interna del mundo espacial
      La locomoción robótica ha mejorado bastante, pero la manipulación en entornos no estructurados sigue siendo muy mala
      Comparado con los videos del laboratorio de McCarthy en Stanford en los años 60, no ha cambiado tanto
      Antes pensaba que había que lograr primero una inteligencia al nivel de un ratón o una ardilla antes que una inteligencia humana, así que me sorprendió que la IA abstracta llegara primero
      Últimamente me parecen interesantes las investigaciones de generación de video que predicen la siguiente escena a partir de videos cortos
      Creo que el núcleo del sentido común es justamente la capacidad de anticipar “qué va a pasar después” en una escala de tiempo corta
    • Es interesante que tanto tú como los Moser (ganadores del Nobel) crean que las grid cell son clave para que los animales entiendan su posición en el mundo
      También vale la pena revisar este comunicado del Nobel
    • Leí unos cuantos párrafos y lo dejé porque nunca aparecía una definición de ‘inteligencia espacial’
      Hay demasiadas palabras de moda estilo VC como “transform”, “revolutionize”, “next frontier” y “North Star”, y eso me hizo perder confianza
    • Leí tu artículo con gusto; la bibliografía estuvo especialmente interesante
      El paper de Nature de 2018, "Vector-based navigation using grid-like representations in artificial agents",
      el de Nature de 2024, "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
      y también la simulación de grid-cell de DeepMind valen mucho la pena
      En neurociencia llevan bastante tiempo investigando la percepción espacial
    • Al final, lo importante es si se puede obtener insight real de este tipo de investigación
      Copiar sistemas biológicos tal cual casi siempre fracasa
      Las CNN se inspiraron en el cerebro, pero estructuralmente son distintas, y los LLM casi no se parecen al cerebro humano
      La similitud funcional de los LLM no viene de imitar la estructura cerebral, sino del proceso de entrenamiento
  • Esto no pasa de ser un sistema de simulación que funciona en un mundo virtual estrecho
    Sistemas así casi no ayudan a aprender la compleja dinámica del mundo real
    Un modelo de mundo virtual no es más que un caso especial simplificado de un modelo del mundo físico, y no veo evidencia de que esta empresa haya logrado avances sustanciales en inteligencia espacial

  • Hace poco tuve una experiencia sorprendente aplicando agentic coding a CAD
    Tenía que añadir roscas a un modelo para impresión 3D, e hice que el agente pudiera ‘sentir’ el modelo usando geometría computacional
    Convolucioné el volumen completo del modelo con el radio de una esfera para encontrar la ubicación del puerto y añadir la rosca
    Después de varios intentos funcionó, y eso me hizo darme cuenta de que el modelo necesita tener una especie de ‘sentido táctil’
    Al final, el modelo 3D tenía que estar implementado como código para poder validarse

    • El potencial del Generative CAD es enorme
      Probé con OpenSCAD, pero a los modelos actuales les falta sentido común sobre cómo se conectan las formas
      Si hubiera más datasets de CAD basados en código, sería muchísimo más útil
      Si no, al final hará falta aprendizaje basado en simulación física
    • Me da curiosidad si usaste CadQuery; si escribiste algo sobre lo que aprendiste, me gustaría verlo
    • Me gustaría conocer más en detalle el proceso de implementación; también me pregunto si planeas escribirlo
    • Yo también estoy experimentando con enfoques de objetos 3D generativos, así que me interesa escuchar más
    • A diferencia de un prompt para LLM, describir objetos geométricos en texto es realmente difícil
      Se vuelve ambiguo a nivel de “no lo pongas ahí, ponlo allá”
  • Genie 3 ya logró hasta cierto punto el objetivo que ella mencionó: un modelo de mundo controlable con leyes físicas consistentes
    Su modelo hermano, Veo 3, también muestra capacidad de resolver problemas espaciales
    Genie y Veo están mucho más cerca de su visión que World Labs
    Pero como el texto no menciona en absoluto los modelos de Google, termina pareciendo un artículo de autopromoción

  • La IA actual solo aprende de la web y no aprende a partir de la interacción con humanos
    Los humanos aprenden mediante toda una vida de contexto y memoria, pero en la IA ese contexto desaparece cuando termina la conversación
    Si existiera una memoria contextual masiva personalizada, el valor sería mucho mayor

    • Nested Learning de Google Research podría ser una solución a este problema
      En el enfoque tradicional aparece el catastrophic forgetting cuando se entrena de nuevo, pero Nested Learning divide el sistema en muchos modelos pequeños para no arruinar otras partes al reentrenar
    • El ‘contexto’ humano es el resultado de miles de millones de años de acumulación evolutiva
      La comprensión espacial que tenemos es inmensa, casi como una simulación cuántica a escala cósmica
      En cambio, hoy apenas podemos simular de forma completa cosas al nivel de átomos o células
  • Al leer esto pensé que el primer caso en que los humanos ‘pensaron por delante de la naturaleza’ fue la rueda
    La naturaleza es irregular, pero los humanos construyeron caminos planos para hacer posible el rodamiento
    El avance de la ciencia y la tecnología es otro ejemplo de cómo se puede transmitir entre generaciones la intuición de patrones
    No sé si la ‘superinteligencia’ puede existir en una forma distinta de la velocidad, pero la capacidad de pensar en 3D será esencial para que la IA supere a los humanos y a la naturaleza

    • El cuerpo humano es un sistema organizado de células que cooperan
      Así como los vasos sanguíneos transportan nutrientes y señales, los caminos también transportan recursos
      Tal vez la naturaleza solo extendió esa capacidad de organización a escala de especie, y no hay mucha base para decir que los humanos están por encima de la naturaleza
  • La cognición humana es una estructura construida sobre la inteligencia espacial
    No está hecha solo de pensamiento abstracto, sino de una experiencia integrada basada en los sentidos
    La evolución no logró la generalización mediante un cerebro simbólico, sino a través de la fusión de los sentidos
    La inteligencia no surge de un algoritmo, sino de una armonía coherente entre sentidos
    La integridad sensorial es, de hecho, el camino a seguir

  • Estoy siguiendo esta entrada de blog que resume el estado actual del razonamiento espacial en los LLM
    La conclusión es… que todavía falta bastante camino

  • Los spatial token podrían ayudar, pero no son indispensables
    Muchos problemas físicos todavía se pueden resolver con papel y lápiz
    Me sorprende que una imagen de 512×512 pueda representarse con 85 tokens, y un video con 263 tokens por segundo
    Esto parece un nuevo problema de equilibrio entre memoria e embedding
    Como en la pregunta de “si puedes girar una manzana en tu cabeza”, los embeddings espaciales podrían permitir una comprensión intuitiva de la dinámica
    En nuestro equipo de FlyShirley también estamos investigando esta área mediante simulaciones de entrenamiento de pilotos, y planeamos probar el modelo de Fei-Fei

  • Como el aprendizaje y el razonamiento basados en video requieren recursos de cómputo enormes,
    me cuesta ver si este enfoque realmente ayudará a los asistentes agentes (coding, marketing, gestión de agenda, etc.)
    Más bien creo que tendrá una estructura de cómputo mucho más favorable en robótica