6 puntos por GN⁺ 2026-01-30 | 1 comentarios | Compartir por WhatsApp
  • Project Genie de Google es un prototipo experimental de investigación que permite a los usuarios crear, explorar y remezclar mundos virtuales interactivos usando texto e imágenes
  • Está basado en el modelo Genie 3 y genera rutas y entornos en tiempo real según el movimiento del usuario
  • Se ofrece en formato de app web e integra los modelos Nano Banana Pro y Gemini para admitir funciones de bocetado, exploración y remezcla de mundos
  • Debido a las limitaciones del modelo, esta versión inicial tiene restricciones como inconsistencias con las leyes de la física, retraso en el control de personajes y un límite de 60 segundos
  • Actualmente está disponible para suscriptores de Google AI Ultra en Estados Unidos (mayores de 18 años), con planes de expandirse a más regiones en el futuro

Resumen de Project Genie

  • Project Genie es un prototipo experimental de investigación desarrollado por Google DeepMind y basado en Genie 3, que ofrece un entorno donde los usuarios pueden crear, explorar y remezclar mundos virtuales por sí mismos
    • Está disponible para suscriptores de Google AI Ultra en Estados Unidos (mayores de 18 años)
    • Los usuarios pueden generar mundos mediante prompts de texto e imágenes, y explorarlos en tiempo real
  • Este proyecto es un primer paso para abrir al público general la tecnología de generación de mundos inmersivos, y representa una expansión de la investigación sobre modelos de mundo (world model)

Avances en los modelos de mundo (World Model)

  • Los modelos de mundo son sistemas que simulan los cambios dinámicos del entorno y predicen el impacto de las acciones
  • Google DeepMind busca ir más allá de la investigación de agentes para entornos específicos, como ajedrez o Go, y apunta a desarrollar sistemas de AGI capaces de explorar la diversidad del mundo real
  • Genie 3 genera rutas en tiempo real según el desplazamiento del usuario y simula interacciones físicas
    • Admite generación de mundos dinámicos, no solo snapshots 3D estáticos
    • Puede aplicarse a diversos escenarios, como robótica, animación, ficción y exploración de lugares históricos

Cómo funciona Project Genie

  • Es un prototipo basado en la web que, además de Genie 3, integra los modelos Nano Banana Pro y Gemini
  • Está compuesto por tres funciones principales
  • 1. World Sketching (bocetado de mundos)

    • Usa texto e imágenes (generadas o subidas) para diseñar entornos vivos
    • Permite definir personajes y la forma de exploración, con soporte para caminar, volar, conducir y otros tipos de movimiento
    • La integración con Nano Banana Pro permite previsualizar y ajustar detalles del mundo
    • Se puede elegir entre perspectiva en primera o tercera persona
  • 2. World Exploration (exploración de mundos)

    • El mundo generado se convierte en un entorno explorable, donde las rutas se generan en tiempo real según las acciones del usuario
    • Es posible ajustar el ángulo de cámara durante la exploración
  • 3. World Remixing (remezcla de mundos)

    • Permite reconstruir un mundo con una nueva interpretación a partir del prompt de un mundo existente
    • Mediante la galería o la exploración aleatoria, se pueden explorar o modificar mundos de otros usuarios
    • El mundo terminado y el proceso de exploración pueden descargarse como video

Construcción de una IA responsable

  • Project Genie es un prototipo experimental de investigación que se desarrolla dentro de Google Labs y opera siguiendo los principios de desarrollo responsable de IA
  • Debido a las limitaciones actuales del modelo, se indican restricciones como las siguientes
    • El mundo generado puede diferir de la realidad o no coincidir con el prompt o con las leyes de la física
    • Puede haber retrasos en el control del personaje o menor capacidad de respuesta
    • Existe un límite de generación de 60 segundos
  • La función de cambios de eventos basada en prompts, anunciada en agosto de 2025, aún no está incluida
  • Las futuras actualizaciones y mejoras podrán consultarse en la página oficial de DeepMind

Próximos pasos y ampliación del acceso

  • Project Genie se desarrolló a partir de investigación colaborativa con testers de confianza
  • Esta publicación es una etapa para entender cómo los usuarios utilizan realmente los modelos de mundo
  • Por ahora solo está disponible para suscriptores de Google AI Ultra en Estados Unidos, pero se expandirá a más regiones más adelante
  • A largo plazo, Google planea abrir la tecnología de generación de mundos a más usuarios

1 comentarios

 
GN⁺ 2026-01-30
Comentarios en Hacker News
  • Últimamente no dejo de pensar en The Experience Machine de Andy Clark
    La teoría dice que el cerebro humano no percibe el mundo directamente, sino que experimenta la realidad corrigiendo con los sentidos una simulación generada internamente
    Es decir, vivimos dentro de un modelo generativo de alta resolución, y los sentidos cumplen la función de ajustar las señales de error de ese modelo
    Así como Genie 3 predice el siguiente frame en el espacio latente, el cerebro humano también intenta minimizar la diferencia entre expectativa y experiencia real mediante la “Active Inference”
    Al final, la sensación de realidad no sería un registro directo del mundo exterior, sino una simulación interactiva corregida de manera constante

    • Neurológicamente, esto ya es una idea bastante establecida
      Por ejemplo, los sueños pueden verse como un caso en el que el modelo interno funciona libremente cuando la entrada sensorial está bloqueada
    • Como videos relacionados, recomiendo Why Your Brain Blinds You For 2 Hours Every Day de kurzgesagt y su colección de fuentes
    • Your Brain Hallucinates Your Conscious Reality de Anil Seth va en la misma línea
      Este tipo de temas también se han tratado desde hace mucho en la filosofía y la religión, y resulta interesante cómo la conciencia humana construye la realidad como una proyección de sí misma
    • El posprocesamiento de las fotos en smartphones también puede verse como una metáfora parecida
      Hace pensar en en qué momento deja de ser una foto para convertirse en una obra impresionista calculada
    • También vale la pena leer 『The Case Against Reality』 de Donald Hoffman
  • Mucha gente parece entender Genie solo como un producto para juegos o películas
    Pero su objetivo real es construir un modelo del mundo que sirva como “motor de imaginación” para la próxima generación de IA y robótica, es decir, que simule resultados de acciones para ayudar en la toma de decisiones

    • Yo también estoy de acuerdo. Se decía que los LLM no tenían modelo del mundo, y esto parece ser justamente el siguiente paso
      Me imagino una estructura que codifica video del mundo real a cierta tasa de frames para anclar la imaginación del modelo en datos reales, ramifica posibles escenarios de acción para evaluarlos y luego envía la mejor predicción al motor
      Ajustar el timing no sería fácil, pero el panorama general ya se alcanza a ver
    • Tengo una opinión algo distinta. Si lo que se busca es imaginación real, no creo que haga falta decodificar video
      Genie genera video como una interfaz que los humanos pueden entender y depurar
      O sea, su objetivo es distinto: funciona como un juego experimental de IA para investigadores
    • Pero esta estructura tiene un costo demasiado alto. Para robótica, probablemente haga falta una arquitectura completamente distinta
    • Instagram también empezó como una app para compartir fotos con amigos, pero ahora es una plataforma adictiva
      Si Genie se combina con VR, podría llegar un punto de inflexión distópico parecido
    • Este mapeo del entorno y la generación de resultados alternativos por IA al final es básicamente el concepto de holodeck
      Pero yo sigo prefiriendo el riesgo y la vitalidad del mundo real
  • Me da muchísimo gusto que por fin se haya mostrado Genie
    Ya hay videos interesantes de usuarios iniciales:
    exploración urbana, simulación de helicóptero, estación espacial y Dunkin Donuts, simulación de laptop, piloto nutria

    • Yo también participé como early tester
      Probé creando mundos muy distintos: caminar sobre la Luna, encontrarme con Holmes y Watson en 221B Baker Street, o explorar un mercado nocturno de Taipéi convertido en un bubble tea gigante
      También hay un video de demostración
      Todavía es un prototipo experimental, pero se siente como una pista del futuro
    • Técnicamente es impresionante, pero le falta inmersión
      Está padre poder generar assets tipo Unreal 5 con unas cuantas palabras, pero en la práctica no es así como quisiera jugar
      Además, no pienso pagar un costo de cómputo por segundo
    • De verdad me encantaría ver una versión que recree la era de los dinosaurios
    • Me interesa saber qué opinan de Project Genie
  • El verdadero avance de Genie es que puedes voltear hacia atrás
    Los simuladores de otros laboratorios no lograban mantener consistencia fuera del campo de visión, pero Genie sí resuelve eso

    • Escuché que el laboratorio de Fei-Fei Li está generando un mundo 3D real
      Aunque ese enfoque quizá tenga limitaciones para expresiones animadas
    • Sorprende que los investigadores de ML apenas hasta ahora estén cayendo en cuenta de la necesidad de una estructura de caché explícita
    • Entonces me pregunto si, al volver al mismo lugar una semana después, la escena seguirá conservándose
  • Hay un video con una entrevista al equipo de Project Genie
    Enlace de YouTube
    Genie es un prototipo de investigación que permite generar, explorar e interactuar en tiempo real con mundos fotorrealistas infinitamente variados
    Habla del paso de la generación de video pasiva a los medios interactivos, de los desafíos técnicos de la consistencia del mundo y la retención de memoria, y de su papel como campo de entrenamiento para agentes de IA

  • Cuanto más veo esta clase de tecnología, más ganas me dan de pasar tiempo en el mundo real
    Quiero apagar la pantalla y volver a hacer las cosas que amo

    • Yo siento lo mismo. En cuanto vi a alguien tecleando dentro del video, me entró una sensación algo amarga
      Un mundo virtual construido con escenas filmadas de la realidad termina produciéndome tristeza
    • Me encanta la IA, pero ojalá que justamente este tipo de tecnología nos recuerde el valor de la experiencia humana real
    • He trabajado toda mi vida en la industria tecnológica, pero ahora me dan ganas de apagarlo todo
    • Irónicamente, este avance me hace creer más en la hipótesis de la simulación
      Tal vez la realidad también ya sea una simulación
    • El cielo está azul y hace buen sol, pero da flojera, así que mejor corro una simulación de paseo
  • Me acordé de este proyecto personal que entrenó un modelo del mundo con video de un parque que habían subido antes a HN
    También tenía una demo interactiva, y Genie se siente como una evolución de esa idea
    Da pena que blogs y demos indie no suelan ser citados

    • Sí, el concepto es parecido, pero la escala es radicalmente distinta
      El modelo del parque tenía 5 millones de parámetros, fue entrenado con 15 minutos de video y corría incluso en un iPhone
      En cambio, Genie 3 es un modelo gigantesco de decenas de miles de millones de parámetros entrenado con millones de horas de video
      También están apareciendo modelos de tamaño intermedio, así que en 1 o 2 años probablemente sea posible correrlos localmente en una GPU gamer
      Ejemplos: LingBot-World, Waypoint 1
  • Todo esto se parece mucho al tema de la película 『The Thirteenth Floor』
    Enlace al tráiler

  • Ojalá alguien hiciera un mundo basado en este GIF

  • Llevo tiempo preguntándome por qué Meta(FB) no está apostando fuerte por los modelos del mundo
    Si esto es justamente el núcleo de la visión del metaverso, y aun así terminaron dejando ir a Yann LeCun

    • LeCun provocó fracturas internas por la falta de resultados y una dirección de investigación demasiado terca
      No entró a la competencia de LLM y se enfocó solo en teorías no comprobadas
      Como resultado, Meta quedó rezagada del grupo líder en IA, y LeCun se fue conservando su prestigio
    • Yo explicaría la diferencia entre JEPA y Genie así
      JEPA resume como un novelista: “el perro corre hacia el cartero”
      Genie, en cambio, tiene que pintar la siguiente escena como un artista para que la historia exista
      Es decir, Genie hace generación a nivel de frame, mientras que JEPA hace predicción a nivel conceptual
    • Totalmente de acuerdo. Los modelos del mundo son prácticamente la carta salvadora para justificar la inversión en Reality Labs
      Si no logran convertir esto en producto, tendrían que cerrar el proyecto completo
    • Los fracasos no se hacen públicos. En la práctica, sigue siendo poco claro en qué ha invertido Meta realmente
    • En el fondo, a la gente no le gusta usar headsets de VR
      Por muy bueno que sea el contenido, sigue siendo un mercado de nicho