- Project Genie de Google es un prototipo experimental de investigación que permite a los usuarios crear, explorar y remezclar mundos virtuales interactivos usando texto e imágenes
- Está basado en el modelo Genie 3 y genera rutas y entornos en tiempo real según el movimiento del usuario
- Se ofrece en formato de app web e integra los modelos Nano Banana Pro y Gemini para admitir funciones de bocetado, exploración y remezcla de mundos
- Debido a las limitaciones del modelo, esta versión inicial tiene restricciones como inconsistencias con las leyes de la física, retraso en el control de personajes y un límite de 60 segundos
- Actualmente está disponible para suscriptores de Google AI Ultra en Estados Unidos (mayores de 18 años), con planes de expandirse a más regiones en el futuro
Resumen de Project Genie
- Project Genie es un prototipo experimental de investigación desarrollado por Google DeepMind y basado en Genie 3, que ofrece un entorno donde los usuarios pueden crear, explorar y remezclar mundos virtuales por sí mismos
- Está disponible para suscriptores de Google AI Ultra en Estados Unidos (mayores de 18 años)
- Los usuarios pueden generar mundos mediante prompts de texto e imágenes, y explorarlos en tiempo real
- Este proyecto es un primer paso para abrir al público general la tecnología de generación de mundos inmersivos, y representa una expansión de la investigación sobre modelos de mundo (world model)
Avances en los modelos de mundo (World Model)
- Los modelos de mundo son sistemas que simulan los cambios dinámicos del entorno y predicen el impacto de las acciones
- Google DeepMind busca ir más allá de la investigación de agentes para entornos específicos, como ajedrez o Go, y apunta a desarrollar sistemas de AGI capaces de explorar la diversidad del mundo real
- Genie 3 genera rutas en tiempo real según el desplazamiento del usuario y simula interacciones físicas
- Admite generación de mundos dinámicos, no solo snapshots 3D estáticos
- Puede aplicarse a diversos escenarios, como robótica, animación, ficción y exploración de lugares históricos
Cómo funciona Project Genie
- Es un prototipo basado en la web que, además de Genie 3, integra los modelos Nano Banana Pro y Gemini
- Está compuesto por tres funciones principales
-
1. World Sketching (bocetado de mundos)
- Usa texto e imágenes (generadas o subidas) para diseñar entornos vivos
- Permite definir personajes y la forma de exploración, con soporte para caminar, volar, conducir y otros tipos de movimiento
- La integración con Nano Banana Pro permite previsualizar y ajustar detalles del mundo
- Se puede elegir entre perspectiva en primera o tercera persona
-
2. World Exploration (exploración de mundos)
- El mundo generado se convierte en un entorno explorable, donde las rutas se generan en tiempo real según las acciones del usuario
- Es posible ajustar el ángulo de cámara durante la exploración
-
3. World Remixing (remezcla de mundos)
- Permite reconstruir un mundo con una nueva interpretación a partir del prompt de un mundo existente
- Mediante la galería o la exploración aleatoria, se pueden explorar o modificar mundos de otros usuarios
- El mundo terminado y el proceso de exploración pueden descargarse como video
Construcción de una IA responsable
- Project Genie es un prototipo experimental de investigación que se desarrolla dentro de Google Labs y opera siguiendo los principios de desarrollo responsable de IA
- Debido a las limitaciones actuales del modelo, se indican restricciones como las siguientes
- El mundo generado puede diferir de la realidad o no coincidir con el prompt o con las leyes de la física
- Puede haber retrasos en el control del personaje o menor capacidad de respuesta
- Existe un límite de generación de 60 segundos
- La función de cambios de eventos basada en prompts, anunciada en agosto de 2025, aún no está incluida
- Las futuras actualizaciones y mejoras podrán consultarse en la página oficial de DeepMind
Próximos pasos y ampliación del acceso
- Project Genie se desarrolló a partir de investigación colaborativa con testers de confianza
- Esta publicación es una etapa para entender cómo los usuarios utilizan realmente los modelos de mundo
- Por ahora solo está disponible para suscriptores de Google AI Ultra en Estados Unidos, pero se expandirá a más regiones más adelante
- A largo plazo, Google planea abrir la tecnología de generación de mundos a más usuarios
1 comentarios
Comentarios en Hacker News
Últimamente no dejo de pensar en The Experience Machine de Andy Clark
La teoría dice que el cerebro humano no percibe el mundo directamente, sino que experimenta la realidad corrigiendo con los sentidos una simulación generada internamente
Es decir, vivimos dentro de un modelo generativo de alta resolución, y los sentidos cumplen la función de ajustar las señales de error de ese modelo
Así como Genie 3 predice el siguiente frame en el espacio latente, el cerebro humano también intenta minimizar la diferencia entre expectativa y experiencia real mediante la “Active Inference”
Al final, la sensación de realidad no sería un registro directo del mundo exterior, sino una simulación interactiva corregida de manera constante
Por ejemplo, los sueños pueden verse como un caso en el que el modelo interno funciona libremente cuando la entrada sensorial está bloqueada
Este tipo de temas también se han tratado desde hace mucho en la filosofía y la religión, y resulta interesante cómo la conciencia humana construye la realidad como una proyección de sí misma
Hace pensar en en qué momento deja de ser una foto para convertirse en una obra impresionista calculada
Mucha gente parece entender Genie solo como un producto para juegos o películas
Pero su objetivo real es construir un modelo del mundo que sirva como “motor de imaginación” para la próxima generación de IA y robótica, es decir, que simule resultados de acciones para ayudar en la toma de decisiones
Me imagino una estructura que codifica video del mundo real a cierta tasa de frames para anclar la imaginación del modelo en datos reales, ramifica posibles escenarios de acción para evaluarlos y luego envía la mejor predicción al motor
Ajustar el timing no sería fácil, pero el panorama general ya se alcanza a ver
Genie genera video como una interfaz que los humanos pueden entender y depurar
O sea, su objetivo es distinto: funciona como un juego experimental de IA para investigadores
Si Genie se combina con VR, podría llegar un punto de inflexión distópico parecido
Pero yo sigo prefiriendo el riesgo y la vitalidad del mundo real
Me da muchísimo gusto que por fin se haya mostrado Genie
Ya hay videos interesantes de usuarios iniciales:
exploración urbana, simulación de helicóptero, estación espacial y Dunkin Donuts, simulación de laptop, piloto nutria
Probé creando mundos muy distintos: caminar sobre la Luna, encontrarme con Holmes y Watson en 221B Baker Street, o explorar un mercado nocturno de Taipéi convertido en un bubble tea gigante
También hay un video de demostración
Todavía es un prototipo experimental, pero se siente como una pista del futuro
Está padre poder generar assets tipo Unreal 5 con unas cuantas palabras, pero en la práctica no es así como quisiera jugar
Además, no pienso pagar un costo de cómputo por segundo
El verdadero avance de Genie es que puedes voltear hacia atrás
Los simuladores de otros laboratorios no lograban mantener consistencia fuera del campo de visión, pero Genie sí resuelve eso
Aunque ese enfoque quizá tenga limitaciones para expresiones animadas
Hay un video con una entrevista al equipo de Project Genie
Enlace de YouTube
Genie es un prototipo de investigación que permite generar, explorar e interactuar en tiempo real con mundos fotorrealistas infinitamente variados
Habla del paso de la generación de video pasiva a los medios interactivos, de los desafíos técnicos de la consistencia del mundo y la retención de memoria, y de su papel como campo de entrenamiento para agentes de IA
Cuanto más veo esta clase de tecnología, más ganas me dan de pasar tiempo en el mundo real
Quiero apagar la pantalla y volver a hacer las cosas que amo
Un mundo virtual construido con escenas filmadas de la realidad termina produciéndome tristeza
Tal vez la realidad también ya sea una simulación
Me acordé de este proyecto personal que entrenó un modelo del mundo con video de un parque que habían subido antes a HN
También tenía una demo interactiva, y Genie se siente como una evolución de esa idea
Da pena que blogs y demos indie no suelan ser citados
El modelo del parque tenía 5 millones de parámetros, fue entrenado con 15 minutos de video y corría incluso en un iPhone
En cambio, Genie 3 es un modelo gigantesco de decenas de miles de millones de parámetros entrenado con millones de horas de video
También están apareciendo modelos de tamaño intermedio, así que en 1 o 2 años probablemente sea posible correrlos localmente en una GPU gamer
Ejemplos: LingBot-World, Waypoint 1
Todo esto se parece mucho al tema de la película 『The Thirteenth Floor』
Enlace al tráiler
Ojalá alguien hiciera un mundo basado en este GIF
Llevo tiempo preguntándome por qué Meta(FB) no está apostando fuerte por los modelos del mundo
Si esto es justamente el núcleo de la visión del metaverso, y aun así terminaron dejando ir a Yann LeCun
No entró a la competencia de LLM y se enfocó solo en teorías no comprobadas
Como resultado, Meta quedó rezagada del grupo líder en IA, y LeCun se fue conservando su prestigio
JEPA resume como un novelista: “el perro corre hacia el cartero”
Genie, en cambio, tiene que pintar la siguiente escena como un artista para que la historia exista
Es decir, Genie hace generación a nivel de frame, mientras que JEPA hace predicción a nivel conceptual
Si no logran convertir esto en producto, tendrían que cerrar el proyecto completo
Por muy bueno que sea el contenido, sigue siendo un mercado de nicho