Google DeepMind presenta Genie 3, su modelo de mundo
(deepmind.google)- El primer modelo de mundo de propósito general que genera entornos 3D interactivos en tiempo real solo con prompts de texto
- Puede mantener 24 fps, resolución 720p y consistencia durante varios minutos, con grandes mejoras en interactividad, realismo y persistencia frente a Genie 2
- Puede generar de forma natural y variada mundos virtuales sobre fenómenos físicos, ecosistemas, animación y contextos históricos y geográficos, entre otros temas
- Con la función Promptable world events, el usuario puede controlar en tiempo real eventos dinámicos como cambios de clima o la adición de objetos mediante texto
- Diseñado para investigación con agentes, puede integrarse con agentes SIMA y similares para probar cumplimiento de objetivos a largo plazo o secuencias complejas de acciones
Genie 3: una revolución en la simulación de mundos
El contexto de la evolución de los modelos de mundo
- DeepMind ha liderado la investigación en entornos de simulación para entrenamiento de agentes de IA, aprendizaje abierto y robótica
- Un modelo de mundo es un sistema de IA capaz de predecir y reproducir cambios del entorno y los resultados de las acciones de un agente, y se considera un paso intermedio importante hacia la AGI
- Tras Genie 1 y 2, Genie 3 es el primer modelo de mundo que ofrece al mismo tiempo interactividad en tiempo real y consistencia visual y física
Funciones principales de Genie 3
-
Modelado de fenómenos naturales y físicos
- Reproduce de forma natural fenómenos del mundo real como agua, luz y diversas interacciones del entorno solo con prompts
-
Ecosistemas complejos y animación
- Permite generar la dinámica de los ecosistemas, como el comportamiento animal o el crecimiento de las plantas, así como mundos animados basados en la imaginación
-
Recreación de contextos históricos y geográficos
- Puede construir en tiempo real entornos virtuales con espacios diversos que trascienden fronteras geográficas y temporales
-
Interacción y control en tiempo real
- Visualiza cambios inmediatos en el mundo a 24 fps y 720p según la entrada del usuario
- Recuerda ubicaciones y estados visitados previamente, manteniendo consistencia física y visual durante varios minutos
-
Promptable World Events
- Permite activar en tiempo real eventos de cambio del entorno, como variaciones del clima o la adición de objetos y personajes, mediante prompts de texto
- Además del control de exploración, ofrece amplias posibilidades de uso, como escenarios de “qué pasaría si…” o la creación de situaciones no cotidianas
-
Investigación y experimentación con agentes
- Agentes de IA especializados en entornos 3D, como SIMA, pueden perseguir objetivos complejos dentro del mundo de Genie 3 y poner a prueba su capacidad para ejecutar secuencias de largo plazo
- Los objetivos del agente no se comparten con Genie 3; los resultados se generan únicamente a partir de la secuencia de acciones y la simulación del mundo
Retos técnicos y logros
- En el proceso de generación autorregresiva por fotograma, se requiere una tecnología muy avanzada porque debe reflejar en tiempo real tanto la entrada del usuario como las secuencias pasadas
- A diferencia de NeRF, Gaussian Splatting y otras técnicas previas, Genie 3 se basa en una generación pura sin representación 3D explícita, lo que le permite construir entornos mucho más dinámicos y ricos
Limitaciones y desafíos
- Rango de acciones limitado: los cambios del entorno basados en prompts son variados, pero las acciones que pueden realizarse directamente aún son limitadas
- Interacción entre múltiples agentes: la simulación precisa de interacciones entre varios agentes sigue siendo un tema de investigación
- Límites en la reproducción de ubicaciones reales: no ofrece una precisión perfecta de espacios geográficos reales
- Limitaciones en el renderizado de texto: solo puede mostrar texto con claridad cuando se introduce de forma explícita
- Límite de tiempo de interacción: por ahora solo admite interacción continua durante unos pocos minutos
Responsabilidad y alcance de la publicación
- Las características de generación abierta y en tiempo real de Genie 3 implican nuevos retos de seguridad y ética, por lo que se trabaja en estrecha colaboración con el Responsible Development & Innovation Team
- En una primera etapa, se ofrecerá como vista previa de investigación solo a un grupo limitado de investigadores y creadores, con planes de ampliar gradualmente el acceso y definir medidas para responder a los riesgos a partir del feedback
Futuro y perspectivas de uso
- Genie 3 abre nuevas posibilidades en campos como educación, entrenamiento, aprendizaje de agentes de IA y validación de rendimiento
- Se espera que desempeñe un papel clave en la investigación de AGI (inteligencia artificial general) y que siga desarrollándose de forma segura en una dirección beneficiosa para la humanidad
1 comentarios
Opiniones en Hacker News
Si alguien trabaja en este campo o tiene experiencia, me gustaría saber si puede especular sobre con qué tecnologías, arquitectura, diseño de sistemas y requisitos de cómputo se habrá implementado Genie 3. Como por ahora hay poca información pública, me interesa especialmente escuchar cómo los expertos del área estiman o infieren cómo pudo haberse construido
Me parece un nivel completamente inesperado que se pueda lograr consistencia por varios minutos en tiempo real a 720p. Entiendo que la consistencia de Genie 3 es una
emergent capabilitysurgida del escalado del modelo. Es decir, no parece que hayan mejorado deliberadamente la arquitectura, sino que el desempeño apareció casi por accidente al hacerlo más grande. Alguien que lo probó resumió sus limitaciones (enlace a X):La simulación física sigue siendo difícil, y hay casos claros de fallo en experimentos de física intuitiva usados en psicología, como apilar bloques
Las interacciones sociales o situaciones con varios agentes entrelazados son difíciles, y los juegos tipo duelo 1:1 no funcionan bien
Tampoco se le dan bien las instrucciones complejas o la lógica de juego, como recoger una llave para abrir una puerta
El espacio de acciones también es limitado
Todavía está lejos de ser un verdadero motor de juego, pero sin duda es una oportunidad de ver directamente un fragmento del futuro Aun con esas limitaciones, da la impresión de que los modelos de mundo van a jugar un papel más importante de lo esperado en robótica y en la IA del mundo real. Tal vez los robots del futuro aprendan soñando
Tengo mucha curiosidad por cómo podría funcionar el multijugador, no solo desde lo logístico y técnico, sino también desde la perspectiva del gameplay
Los juegos claramente son un caso de uso principal, pero en el fondo parece que Google lo desarrolló con el objetivo de generar
synthetic datapara entrenar robots de almacén. Ver la nota de The Guardian y este post de HN de 4 meses antes del lanzamiento de Gemini RobotNo esperaba que el progreso tecnológico avanzara tan rápido. Hace unos meses escribí que manipular la salida de modelos de mundo sería la siguiente etapa de los juegos AAA (post del blog), y en ese momento pensaba que faltaban años. Incluso bromeé con que Rockstar podría dejarse seducir por los world models durante el desarrollo de GTA6, pero ahora ya no suena tan raro. Viendo el progreso desde la aparición de GameNGen, hasta me da la impresión de que esto podría darle la vuelta antes de que salga GTA6
A este nivel, parece una herramienta excelente para robótica porque visualmente sí podría cerrar el
reality gapcon el mundo real. Claro, la simulación física sigue siendo un problema aparteOtro momento en el que se aplica la
bitter lessonEs un avance realmente alentador; probablemente esto era lo que Demis había anticipado el mes pasado (tuit relacionado). Viendo los clips publicados, se pueden hacer algunas conjeturas técnicas:
text-to-image) + i2w (image-to-world). Mi apuesta es que t2i usa datos generales, e i2w es un sistema afinado con datos de juegos y controles etiquetados. Con el tiempo, el contraste y la saturación tienden a intensificarse, aunque menos que en otros modelos de video autorregresivos (video de ejemplo)Ojalá revelaran más sobre cómo funciona. Me gustaría al menos un paper para investigadores. Mi suposición es que es parecido a los modelos existentes de generación de video, pero condicionados con entradas como
movement direction,viewangle, etc. Creo que usan entradas absolutas y quizá algo de simulación de estado, aunque viendo que en el demo hay física de colisión entre objetos también podría no ser así, o tal vez se genera unup axisen 2D. Claramente parece entrenado con datos basados en motores de juego, porque se ven artefactos de reflejos enscreen space. También parece que agregaron datos basados en fotoscans/splats, y la resolución de los elementos irreales se ve especialmente baja. También hay inconsistencias visibles en el demo:greedy samplingpor estabilidadEs realmente impresionante, pero faltan muchísimos detalles. No coincido con otros comentarios en que no sirve de nada si no se puede probar directamente, pero sí me sorprende el cambio: hace apenas unos años, un anuncio así casi seguro habría venido acompañado de un paper. Ahora hay algo parecido a partes de un paper —equipo creador, demo, cita BibTeX— pero no hay una investigación real compartida. Hablando con un conocido, lo que más me preocupa no es la capacidad inmediata de la IA, sino que la lógica económica pasó casi de golpe del modo investigación/académico a la “extracción de valor”. También es riesgoso basar políticas o economía en esto, aunque sea indirectamente. No me opongo a la comercialización, pero que salgan anuncios de producto que parecen papers al mismo tiempo que matemáticos alertan sobre recortes recientes al apoyo de la investigación académica es algo que, a largo plazo, debilita la confianza
Todavía me cuesta imaginar que generar “el siguiente píxel” por predicción sea mejor que construir y renderizar una escena de forma determinista como se hacía antes. Por ejemplo, si usas IA para crear texturas, modelos y secuencias de movimiento, y dejas que la GPU combine todo eso para renderizar la escena, entonces el usuario puede manipular libremente el modelo
wire, las texturas, la posición de la cámara, etc.Se siente revolucionario. Sabía que iba a llegar, pero enfrentarlo de verdad se siente nuevo. Tiene limitaciones, pero es un punto de partida. Hasta ahora, en los motores de juego la clave era que ingenieros o desarrolladores ajustaran formas geométricas —triángulos, etc.— para colocarlas exactamente en los píxeles; ahora da la sensación de que la computadora “pinta” directamente la imagen en cada frame, sin siquiera hacer cálculos de triángulos
Y además la calidad de las manos también era más de 10 veces peor. Ahora manos, texto e imágenes ya mejoraron, así que parece que volveremos a jugar a “¿Dónde está Wally?” para encontrar defectos. Algún día espero ver videos de zoom infinito con marcas de agua de IA escondidas al nivel de un tercio de píxel. Personalmente, me interesa más el campo del
augmented video. Cosas estilo vlog de stormtrooper como las que Runway y otros están intentando, aunque el precio es demasiado altoYo no diría que el problema del texto esté completamente resuelto; sí ha mejorado mucho, pero
gpt-image-1todavía falla de vez en cuando generando textoEl prompt y el contenido generado en el pizarrón no coinciden en el uso del guion (-)
Es la primera vez que veo una presentación que me sacudió varias veces mi sentido de la realidad. De verdad me voló la cabeza
El avance de la IA generativa me deprime cada vez más. Siento que nos quita la creatividad cada vez más rápido. Si la tecnología se quedara como herramienta para ayudar a la creación humana, estaría bien, pero ahora más bien parece apuntar al reemplazo total. Claro, uno puede decir “igual puedes hacer música o dibujar por tu cuenta”, pero históricamente las obras de arte no surgen solo para uno mismo, sino dentro de un contexto social de compartir con otros. Entonces, ¿qué nos queda al final? Solo trabajos simples que todavía no se han automatizado, y cuando también se automaticen, no sé qué le quedará al ser humano. ¿Vamos hacia un futuro donde solo se nos da estimulación personalizada al cerebro para elevar la dopamina hasta dañarlo, algo que en parte ya pasa con cosas tipo TikTok? Si todo se automatiza, también me pregunto cómo podría sostenerse así la estructura económica. Hasta podría ser una interpretación de la paradoja de Fermi. Un mundo donde ya no puedes meter mano a la tecnología porque no la entiendes, donde desaparece incluso el acceso técnico básico, y donde los recursos se han agotado de forma irreversible. En una situación así, me pregunto cómo se puede encontrar sentido a la vida
La afirmación de que las obras de arte no se hicieron para uno mismo y sin compartirlas con el público tiene incontables contraejemplos entre escritores, pintores y artistas famosos. Kafka es un caso representativo, y muchas obras importantes fueron descubiertas póstumamente e incluso contra la voluntad del propio autor. Eso no borra el resto de tus puntos, pero el arte siempre ha existido para uno mismo en muchos casos, y seguirá existiendo así
Sobre la frase “no puedo aceptar la postura de quienes se alegran de vivir en esta época”, la alegría es una sensación, no un acto lógico. Es una emoción que viene de la esperanza y la imaginación. El optimismo no necesita lógica. Y la cuestión de encontrar sentido a la vida no empezó con los LLM; es un tema que ya se trataba hace miles de años. Por ejemplo, en el [Bhagavad Gita], el protagonista le pregunta a dios “si el resultado también es insignificante, ¿por qué debo actuar?”, pero no recibe una respuesta definitiva, solo una reflexión contemplativa. Esta es una pregunta que la humanidad enfrenta desde mucho antes de la inteligencia artificial
Es parecido a cómo hoy ya no necesitamos caminar o levantar peso para sobrevivir, y si no hacemos ejercicio nos vamos debilitando poco a poco. En el futuro, si la mayoría ya no necesita pensar, crear o investigar para ganarse la vida, nos iremos volviendo más tontos. Solo una minoría seguirá ejercitando la mente, pero ni ellos podrán llegar a ser más inteligentes que las máquinas. Como pasa con los mejores atletas, que no pueden vencer a una máquina
Incluso en el mundo en que ya vivimos, YouTube y Spotify están llenos de canciones hechas por personas que tocan muchísimo mejor que yo. Por eso creo que este cambio también va en esa misma línea
No conecto con tu argumento. He compuesto cientos de canciones a lo largo de mi vida y no compartí ninguna con nadie, y a todos mis amigos músicos les pasa igual. El acto creativo existe aparte de si hay audiencia o no. De hecho, muchas veces es casi lo contrario. Y además, la historia de la producción musical ha ido bajando gradualmente la barrera de entrada con nuevas tecnologías; antes estaba cerrada por el costo del equipo caro