14 puntos por GN⁺ 2025-08-06 | 1 comentarios | Compartir por WhatsApp
  • El primer modelo de mundo de propósito general que genera entornos 3D interactivos en tiempo real solo con prompts de texto
  • Puede mantener 24 fps, resolución 720p y consistencia durante varios minutos, con grandes mejoras en interactividad, realismo y persistencia frente a Genie 2
  • Puede generar de forma natural y variada mundos virtuales sobre fenómenos físicos, ecosistemas, animación y contextos históricos y geográficos, entre otros temas
  • Con la función Promptable world events, el usuario puede controlar en tiempo real eventos dinámicos como cambios de clima o la adición de objetos mediante texto
  • Diseñado para investigación con agentes, puede integrarse con agentes SIMA y similares para probar cumplimiento de objetivos a largo plazo o secuencias complejas de acciones

Genie 3: una revolución en la simulación de mundos

El contexto de la evolución de los modelos de mundo

  • DeepMind ha liderado la investigación en entornos de simulación para entrenamiento de agentes de IA, aprendizaje abierto y robótica
  • Un modelo de mundo es un sistema de IA capaz de predecir y reproducir cambios del entorno y los resultados de las acciones de un agente, y se considera un paso intermedio importante hacia la AGI
  • Tras Genie 1 y 2, Genie 3 es el primer modelo de mundo que ofrece al mismo tiempo interactividad en tiempo real y consistencia visual y física

Funciones principales de Genie 3

  • Modelado de fenómenos naturales y físicos

    • Reproduce de forma natural fenómenos del mundo real como agua, luz y diversas interacciones del entorno solo con prompts
  • Ecosistemas complejos y animación

    • Permite generar la dinámica de los ecosistemas, como el comportamiento animal o el crecimiento de las plantas, así como mundos animados basados en la imaginación
  • Recreación de contextos históricos y geográficos

    • Puede construir en tiempo real entornos virtuales con espacios diversos que trascienden fronteras geográficas y temporales
  • Interacción y control en tiempo real

    • Visualiza cambios inmediatos en el mundo a 24 fps y 720p según la entrada del usuario
    • Recuerda ubicaciones y estados visitados previamente, manteniendo consistencia física y visual durante varios minutos
  • Promptable World Events

    • Permite activar en tiempo real eventos de cambio del entorno, como variaciones del clima o la adición de objetos y personajes, mediante prompts de texto
    • Además del control de exploración, ofrece amplias posibilidades de uso, como escenarios de “qué pasaría si…” o la creación de situaciones no cotidianas
  • Investigación y experimentación con agentes

    • Agentes de IA especializados en entornos 3D, como SIMA, pueden perseguir objetivos complejos dentro del mundo de Genie 3 y poner a prueba su capacidad para ejecutar secuencias de largo plazo
    • Los objetivos del agente no se comparten con Genie 3; los resultados se generan únicamente a partir de la secuencia de acciones y la simulación del mundo

Retos técnicos y logros

  • En el proceso de generación autorregresiva por fotograma, se requiere una tecnología muy avanzada porque debe reflejar en tiempo real tanto la entrada del usuario como las secuencias pasadas
  • A diferencia de NeRF, Gaussian Splatting y otras técnicas previas, Genie 3 se basa en una generación pura sin representación 3D explícita, lo que le permite construir entornos mucho más dinámicos y ricos

Limitaciones y desafíos

  • Rango de acciones limitado: los cambios del entorno basados en prompts son variados, pero las acciones que pueden realizarse directamente aún son limitadas
  • Interacción entre múltiples agentes: la simulación precisa de interacciones entre varios agentes sigue siendo un tema de investigación
  • Límites en la reproducción de ubicaciones reales: no ofrece una precisión perfecta de espacios geográficos reales
  • Limitaciones en el renderizado de texto: solo puede mostrar texto con claridad cuando se introduce de forma explícita
  • Límite de tiempo de interacción: por ahora solo admite interacción continua durante unos pocos minutos

Responsabilidad y alcance de la publicación

  • Las características de generación abierta y en tiempo real de Genie 3 implican nuevos retos de seguridad y ética, por lo que se trabaja en estrecha colaboración con el Responsible Development & Innovation Team
  • En una primera etapa, se ofrecerá como vista previa de investigación solo a un grupo limitado de investigadores y creadores, con planes de ampliar gradualmente el acceso y definir medidas para responder a los riesgos a partir del feedback

Futuro y perspectivas de uso

  • Genie 3 abre nuevas posibilidades en campos como educación, entrenamiento, aprendizaje de agentes de IA y validación de rendimiento
  • Se espera que desempeñe un papel clave en la investigación de AGI (inteligencia artificial general) y que siga desarrollándose de forma segura en una dirección beneficiosa para la humanidad

1 comentarios

 
GN⁺ 2025-08-06
Opiniones en Hacker News
  • Si alguien trabaja en este campo o tiene experiencia, me gustaría saber si puede especular sobre con qué tecnologías, arquitectura, diseño de sistemas y requisitos de cómputo se habrá implementado Genie 3. Como por ahora hay poca información pública, me interesa especialmente escuchar cómo los expertos del área estiman o infieren cómo pudo haberse construido

  • Me parece un nivel completamente inesperado que se pueda lograr consistencia por varios minutos en tiempo real a 720p. Entiendo que la consistencia de Genie 3 es una emergent capability surgida del escalado del modelo. Es decir, no parece que hayan mejorado deliberadamente la arquitectura, sino que el desempeño apareció casi por accidente al hacerlo más grande. Alguien que lo probó resumió sus limitaciones (enlace a X):

    • La simulación física sigue siendo difícil, y hay casos claros de fallo en experimentos de física intuitiva usados en psicología, como apilar bloques

    • Las interacciones sociales o situaciones con varios agentes entrelazados son difíciles, y los juegos tipo duelo 1:1 no funcionan bien

    • Tampoco se le dan bien las instrucciones complejas o la lógica de juego, como recoger una llave para abrir una puerta

    • El espacio de acciones también es limitado

    • Todavía está lejos de ser un verdadero motor de juego, pero sin duda es una oportunidad de ver directamente un fragmento del futuro Aun con esas limitaciones, da la impresión de que los modelos de mundo van a jugar un papel más importante de lo esperado en robótica y en la IA del mundo real. Tal vez los robots del futuro aprendan soñando

    • Tengo mucha curiosidad por cómo podría funcionar el multijugador, no solo desde lo logístico y técnico, sino también desde la perspectiva del gameplay

    • Los juegos claramente son un caso de uso principal, pero en el fondo parece que Google lo desarrolló con el objetivo de generar synthetic data para entrenar robots de almacén. Ver la nota de The Guardian y este post de HN de 4 meses antes del lanzamiento de Gemini Robot

    • No esperaba que el progreso tecnológico avanzara tan rápido. Hace unos meses escribí que manipular la salida de modelos de mundo sería la siguiente etapa de los juegos AAA (post del blog), y en ese momento pensaba que faltaban años. Incluso bromeé con que Rockstar podría dejarse seducir por los world models durante el desarrollo de GTA6, pero ahora ya no suena tan raro. Viendo el progreso desde la aparición de GameNGen, hasta me da la impresión de que esto podría darle la vuelta antes de que salga GTA6

    • A este nivel, parece una herramienta excelente para robótica porque visualmente sí podría cerrar el reality gap con el mundo real. Claro, la simulación física sigue siendo un problema aparte

    • Otro momento en el que se aplica la bitter lesson

  • Es un avance realmente alentador; probablemente esto era lo que Demis había anticipado el mes pasado (tuit relacionado). Viendo los clips publicados, se pueden hacer algunas conjeturas técnicas:

    1. Las texturas “saltan” cada 4 frames; probablemente usan un VAE con downscale temporal 4x, lo que implica una latencia mínima de interacción de 4 frames, a menos que el VAE soporte conditioning de control. No vi video en tiempo real, pero en una escena mezclan grabación de pantalla con un b-roll del teclado
    2. En movimiento rápido se ve bloqueo espacial de 16x16, así que también se puede inferir un downscale espacial de 16x16 en el VAE. Combinado con lo anterior, eso da 21,600 tokens por segundo, unos 1.3 millones de tokens por minuto
    3. El primer frame de cada clip se ve más nítido y menos “videojuego” que los frames posteriores, así que parece que están aplicando juntos t2i (text-to-image) + i2w (image-to-world). Mi apuesta es que t2i usa datos generales, e i2w es un sistema afinado con datos de juegos y controles etiquetados. Con el tiempo, el contraste y la saturación tienden a intensificarse, aunque menos que en otros modelos de video autorregresivos (video de ejemplo)
    • Sobre la latencia, en este video de gameplay en tiempo real se calculó que hay alrededor de 1.1 segundos entre la pulsación de tecla y el movimiento del sujeto, es decir, unos 33 frames a 30fps. En la reseña de un usuario de la research preview de Genie 3 se menciona que “hay algo de retraso en los controles, pero se debe más a la infraestructura que entrega el servicio que al modelo en sí”, así que gran parte de la latencia probablemente venga de una arquitectura de streaming cliente/servidor
  • Ojalá revelaran más sobre cómo funciona. Me gustaría al menos un paper para investigadores. Mi suposición es que es parecido a los modelos existentes de generación de video, pero condicionados con entradas como movement direction, viewangle, etc. Creo que usan entradas absolutas y quizá algo de simulación de estado, aunque viendo que en el demo hay física de colisión entre objetos también podría no ser así, o tal vez se genera un up axis en 2D. Claramente parece entrenado con datos basados en motores de juego, porque se ven artefactos de reflejos en screen space. También parece que agregaron datos basados en fotoscans/splats, y la resolución de los elementos irreales se ve especialmente baja. También hay inconsistencias visibles en el demo:

    • La escena del wingsuit se ve de menor calidad, quizá inicializada con una imagen de alta resolución
    • En el demo del jardín, la geometría parece cambiar entre variaciones. La segunda manguera solo aparece en una versión, como si cada vez que se mira se generara una geometría nueva sobre la marcha
    • En el demo de la escuela, destaca un auto que está solo a medias fuera de la ventana, y aparecen patrones repetidos. Cuando un transformer tiene pocos parámetros suelen aparecer patrones de bucle infinito; eso también podría indicar que todavía hay margen de escalado. Parece que usan greedy sampling por estabilidad
    • En la escena del museo, la caja de amatista tiene reflejos extraños; la parte trasera del mamut aparece sin reflejo solo en el borde derecho de la caja y de pronto sobresale al verse a través de ella. El reflejo del colmillo también aparece de repente, y eso no tiene que ver con el efecto Fresnel
  • Es realmente impresionante, pero faltan muchísimos detalles. No coincido con otros comentarios en que no sirve de nada si no se puede probar directamente, pero sí me sorprende el cambio: hace apenas unos años, un anuncio así casi seguro habría venido acompañado de un paper. Ahora hay algo parecido a partes de un paper —equipo creador, demo, cita BibTeX— pero no hay una investigación real compartida. Hablando con un conocido, lo que más me preocupa no es la capacidad inmediata de la IA, sino que la lógica económica pasó casi de golpe del modo investigación/académico a la “extracción de valor”. También es riesgoso basar políticas o economía en esto, aunque sea indirectamente. No me opongo a la comercialización, pero que salgan anuncios de producto que parecen papers al mismo tiempo que matemáticos alertan sobre recortes recientes al apoyo de la investigación académica es algo que, a largo plazo, debilita la confianza

  • Todavía me cuesta imaginar que generar “el siguiente píxel” por predicción sea mejor que construir y renderizar una escena de forma determinista como se hacía antes. Por ejemplo, si usas IA para crear texturas, modelos y secuencias de movimiento, y dejas que la GPU combine todo eso para renderizar la escena, entonces el usuario puede manipular libremente el modelo wire, las texturas, la posición de la cámara, etc.

    • Si necesitas cierto nivel o más de calidad visual, llega un punto en el que predecir “el siguiente píxel” sale más barato que el render tradicional. El modelo incluso puede describir —predecir— qué habría al hacer zoom infinito sobre una superficie. Eso reduce desafíos técnicos a los que el render tradicional difícilmente puede llegar
  • Se siente revolucionario. Sabía que iba a llegar, pero enfrentarlo de verdad se siente nuevo. Tiene limitaciones, pero es un punto de partida. Hasta ahora, en los motores de juego la clave era que ingenieros o desarrolladores ajustaran formas geométricas —triángulos, etc.— para colocarlas exactamente en los píxeles; ahora da la sensación de que la computadora “pinta” directamente la imagen en cada frame, sin siquiera hacer cálculos de triángulos

  • Renderizado de texto. Texto claro y legible solo puede generarse principalmente cuando está incluido en la descripción del mundo de entrada Me recuerda a cuando las IA de imágenes antes no podían generar texto. Ese problema también se resolvió rápido, así que probablemente sea cuestión de tiempo

    • Y además la calidad de las manos también era más de 10 veces peor. Ahora manos, texto e imágenes ya mejoraron, así que parece que volveremos a jugar a “¿Dónde está Wally?” para encontrar defectos. Algún día espero ver videos de zoom infinito con marcas de agua de IA escondidas al nivel de un tercio de píxel. Personalmente, me interesa más el campo del augmented video. Cosas estilo vlog de stormtrooper como las que Runway y otros están intentando, aunque el precio es demasiado alto

    • Yo no diría que el problema del texto esté completamente resuelto; sí ha mejorado mucho, pero gpt-image-1 todavía falla de vez en cuando generando texto

    • El prompt y el contenido generado en el pizarrón no coinciden en el uso del guion (-)

  • Es la primera vez que veo una presentación que me sacudió varias veces mi sentido de la realidad. De verdad me voló la cabeza

  • El avance de la IA generativa me deprime cada vez más. Siento que nos quita la creatividad cada vez más rápido. Si la tecnología se quedara como herramienta para ayudar a la creación humana, estaría bien, pero ahora más bien parece apuntar al reemplazo total. Claro, uno puede decir “igual puedes hacer música o dibujar por tu cuenta”, pero históricamente las obras de arte no surgen solo para uno mismo, sino dentro de un contexto social de compartir con otros. Entonces, ¿qué nos queda al final? Solo trabajos simples que todavía no se han automatizado, y cuando también se automaticen, no sé qué le quedará al ser humano. ¿Vamos hacia un futuro donde solo se nos da estimulación personalizada al cerebro para elevar la dopamina hasta dañarlo, algo que en parte ya pasa con cosas tipo TikTok? Si todo se automatiza, también me pregunto cómo podría sostenerse así la estructura económica. Hasta podría ser una interpretación de la paradoja de Fermi. Un mundo donde ya no puedes meter mano a la tecnología porque no la entiendes, donde desaparece incluso el acceso técnico básico, y donde los recursos se han agotado de forma irreversible. En una situación así, me pregunto cómo se puede encontrar sentido a la vida

    • La afirmación de que las obras de arte no se hicieron para uno mismo y sin compartirlas con el público tiene incontables contraejemplos entre escritores, pintores y artistas famosos. Kafka es un caso representativo, y muchas obras importantes fueron descubiertas póstumamente e incluso contra la voluntad del propio autor. Eso no borra el resto de tus puntos, pero el arte siempre ha existido para uno mismo en muchos casos, y seguirá existiendo así

    • Sobre la frase “no puedo aceptar la postura de quienes se alegran de vivir en esta época”, la alegría es una sensación, no un acto lógico. Es una emoción que viene de la esperanza y la imaginación. El optimismo no necesita lógica. Y la cuestión de encontrar sentido a la vida no empezó con los LLM; es un tema que ya se trataba hace miles de años. Por ejemplo, en el [Bhagavad Gita], el protagonista le pregunta a dios “si el resultado también es insignificante, ¿por qué debo actuar?”, pero no recibe una respuesta definitiva, solo una reflexión contemplativa. Esta es una pregunta que la humanidad enfrenta desde mucho antes de la inteligencia artificial

    • Es parecido a cómo hoy ya no necesitamos caminar o levantar peso para sobrevivir, y si no hacemos ejercicio nos vamos debilitando poco a poco. En el futuro, si la mayoría ya no necesita pensar, crear o investigar para ganarse la vida, nos iremos volviendo más tontos. Solo una minoría seguirá ejercitando la mente, pero ni ellos podrán llegar a ser más inteligentes que las máquinas. Como pasa con los mejores atletas, que no pueden vencer a una máquina

    • Incluso en el mundo en que ya vivimos, YouTube y Spotify están llenos de canciones hechas por personas que tocan muchísimo mejor que yo. Por eso creo que este cambio también va en esa misma línea

    • No conecto con tu argumento. He compuesto cientos de canciones a lo largo de mi vida y no compartí ninguna con nadie, y a todos mis amigos músicos les pasa igual. El acto creativo existe aparte de si hay audiencia o no. De hecho, muchas veces es casi lo contrario. Y además, la historia de la producción musical ha ido bajando gradualmente la barrera de entrada con nuevas tecnologías; antes estaba cerrada por el costo del equipo caro