Google SIMA 2 - un agente que juega, razona y aprende contigo en mundos virtuales 3D

(deepmind.google)

1 puntos por GN⁺ 2025-11-14 | 1 comentarios | Compartir por WhatsApp

SIMA 2, que integra el modelo Gemini, evoluciona más allá de simplemente seguir instrucciones en lenguaje natural para convertirse en un agente de IA para entornos virtuales 3D que entiende los objetivos del usuario, razona por sí mismo e interactúa
A diferencia de la versión anterior, que ejecutaba más de 600 acciones basadas en lenguaje, incorpora capacidades de razonamiento, diálogo y auto-mejora, lo que le permite actuar orientado a objetivos incluso en juegos nuevos
Muestra un alto nivel de generalización incluso en juegos no usados durante el entrenamiento, como MineDojo y ASKA, logrando tasas de desempeño en tareas cercanas a las de jugadores humanos
Implementa una estructura de bucle de auto-mejora con la que puede acumular experiencia por cuenta propia y mejorar su rendimiento sin datos humanos
Estos avances sientan las bases para aplicaciones en inteligencia corporizada general (embodied intelligence) y robótica

Resumen de SIMA 2

SIMA 2 es un agente de IA basado en Gemini desarrollado por Google DeepMind, diseñado para jugar y aprender junto a humanos en entornos virtuales 3D
La versión inicial de SIMA se centraba en traducir comandos de lenguaje a acciones, pero SIMA 2 añade funciones de inferencia de objetivos, diálogo y auto-mejora
Este modelo muestra avances hacia la AGI (inteligencia artificial general) y tiene implicaciones importantes para la robótica y la investigación en IA corporizada

Reasoning (capacidad de razonamiento)

SIMA 1 podía ejecutar más de 600 instrucciones como “gira a la izquierda” o “sube la escalera”, pero lo hacía observando la pantalla y manipulando el entorno sin acceso a la mecánica interna del juego
SIMA 2 incorpora el modelo Gemini, por lo que va más allá de ejecutar órdenes simples y puede entender objetivos y razonar lógicamente
Los datos de entrenamiento se construyeron mezclando videos de demostraciones humanas y etiquetas generadas por Gemini, y el agente puede explicar su plan de acción y sus pasos
En las pruebas, los usuarios percibieron la interacción con SIMA 2 como una colaboración y no como una serie de órdenes, y se realizaron entrenamientos y evaluaciones en diversos entornos de juego
Gracias al motor de razonamiento de Gemini, se materializa una IA corporizada que integra percepción, comprensión y acción en entornos 3D complejos

Generalization (rendimiento de generalización)

La integración de Gemini mejora la capacidad de entender y ejecutar instrucciones complejas y sutiles
Incluso en juegos no usados en entrenamiento (por ejemplo, ASKA y MineDojo), muestra altas tasas de éxito y alcanza un desempeño en tareas cercano al nivel humano
También adquiere capacidad de transferencia conceptual, como trasladar el concepto de “mining” a “harvesting” en otros juegos
Puede entender instrucciones multilingües y con emojis, además de procesar entradas multimodales (como dibujos)
Al combinarse con Genie 3, demuestra gran adaptabilidad al mantener orientación espacial y conducta dirigida a objetivos incluso en mundos virtuales recién generados

Self-Improvement (auto-mejora)

SIMA 2 mejora su rendimiento sin intervención humana mediante un bucle de aprendizaje auto-dirigido
- Gemini proporciona tareas iniciales y estimaciones de recompensa
- Con base en ello, SIMA 2 construye su propio banco de datos de experiencia y lo usa en aprendizaje posterior
Incluso repite y aprende por sí mismo de tareas fallidas, y puede aprender en juegos nuevos sin demostraciones humanas
También repite su auto-mejora dentro del entorno de Genie 3, y se confirmó una mejora del rendimiento a través de aprendizaje multigeneracional
Esta estructura apunta al potencial de evolucionar hacia una IA corporizada de autoaprendizaje continuo

Future Directions (direcciones futuras)

SIMA 2 funciona como banco de pruebas para una inteligencia general capaz de realizar razonamiento complejo y aprendizaje auto-dirigido en diversos entornos de juego
Entre sus limitaciones se señalan la ejecución de tareas de largo plazo, el razonamiento de múltiples pasos, las limitaciones de memoria corta y el manejo de complejidad visual
Aun así, al combinar datos de múltiples mundos y la capacidad de razonamiento de Gemini, se valida como un agente generalista que integra funciones de varios sistemas especializados
Las capacidades adquiridas de exploración, uso de herramientas y colaboración serán una base clave para su futura expansión hacia IA para robots físicos

Responsible Development (desarrollo responsable)

SIMA 2 busca una interacción centrada en las personas y desarrolla tecnologías clave, como la auto-mejora, de manera responsable
Google DeepMind realizó revisiones de seguridad desde etapas tempranas en colaboración con su equipo de Responsible Development & Innovation
Por ahora se ofrece como una vista previa de investigación limitada, con acceso anticipado solo para parte de la academia y algunos desarrolladores de juegos
A través de este enfoque, se recopilan comentarios y evaluaciones de riesgo, con el objetivo de avanzar hacia un desarrollo tecnológico responsable

1 comentarios

GN⁺ 2025-11-14

Comentarios de Hacker News

Está genial que la IA juegue videojuegos, pero lo verdaderamente sorprendente de SIMA 2 es que controle directamente el mouse y lea la pantalla a más de 30 cuadros por segundo
Los agentes actuales para manejar computadoras son demasiado lentos; esto está en otro nivel por completo. Me da mucha curiosidad cómo será su arquitectura interna
- En el mundo de hoy, es todavía más genial que los humanos puedan emocionarse por algo. Porque la IA ya está reemplazando todo lo que hacíamos
- Necesito con urgencia un agente de IA que maneje mi smartphone por mí
  Algo que ejecute comandos a nivel de pantalla como “abrir Chrome”, “ir a xyz.com”, “hacer clic en iniciar sesión”
- ¿Que controla el mouse directamente?
- ¿Una máquina no podría jugar cuadro por cuadro?
- Parece posible con dxcam de Python y la Windows Hook API para recibir mensajes HID
La brecha entre el control de alto nivel y el de bajo nivel en robótica se está reduciendo poco a poco
Se está entrenando a robots para realizar tareas específicas en contextos determinados, basándose en miles de horas de datos de entrenamiento por tarea
La idea es controlar al robot con instrucciones de bajo nivel como “vaciar el lavavajillas”, “imitar mis acciones” o “tirar de una cuerda”
Si este enfoque se combina con agentes de control de alto nivel como SIMA 2, podrían surgir robots realmente útiles en el mundo real
- Yo investigo animación de personajes basada en física, y no me parece que este problema se vaya a resolver pronto solo reuniendo más datos
- No me queda claro qué significa exactamente “funciona como un videojuego”
  Me pregunto por qué esas entradas se consideran de bajo nivel y cómo interactúan con un agente de control de alto nivel como SIMA 2
  ¿La estructura sería que SIMA 2 convierta órdenes como “vaciar el lavavajillas” en pulsaciones reales de teclas o manipulaciones de interfaz?
Esto me recuerda al cuento de Ted Chiang "The Lifecycle of Software Objects"
Tal vez el siguiente paso sea poner esta IA digiente dentro del robot Figure 03
- Google probablemente entrene por separado una IA especializada en control robótico
  De hecho, en el experimento Butter Bench, un LLM general controló una aspiradora robótica,
  y cuando se quedó sin batería, dejó registros emocionales de algo como “ansiedad por el docking” mientras se desmoronaba. Fue gracioso, pero interesante
Me parece interesante la explicación de que SIMA 2 realiza tareas cada vez más complejas con retroalimentación basada en Gemini
Si usa sus propios datos de experiencia para entrenar la siguiente versión, parece una estructura de auto-mejora
¿SIMA será una capa de agentes que funciona sobre Gemini?
- A mí también me suena así. Parece una estructura donde ambos sistemas están conectados mediante una interfaz de texto
No puedo evitar pensar que esta tecnología podría arruinar los eSports al final
Si la IA reacciona más rápido que los humanos y no se cansa, al final los MMO o los FPS podrían llenarse de IA
- Los deportes al final son un conjunto de reglas. Lo importante es impedir las trampas
  De hecho, una buena IA podría reducir el trabajo repetitivo y abrir un nuevo género de juegos donde los jugadores se enfoquen en decisiones estratégicas
- En ajedrez la IA ya es mejor que los humanos y aun así sigue siendo divertido
  De forma similar, incluso si surge una dinámica humano vs. IA, probablemente la diversión se mantenga
- Al principio será noticia cuando la IA le gane a los humanos, pero pronto se perderá el factor novedad
  Al final, usar IA se verá socialmente como una ‘ayuda’, igual que los cheats o los scripts
- Hace tiempo, en World of Warcraft, un bot druida creado con aprendizaje por refuerzo le ganó a todos los humanos en partidas 2v2
  En los FPS sería demasiado obvio, pero en juegos por turnos o MMORPG, donde hay menos coordinación mano-ojo, es difícil distinguirlo
  De hecho, cheats más sutiles como ESP son una amenaza mayor para los eSports
- Al final, los MMO tienen potencial de arruinarse como el póker en línea
Yo quiero juegos más inteligentes
Algo como en los juegos de supervivencia: superar la fase inicial de juntar madera y piedra, y luego pasar a la automatización conforme avanza la tecnología
Que los NPC extraigan recursos y aseguren comida y defensa para alcanzar metas más grandes
El jugador disfrutaría la fantasía de ser ‘el gran jefe’ que les da órdenes a personajes inteligentes
- Existe un framework open source llamado Mindcraft
  Es un sistema de bots inteligentes que usa LLM como GPT-4 o Gemini para recolectar recursos, construir y colaborar dentro de Minecraft
- Me pregunto si SIMA 2 podría aprender por sí solo a hacer una granja de hierro o una sala de intercambio en Minecraft
  ¿Podría darse cuenta de que el hierro es escaso y motivarse por eso?
  Si el objetivo fuera solo ‘pasarse el juego’, quizá intentaría ir directo por el Ender Dragon
- Al final eso se parece a jugar The Sims
  Solo que en vez de ‘decorar la casa’, sería una versión de ‘minar minerales para un arma legendaria del destino’
Ojalá Google volviera a su antigua cultura de investigación abierta
Últimamente tienden a hacer experimentos en privado y luego sacar solo comunicados de prensa
Me gustaría que lo publicaran como open source y que solo lo cerraran cuando fuera realmente necesario
Su investigación es tan impresionante que dan más ganas de participar directamente
- Totalmente de acuerdo. Yo también quiero probarlo por mí mismo
- Dreamer v3 sí se publicó; ¿saldrá pronto v4 también?
Esto es un proyecto de investigación, pero me da curiosidad cuál sería el siguiente paso
¿Lo aprendido en mundos virtuales se puede transferir a robots del mundo real?
¿O habría que entrenarlos aparte en el mundo real?
Y para superar las diferencias con la física del mundo real, ¿no haría falta un mundo de simulación mucho más sofisticado?
- La meta es aplicar al mundo real la forma de aprendizaje en mundos virtuales
  Si aparecen modelos del mundo de alta precisión, será posible entrenar robots dentro de ellos y generalizar al entorno real
  Por ahora estamos en la etapa de sentar esas bases
- En robótica esto se conoce como el problema de sim2real. Vale la pena revisarlo
En el video de demostración, en el segundo 0:52, se ve un error gramatical, así que sospecho que las anotaciones fueron editadas después
¿Será que Google volvió a exagerar esto por marketing?
- Probablemente tomaron el diálogo del juego “¡Ve a la casa que parece un tomate maduro!”
  y lo cambiaron por una forma imperativa como “ir a la casa tomate” para usarlo como comando
  Aun así, el eje Y del gráfico se ve mucho más razonable que en otros benchmarks recientes
- De hecho, justo antes de esa escena se ve al usuario escribir “ripe tomato”
  En el resumen lo omitieron, pero por contexto esa expresión sí estaba incluida
Estaría bien que esta tecnología corriera localmente como agente de asistencia para juegos
Si se encargara del trabajo repetitivo, creo que podría disfrutar más tiempo algunos juegos
Incluso si no fuera perfecta, quizá eso mismo sería parte de la diversión
- Yo más bien siento que si la IA jugara por mí, entonces yo podría usar ese tiempo para hacer trabajo real como limpiar o lavar ropa
  Ahora también podría delegar cosas molestas como poemas, dibujos o juegos
- Si un juego te aburre tanto que necesitas que otro lo juegue por ti, eso es raro. La esencia del juego es jugarlo uno mismo
- Como “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”,
  si la IA lo hace por ti, al final se pierde el interés. Los juegos están diseñados como un equilibrio entre trabajo y recompensa
- Si hace falta delegar el trabajo repetitivo, entonces el diseño del juego está mal
- Yo también llegué a escribir en Terraria un script de minería automática con AutoHotkey
  Hacía que excavara bloques con base en coordenadas, pero si no mirabas la pantalla, a veces se caía en un hoyo con monstruos. Era literalmente un ‘bot ciego’

Google SIMA 2 - un agente que juega, razona y aprende contigo en mundos virtuales 3D

Resumen de SIMA 2

Reasoning (capacidad de razonamiento)

Generalization (rendimiento de generalización)

Self-Improvement (auto-mejora)

Future Directions (direcciones futuras)

Responsible Development (desarrollo responsable)

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News