- SIMA 2, que integra el modelo Gemini, evoluciona más allá de simplemente seguir instrucciones en lenguaje natural para convertirse en un agente de IA para entornos virtuales 3D que entiende los objetivos del usuario, razona por sí mismo e interactúa
- A diferencia de la versión anterior, que ejecutaba más de 600 acciones basadas en lenguaje, incorpora capacidades de razonamiento, diálogo y auto-mejora, lo que le permite actuar orientado a objetivos incluso en juegos nuevos
- Muestra un alto nivel de generalización incluso en juegos no usados durante el entrenamiento, como MineDojo y ASKA, logrando tasas de desempeño en tareas cercanas a las de jugadores humanos
- Implementa una estructura de bucle de auto-mejora con la que puede acumular experiencia por cuenta propia y mejorar su rendimiento sin datos humanos
- Estos avances sientan las bases para aplicaciones en inteligencia corporizada general (embodied intelligence) y robótica
Resumen de SIMA 2
- SIMA 2 es un agente de IA basado en Gemini desarrollado por Google DeepMind, diseñado para jugar y aprender junto a humanos en entornos virtuales 3D
- La versión inicial de SIMA se centraba en traducir comandos de lenguaje a acciones, pero SIMA 2 añade funciones de inferencia de objetivos, diálogo y auto-mejora
- Este modelo muestra avances hacia la AGI (inteligencia artificial general) y tiene implicaciones importantes para la robótica y la investigación en IA corporizada
Reasoning (capacidad de razonamiento)
- SIMA 1 podía ejecutar más de 600 instrucciones como “gira a la izquierda” o “sube la escalera”, pero lo hacía observando la pantalla y manipulando el entorno sin acceso a la mecánica interna del juego
- SIMA 2 incorpora el modelo Gemini, por lo que va más allá de ejecutar órdenes simples y puede entender objetivos y razonar lógicamente
- Los datos de entrenamiento se construyeron mezclando videos de demostraciones humanas y etiquetas generadas por Gemini, y el agente puede explicar su plan de acción y sus pasos
- En las pruebas, los usuarios percibieron la interacción con SIMA 2 como una colaboración y no como una serie de órdenes, y se realizaron entrenamientos y evaluaciones en diversos entornos de juego
- Gracias al motor de razonamiento de Gemini, se materializa una IA corporizada que integra percepción, comprensión y acción en entornos 3D complejos
Generalization (rendimiento de generalización)
- La integración de Gemini mejora la capacidad de entender y ejecutar instrucciones complejas y sutiles
- Incluso en juegos no usados en entrenamiento (por ejemplo, ASKA y MineDojo), muestra altas tasas de éxito y alcanza un desempeño en tareas cercano al nivel humano
- También adquiere capacidad de transferencia conceptual, como trasladar el concepto de “mining” a “harvesting” en otros juegos
- Puede entender instrucciones multilingües y con emojis, además de procesar entradas multimodales (como dibujos)
- Al combinarse con Genie 3, demuestra gran adaptabilidad al mantener orientación espacial y conducta dirigida a objetivos incluso en mundos virtuales recién generados
Self-Improvement (auto-mejora)
- SIMA 2 mejora su rendimiento sin intervención humana mediante un bucle de aprendizaje auto-dirigido
- Gemini proporciona tareas iniciales y estimaciones de recompensa
- Con base en ello, SIMA 2 construye su propio banco de datos de experiencia y lo usa en aprendizaje posterior
- Incluso repite y aprende por sí mismo de tareas fallidas, y puede aprender en juegos nuevos sin demostraciones humanas
- También repite su auto-mejora dentro del entorno de Genie 3, y se confirmó una mejora del rendimiento a través de aprendizaje multigeneracional
- Esta estructura apunta al potencial de evolucionar hacia una IA corporizada de autoaprendizaje continuo
Future Directions (direcciones futuras)
- SIMA 2 funciona como banco de pruebas para una inteligencia general capaz de realizar razonamiento complejo y aprendizaje auto-dirigido en diversos entornos de juego
- Entre sus limitaciones se señalan la ejecución de tareas de largo plazo, el razonamiento de múltiples pasos, las limitaciones de memoria corta y el manejo de complejidad visual
- Aun así, al combinar datos de múltiples mundos y la capacidad de razonamiento de Gemini, se valida como un agente generalista que integra funciones de varios sistemas especializados
- Las capacidades adquiridas de exploración, uso de herramientas y colaboración serán una base clave para su futura expansión hacia IA para robots físicos
Responsible Development (desarrollo responsable)
- SIMA 2 busca una interacción centrada en las personas y desarrolla tecnologías clave, como la auto-mejora, de manera responsable
- Google DeepMind realizó revisiones de seguridad desde etapas tempranas en colaboración con su equipo de Responsible Development & Innovation
- Por ahora se ofrece como una vista previa de investigación limitada, con acceso anticipado solo para parte de la academia y algunos desarrolladores de juegos
- A través de este enfoque, se recopilan comentarios y evaluaciones de riesgo, con el objetivo de avanzar hacia un desarrollo tecnológico responsable
1 comentarios
Comentarios de Hacker News
Está genial que la IA juegue videojuegos, pero lo verdaderamente sorprendente de SIMA 2 es que controle directamente el mouse y lea la pantalla a más de 30 cuadros por segundo
Los agentes actuales para manejar computadoras son demasiado lentos; esto está en otro nivel por completo. Me da mucha curiosidad cómo será su arquitectura interna
Algo que ejecute comandos a nivel de pantalla como “abrir Chrome”, “ir a xyz.com”, “hacer clic en iniciar sesión”
La brecha entre el control de alto nivel y el de bajo nivel en robótica se está reduciendo poco a poco
Se está entrenando a robots para realizar tareas específicas en contextos determinados, basándose en miles de horas de datos de entrenamiento por tarea
La idea es controlar al robot con instrucciones de bajo nivel como “vaciar el lavavajillas”, “imitar mis acciones” o “tirar de una cuerda”
Si este enfoque se combina con agentes de control de alto nivel como SIMA 2, podrían surgir robots realmente útiles en el mundo real
Me pregunto por qué esas entradas se consideran de bajo nivel y cómo interactúan con un agente de control de alto nivel como SIMA 2
¿La estructura sería que SIMA 2 convierta órdenes como “vaciar el lavavajillas” en pulsaciones reales de teclas o manipulaciones de interfaz?
Esto me recuerda al cuento de Ted Chiang "The Lifecycle of Software Objects"
Tal vez el siguiente paso sea poner esta IA digiente dentro del robot Figure 03
De hecho, en el experimento Butter Bench, un LLM general controló una aspiradora robótica,
y cuando se quedó sin batería, dejó registros emocionales de algo como “ansiedad por el docking” mientras se desmoronaba. Fue gracioso, pero interesante
Me parece interesante la explicación de que SIMA 2 realiza tareas cada vez más complejas con retroalimentación basada en Gemini
Si usa sus propios datos de experiencia para entrenar la siguiente versión, parece una estructura de auto-mejora
¿SIMA será una capa de agentes que funciona sobre Gemini?
No puedo evitar pensar que esta tecnología podría arruinar los eSports al final
Si la IA reacciona más rápido que los humanos y no se cansa, al final los MMO o los FPS podrían llenarse de IA
De hecho, una buena IA podría reducir el trabajo repetitivo y abrir un nuevo género de juegos donde los jugadores se enfoquen en decisiones estratégicas
De forma similar, incluso si surge una dinámica humano vs. IA, probablemente la diversión se mantenga
Al final, usar IA se verá socialmente como una ‘ayuda’, igual que los cheats o los scripts
En los FPS sería demasiado obvio, pero en juegos por turnos o MMORPG, donde hay menos coordinación mano-ojo, es difícil distinguirlo
De hecho, cheats más sutiles como ESP son una amenaza mayor para los eSports
Yo quiero juegos más inteligentes
Algo como en los juegos de supervivencia: superar la fase inicial de juntar madera y piedra, y luego pasar a la automatización conforme avanza la tecnología
Que los NPC extraigan recursos y aseguren comida y defensa para alcanzar metas más grandes
El jugador disfrutaría la fantasía de ser ‘el gran jefe’ que les da órdenes a personajes inteligentes
Es un sistema de bots inteligentes que usa LLM como GPT-4 o Gemini para recolectar recursos, construir y colaborar dentro de Minecraft
¿Podría darse cuenta de que el hierro es escaso y motivarse por eso?
Si el objetivo fuera solo ‘pasarse el juego’, quizá intentaría ir directo por el Ender Dragon
Solo que en vez de ‘decorar la casa’, sería una versión de ‘minar minerales para un arma legendaria del destino’
Ojalá Google volviera a su antigua cultura de investigación abierta
Últimamente tienden a hacer experimentos en privado y luego sacar solo comunicados de prensa
Me gustaría que lo publicaran como open source y que solo lo cerraran cuando fuera realmente necesario
Su investigación es tan impresionante que dan más ganas de participar directamente
Esto es un proyecto de investigación, pero me da curiosidad cuál sería el siguiente paso
¿Lo aprendido en mundos virtuales se puede transferir a robots del mundo real?
¿O habría que entrenarlos aparte en el mundo real?
Y para superar las diferencias con la física del mundo real, ¿no haría falta un mundo de simulación mucho más sofisticado?
Si aparecen modelos del mundo de alta precisión, será posible entrenar robots dentro de ellos y generalizar al entorno real
Por ahora estamos en la etapa de sentar esas bases
En el video de demostración, en el segundo 0:52, se ve un error gramatical, así que sospecho que las anotaciones fueron editadas después
¿Será que Google volvió a exagerar esto por marketing?
y lo cambiaron por una forma imperativa como “ir a la casa tomate” para usarlo como comando
Aun así, el eje Y del gráfico se ve mucho más razonable que en otros benchmarks recientes
En el resumen lo omitieron, pero por contexto esa expresión sí estaba incluida
Estaría bien que esta tecnología corriera localmente como agente de asistencia para juegos
Si se encargara del trabajo repetitivo, creo que podría disfrutar más tiempo algunos juegos
Incluso si no fuera perfecta, quizá eso mismo sería parte de la diversión
Ahora también podría delegar cosas molestas como poemas, dibujos o juegos
si la IA lo hace por ti, al final se pierde el interés. Los juegos están diseñados como un equilibrio entre trabajo y recompensa
Hacía que excavara bloques con base en coordenadas, pero si no mirabas la pantalla, a veces se caía en un hoyo con monstruos. Era literalmente un ‘bot ciego’