1 puntos por GN⁺ 2025-11-14 | 1 comentarios | Compartir por WhatsApp
  • SIMA 2, que integra el modelo Gemini, evoluciona más allá de simplemente seguir instrucciones en lenguaje natural para convertirse en un agente de IA para entornos virtuales 3D que entiende los objetivos del usuario, razona por sí mismo e interactúa
  • A diferencia de la versión anterior, que ejecutaba más de 600 acciones basadas en lenguaje, incorpora capacidades de razonamiento, diálogo y auto-mejora, lo que le permite actuar orientado a objetivos incluso en juegos nuevos
  • Muestra un alto nivel de generalización incluso en juegos no usados durante el entrenamiento, como MineDojo y ASKA, logrando tasas de desempeño en tareas cercanas a las de jugadores humanos
  • Implementa una estructura de bucle de auto-mejora con la que puede acumular experiencia por cuenta propia y mejorar su rendimiento sin datos humanos
  • Estos avances sientan las bases para aplicaciones en inteligencia corporizada general (embodied intelligence) y robótica

Resumen de SIMA 2

  • SIMA 2 es un agente de IA basado en Gemini desarrollado por Google DeepMind, diseñado para jugar y aprender junto a humanos en entornos virtuales 3D
  • La versión inicial de SIMA se centraba en traducir comandos de lenguaje a acciones, pero SIMA 2 añade funciones de inferencia de objetivos, diálogo y auto-mejora
  • Este modelo muestra avances hacia la AGI (inteligencia artificial general) y tiene implicaciones importantes para la robótica y la investigación en IA corporizada

Reasoning (capacidad de razonamiento)

  • SIMA 1 podía ejecutar más de 600 instrucciones como “gira a la izquierda” o “sube la escalera”, pero lo hacía observando la pantalla y manipulando el entorno sin acceso a la mecánica interna del juego
  • SIMA 2 incorpora el modelo Gemini, por lo que va más allá de ejecutar órdenes simples y puede entender objetivos y razonar lógicamente
  • Los datos de entrenamiento se construyeron mezclando videos de demostraciones humanas y etiquetas generadas por Gemini, y el agente puede explicar su plan de acción y sus pasos
  • En las pruebas, los usuarios percibieron la interacción con SIMA 2 como una colaboración y no como una serie de órdenes, y se realizaron entrenamientos y evaluaciones en diversos entornos de juego
  • Gracias al motor de razonamiento de Gemini, se materializa una IA corporizada que integra percepción, comprensión y acción en entornos 3D complejos

Generalization (rendimiento de generalización)

  • La integración de Gemini mejora la capacidad de entender y ejecutar instrucciones complejas y sutiles
  • Incluso en juegos no usados en entrenamiento (por ejemplo, ASKA y MineDojo), muestra altas tasas de éxito y alcanza un desempeño en tareas cercano al nivel humano
  • También adquiere capacidad de transferencia conceptual, como trasladar el concepto de “mining” a “harvesting” en otros juegos
  • Puede entender instrucciones multilingües y con emojis, además de procesar entradas multimodales (como dibujos)
  • Al combinarse con Genie 3, demuestra gran adaptabilidad al mantener orientación espacial y conducta dirigida a objetivos incluso en mundos virtuales recién generados

Self-Improvement (auto-mejora)

  • SIMA 2 mejora su rendimiento sin intervención humana mediante un bucle de aprendizaje auto-dirigido
    • Gemini proporciona tareas iniciales y estimaciones de recompensa
    • Con base en ello, SIMA 2 construye su propio banco de datos de experiencia y lo usa en aprendizaje posterior
  • Incluso repite y aprende por sí mismo de tareas fallidas, y puede aprender en juegos nuevos sin demostraciones humanas
  • También repite su auto-mejora dentro del entorno de Genie 3, y se confirmó una mejora del rendimiento a través de aprendizaje multigeneracional
  • Esta estructura apunta al potencial de evolucionar hacia una IA corporizada de autoaprendizaje continuo

Future Directions (direcciones futuras)

  • SIMA 2 funciona como banco de pruebas para una inteligencia general capaz de realizar razonamiento complejo y aprendizaje auto-dirigido en diversos entornos de juego
  • Entre sus limitaciones se señalan la ejecución de tareas de largo plazo, el razonamiento de múltiples pasos, las limitaciones de memoria corta y el manejo de complejidad visual
  • Aun así, al combinar datos de múltiples mundos y la capacidad de razonamiento de Gemini, se valida como un agente generalista que integra funciones de varios sistemas especializados
  • Las capacidades adquiridas de exploración, uso de herramientas y colaboración serán una base clave para su futura expansión hacia IA para robots físicos

Responsible Development (desarrollo responsable)

  • SIMA 2 busca una interacción centrada en las personas y desarrolla tecnologías clave, como la auto-mejora, de manera responsable
  • Google DeepMind realizó revisiones de seguridad desde etapas tempranas en colaboración con su equipo de Responsible Development & Innovation
  • Por ahora se ofrece como una vista previa de investigación limitada, con acceso anticipado solo para parte de la academia y algunos desarrolladores de juegos
  • A través de este enfoque, se recopilan comentarios y evaluaciones de riesgo, con el objetivo de avanzar hacia un desarrollo tecnológico responsable

1 comentarios

 
GN⁺ 2025-11-14
Comentarios de Hacker News
  • Está genial que la IA juegue videojuegos, pero lo verdaderamente sorprendente de SIMA 2 es que controle directamente el mouse y lea la pantalla a más de 30 cuadros por segundo
    Los agentes actuales para manejar computadoras son demasiado lentos; esto está en otro nivel por completo. Me da mucha curiosidad cómo será su arquitectura interna

    • En el mundo de hoy, es todavía más genial que los humanos puedan emocionarse por algo. Porque la IA ya está reemplazando todo lo que hacíamos
    • Necesito con urgencia un agente de IA que maneje mi smartphone por mí
      Algo que ejecute comandos a nivel de pantalla como “abrir Chrome”, “ir a xyz.com”, “hacer clic en iniciar sesión”
    • ¿Que controla el mouse directamente?
    • ¿Una máquina no podría jugar cuadro por cuadro?
    • Parece posible con dxcam de Python y la Windows Hook API para recibir mensajes HID
  • La brecha entre el control de alto nivel y el de bajo nivel en robótica se está reduciendo poco a poco
    Se está entrenando a robots para realizar tareas específicas en contextos determinados, basándose en miles de horas de datos de entrenamiento por tarea
    La idea es controlar al robot con instrucciones de bajo nivel como “vaciar el lavavajillas”, “imitar mis acciones” o “tirar de una cuerda”
    Si este enfoque se combina con agentes de control de alto nivel como SIMA 2, podrían surgir robots realmente útiles en el mundo real

    • Yo investigo animación de personajes basada en física, y no me parece que este problema se vaya a resolver pronto solo reuniendo más datos
    • No me queda claro qué significa exactamente “funciona como un videojuego”
      Me pregunto por qué esas entradas se consideran de bajo nivel y cómo interactúan con un agente de control de alto nivel como SIMA 2
      ¿La estructura sería que SIMA 2 convierta órdenes como “vaciar el lavavajillas” en pulsaciones reales de teclas o manipulaciones de interfaz?
  • Esto me recuerda al cuento de Ted Chiang "The Lifecycle of Software Objects"
    Tal vez el siguiente paso sea poner esta IA digiente dentro del robot Figure 03

    • Google probablemente entrene por separado una IA especializada en control robótico
      De hecho, en el experimento Butter Bench, un LLM general controló una aspiradora robótica,
      y cuando se quedó sin batería, dejó registros emocionales de algo como “ansiedad por el docking” mientras se desmoronaba. Fue gracioso, pero interesante
  • Me parece interesante la explicación de que SIMA 2 realiza tareas cada vez más complejas con retroalimentación basada en Gemini
    Si usa sus propios datos de experiencia para entrenar la siguiente versión, parece una estructura de auto-mejora
    ¿SIMA será una capa de agentes que funciona sobre Gemini?

    • A mí también me suena así. Parece una estructura donde ambos sistemas están conectados mediante una interfaz de texto
  • No puedo evitar pensar que esta tecnología podría arruinar los eSports al final
    Si la IA reacciona más rápido que los humanos y no se cansa, al final los MMO o los FPS podrían llenarse de IA

    • Los deportes al final son un conjunto de reglas. Lo importante es impedir las trampas
      De hecho, una buena IA podría reducir el trabajo repetitivo y abrir un nuevo género de juegos donde los jugadores se enfoquen en decisiones estratégicas
    • En ajedrez la IA ya es mejor que los humanos y aun así sigue siendo divertido
      De forma similar, incluso si surge una dinámica humano vs. IA, probablemente la diversión se mantenga
    • Al principio será noticia cuando la IA le gane a los humanos, pero pronto se perderá el factor novedad
      Al final, usar IA se verá socialmente como una ‘ayuda’, igual que los cheats o los scripts
    • Hace tiempo, en World of Warcraft, un bot druida creado con aprendizaje por refuerzo le ganó a todos los humanos en partidas 2v2
      En los FPS sería demasiado obvio, pero en juegos por turnos o MMORPG, donde hay menos coordinación mano-ojo, es difícil distinguirlo
      De hecho, cheats más sutiles como ESP son una amenaza mayor para los eSports
    • Al final, los MMO tienen potencial de arruinarse como el póker en línea
  • Yo quiero juegos más inteligentes
    Algo como en los juegos de supervivencia: superar la fase inicial de juntar madera y piedra, y luego pasar a la automatización conforme avanza la tecnología
    Que los NPC extraigan recursos y aseguren comida y defensa para alcanzar metas más grandes
    El jugador disfrutaría la fantasía de ser ‘el gran jefe’ que les da órdenes a personajes inteligentes

    • Existe un framework open source llamado Mindcraft
      Es un sistema de bots inteligentes que usa LLM como GPT-4 o Gemini para recolectar recursos, construir y colaborar dentro de Minecraft
    • Me pregunto si SIMA 2 podría aprender por sí solo a hacer una granja de hierro o una sala de intercambio en Minecraft
      ¿Podría darse cuenta de que el hierro es escaso y motivarse por eso?
      Si el objetivo fuera solo ‘pasarse el juego’, quizá intentaría ir directo por el Ender Dragon
    • Al final eso se parece a jugar The Sims
      Solo que en vez de ‘decorar la casa’, sería una versión de ‘minar minerales para un arma legendaria del destino’
  • Ojalá Google volviera a su antigua cultura de investigación abierta
    Últimamente tienden a hacer experimentos en privado y luego sacar solo comunicados de prensa
    Me gustaría que lo publicaran como open source y que solo lo cerraran cuando fuera realmente necesario
    Su investigación es tan impresionante que dan más ganas de participar directamente

    • Totalmente de acuerdo. Yo también quiero probarlo por mí mismo
    • Dreamer v3 sí se publicó; ¿saldrá pronto v4 también?
  • Esto es un proyecto de investigación, pero me da curiosidad cuál sería el siguiente paso
    ¿Lo aprendido en mundos virtuales se puede transferir a robots del mundo real?
    ¿O habría que entrenarlos aparte en el mundo real?
    Y para superar las diferencias con la física del mundo real, ¿no haría falta un mundo de simulación mucho más sofisticado?

    • La meta es aplicar al mundo real la forma de aprendizaje en mundos virtuales
      Si aparecen modelos del mundo de alta precisión, será posible entrenar robots dentro de ellos y generalizar al entorno real
      Por ahora estamos en la etapa de sentar esas bases
    • En robótica esto se conoce como el problema de sim2real. Vale la pena revisarlo
  • En el video de demostración, en el segundo 0:52, se ve un error gramatical, así que sospecho que las anotaciones fueron editadas después
    ¿Será que Google volvió a exagerar esto por marketing?

    • Probablemente tomaron el diálogo del juego “¡Ve a la casa que parece un tomate maduro!”
      y lo cambiaron por una forma imperativa como “ir a la casa tomate” para usarlo como comando
      Aun así, el eje Y del gráfico se ve mucho más razonable que en otros benchmarks recientes
    • De hecho, justo antes de esa escena se ve al usuario escribir “ripe tomato”
      En el resumen lo omitieron, pero por contexto esa expresión sí estaba incluida
  • Estaría bien que esta tecnología corriera localmente como agente de asistencia para juegos
    Si se encargara del trabajo repetitivo, creo que podría disfrutar más tiempo algunos juegos
    Incluso si no fuera perfecta, quizá eso mismo sería parte de la diversión

    • Yo más bien siento que si la IA jugara por mí, entonces yo podría usar ese tiempo para hacer trabajo real como limpiar o lavar ropa
      Ahora también podría delegar cosas molestas como poemas, dibujos o juegos
    • Si un juego te aburre tanto que necesitas que otro lo juegue por ti, eso es raro. La esencia del juego es jugarlo uno mismo
    • Como “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”,
      si la IA lo hace por ti, al final se pierde el interés. Los juegos están diseñados como un equilibrio entre trabajo y recompensa
    • Si hace falta delegar el trabajo repetitivo, entonces el diseño del juego está mal
    • Yo también llegué a escribir en Terraria un script de minería automática con AutoHotkey
      Hacía que excavara bloques con base en coordenadas, pero si no mirabas la pantalla, a veces se caía en un hoyo con monstruos. Era literalmente un ‘bot ciego’