Magma - modelo base para agentes de IA multimodales

(microsoft.github.io)

3 puntos por GN⁺ 2025-02-21 | 1 comentarios | Compartir por WhatsApp

Magma es el primer modelo base capaz de interpretar entradas multimodales y conectarlas dentro de un entorno, por lo que puede manejar interacciones complejas en mundos virtuales y reales
No solo entiende imágenes y video, sino que también genera planificación visual y ejecución orientadas a objetivos para realizar diversas tareas de agentes de IA
Logra rendimiento de vanguardia en varias tareas multimodales, como navegación de UI, manipulación robótica y comprensión de imágenes y video (especialmente comprensión espacial y razonamiento)
Método de preentrenamiento escalable: al entrenarse con datos de video sin etiquetar junto con datos de agentes existentes, obtiene un sólido desempeño de generalización y resulta adecuado para aplicaciones reales
El código, el modelo y la demo de navegación de UI se publicarán en MSR Forum (2025.02.25).

Objetivo de Magma

Inteligencia lingüística y espacio-temporal:
- Capacidad para comprender con precisión imágenes y video y, con base en ello, transformar objetivos en planes de acción y ejecución
Operación en entornos digitales y físicos:
- Puede realizar tanto navegación web (manipulación de UI) como manipulación robótica
- Una IA capaz de moverse libremente entre entornos digitales y físicos como un humano
Para ello, se entrenó Magma desarrollando un nuevo conjunto de datos de aprendizaje que aprovecha datos de video sin etiquetar y datos de agentes existentes, así como un marco de preentrenamiento que aprende de forma integrada texto, imagen y acción

Método de preentrenamiento de Magma

Magma se entrena mediante dos enfoques clave.
1️⃣ Uso de datos de entrenamiento heterogéneos a gran escala
- Además de datos multimodales existentes, datos de navegación de UI y datos de manipulación robótica, también recopila y aprende grandes volúmenes de datos de video sin etiquetar.
- Elimina el movimiento de cámara y extrae datos de acciones reales para que el modelo pueda aprender predicción y planificación de acciones a largo plazo.
2️⃣ Definición de objetivos de preentrenamiento integrados
- El texto y la acción son inherentemente diferentes, y conectarlos eficazmente es el desafío
- Introduce nuevas técnicas de aprendizaje como Set-of-Mark y Trace-of-Mark para construir una sólida estructura de alineación entre texto, imagen y acción
  - Set-of-Mark (SoM): permite un anclaje efectivo de acciones en imágenes, y predice marcas numéricas para botones clicables en capturas de UI, así como para brazos robóticos en manipulación robótica y videos humanos.
  - Trace-of-Mark (ToM): proporciona supervisión sobre manipulación robótica y acciones humanas, permitiendo que el modelo entienda la dinámica temporal del video y prediga estados futuros antes de actuar.

Cómo usar el modelo

Uso directo (se puede usar sin fine-tuning)

Magma fue diseñado para fines de investigación y puede usarse de las siguientes maneras.

Generación de texto basada en imagen/video: puede generar descripciones y respuestas con base en la imagen y el texto de entrada.
Planificación visual (Visual Planning): puede predecir trayectorias futuras de acción para lograr objetivos, como mover objetos.
Capacidades de agente:
- Navegación de UI: por ejemplo, predecir acciones de UI como "hacer clic en el botón de búsqueda"
- Manipulación robótica: predicción de manipulación robótica de 7 grados de libertad (7 DoF)

Tareas downstream (con fine-tuning)

Magma puede entrenarse adicionalmente para adaptarse a tareas específicas.

Image captioning y QA: entrenado con el enfoque existente de modelos multimodales de lenguaje a gran escala (LLM) para reforzar la comprensión espacial y la capacidad de razonamiento.
Video captioning y QA: también puede reforzar la comprensión temporal y la capacidad de razonamiento sobre datos de video.
Navegación de UI: puede optimizarse para tareas de navegación de UI web y móvil para lograr alto rendimiento.
Manipulación robótica: mediante entrenamiento adicional para control robótico, muestra un desempeño superior al de modelos existentes de manipulación robótica como OpenVLA.

Sesgo (Bias), riesgos (Risks) y limitaciones (Limitations)

Este modelo no fue diseñado para todas las tareas downstream.
Antes de aplicarlo a un caso de uso específico, se debe evaluar y ajustar su precisión, seguridad y equidad.
Especialmente en escenarios de alto riesgo, se deben cumplir las leyes y regulaciones aplicables.

1 comentarios

GN⁺ 2025-02-21

Comentarios en Hacker News

Gracias por el interés en el proyecto Magma. Vamos a publicar gradualmente el código de inferencia, entrenamiento, evaluación y preprocesamiento de datos, y debería estar completo para el próximo martes
La velocidad de avance de los agentes multimodales es impresionante. OpenVLA se lanzó en junio de 2024 y en ese momento era el estado del arte. Ocho meses después, la tasa de éxito en tareas como "Pick Place Hotdog Sausage" aumentó de 2/10 a 6/10
Los robots industriales son eficientes porque no imitan el comportamiento humano. Por eso, cuesta entender qué sentido tiene la propuesta de enseñarles comportamiento humano a los robots. Los robots domésticos necesitarán herramientas eficientes. Harán falta máquinas nuevas, distintas de las lavadoras, hornos y lavavajillas que usamos actualmente
La capacidad multimodal, en especial la predicción de la siguiente acción, es impresionante. Estoy pendiente de si esta función se liberará como open source en GitHub. Me da curiosidad por qué se llama Magma
Es un modelo realmente interesante. Tengo ganas de probarlo. Pero lo que yo quiero es un modelo de agente multimodal que pueda generar embeddings para modelos de control humanoide como Meta motivo. Meta motivo es un modelo de juguete entrenado con el esqueleto SMPL, y como no tiene dedos, su funcionalidad es limitada. Se podrían haber usado modelos más avanzados como SMPL-X, pero la falta de datos abiertos de movimiento que incluyan movimientos finos de los dedos hace difícil entrenar un modelo de manipulación robusto
La mayoría de los datasets de movimiento existentes provienen de configuraciones académicas de captura de movimiento y no se enfocan en tareas de manipulación. Creo que los avances en 3D HPE a partir de video 2D van a cerrar esa brecha. Si se pudiera acceder a miles de horas de video, sería posible construir un gran dataset de movimiento que cubra una amplia variedad de interacciones reales
Eso haría posibles los dos componentes necesarios para entrenar un modelo de agente que genere embeddings legibles para modelos de control que modelen con precisión los movimientos de manos y articulaciones de los dedos. Considerando el rápido avance del SoTA en 3D HPE desde video 2D y la enorme cantidad de video en línea, espero que en un futuro cercano veamos robots humanoides con buenas capacidades de manipulación
En el video donde limpian una taza, la persona parece fingir que la lava, como si no quisiera mojarse la mano. Me pregunto cuándo el modelo podrá captar esas sutilezas
Me pregunto por qué un modelo multimodal no genera imágenes de forma flexible. Parece que se las pasa a otro modelo para que genere imágenes. No parece entender bien qué hay en las imágenes que produce, aunque sí puede editarlas
Los agentes multimodales tienen fama de fallar en tareas de largo plazo. Me pregunto cómo se desempeña Magma en eso
Me pregunto si entre los modelos multimodales hay alguno entrenado para razonamiento
Me pregunto si existe investigación sobre entrenamiento incremental. Eso podría usarse en robots como alternativa a RAG