Magma - modelo base para agentes de IA multimodales
(microsoft.github.io)- Magma es el primer modelo base capaz de interpretar entradas multimodales y conectarlas dentro de un entorno, por lo que puede manejar interacciones complejas en mundos virtuales y reales
- No solo entiende imágenes y video, sino que también genera planificación visual y ejecución orientadas a objetivos para realizar diversas tareas de agentes de IA
- Logra rendimiento de vanguardia en varias tareas multimodales, como navegación de UI, manipulación robótica y comprensión de imágenes y video (especialmente comprensión espacial y razonamiento)
- Método de preentrenamiento escalable: al entrenarse con datos de video sin etiquetar junto con datos de agentes existentes, obtiene un sólido desempeño de generalización y resulta adecuado para aplicaciones reales
- El código, el modelo y la demo de navegación de UI se publicarán en MSR Forum (2025.02.25).
Objetivo de Magma
- Inteligencia lingüística y espacio-temporal:
- Capacidad para comprender con precisión imágenes y video y, con base en ello, transformar objetivos en planes de acción y ejecución
- Operación en entornos digitales y físicos:
- Puede realizar tanto navegación web (manipulación de UI) como manipulación robótica
- Una IA capaz de moverse libremente entre entornos digitales y físicos como un humano
- Para ello, se entrenó Magma desarrollando un nuevo conjunto de datos de aprendizaje que aprovecha datos de video sin etiquetar y datos de agentes existentes, así como un marco de preentrenamiento que aprende de forma integrada texto, imagen y acción
Método de preentrenamiento de Magma
- Magma se entrena mediante dos enfoques clave.
- 1️⃣ Uso de datos de entrenamiento heterogéneos a gran escala
- Además de datos multimodales existentes, datos de navegación de UI y datos de manipulación robótica, también recopila y aprende grandes volúmenes de datos de video sin etiquetar.
- Elimina el movimiento de cámara y extrae datos de acciones reales para que el modelo pueda aprender predicción y planificación de acciones a largo plazo.
- 2️⃣ Definición de objetivos de preentrenamiento integrados
- El texto y la acción son inherentemente diferentes, y conectarlos eficazmente es el desafío
- Introduce nuevas técnicas de aprendizaje como Set-of-Mark y Trace-of-Mark para construir una sólida estructura de alineación entre texto, imagen y acción
- Set-of-Mark (SoM): permite un anclaje efectivo de acciones en imágenes, y predice marcas numéricas para botones clicables en capturas de UI, así como para brazos robóticos en manipulación robótica y videos humanos.
- Trace-of-Mark (ToM): proporciona supervisión sobre manipulación robótica y acciones humanas, permitiendo que el modelo entienda la dinámica temporal del video y prediga estados futuros antes de actuar.
Cómo usar el modelo
Uso directo (se puede usar sin fine-tuning)
Magma fue diseñado para fines de investigación y puede usarse de las siguientes maneras.
- Generación de texto basada en imagen/video: puede generar descripciones y respuestas con base en la imagen y el texto de entrada.
- Planificación visual (Visual Planning): puede predecir trayectorias futuras de acción para lograr objetivos, como mover objetos.
- Capacidades de agente:
- Navegación de UI: por ejemplo, predecir acciones de UI como "hacer clic en el botón de búsqueda"
- Manipulación robótica: predicción de manipulación robótica de 7 grados de libertad (7 DoF)
Tareas downstream (con fine-tuning)
Magma puede entrenarse adicionalmente para adaptarse a tareas específicas.
- Image captioning y QA: entrenado con el enfoque existente de modelos multimodales de lenguaje a gran escala (LLM) para reforzar la comprensión espacial y la capacidad de razonamiento.
- Video captioning y QA: también puede reforzar la comprensión temporal y la capacidad de razonamiento sobre datos de video.
- Navegación de UI: puede optimizarse para tareas de navegación de UI web y móvil para lograr alto rendimiento.
- Manipulación robótica: mediante entrenamiento adicional para control robótico, muestra un desempeño superior al de modelos existentes de manipulación robótica como OpenVLA.
Sesgo (Bias), riesgos (Risks) y limitaciones (Limitations)
- Este modelo no fue diseñado para todas las tareas downstream.
- Antes de aplicarlo a un caso de uso específico, se debe evaluar y ajustar su precisión, seguridad y equidad.
- Especialmente en escenarios de alto riesgo, se deben cumplir las leyes y regulaciones aplicables.
1 comentarios
Comentarios en Hacker News