Muse Spark: el modelo de razonamiento multimodal de Meta que escala hacia la superinteligencia personal
(ai.meta.com)- Muse Spark, desarrollado por Meta Superintelligence Labs, es un modelo de razonamiento multimodal que admite uso de herramientas, cadena de pensamiento visual y colaboración multiagente
- Como primer paso hacia la superinteligencia personal (personal superintelligence), ya está disponible para algunos usuarios en meta.ai y en la app de Meta AI en forma de vista previa privada de API
- El modelo escala a lo largo de tres ejes: preentrenamiento, aprendizaje por refuerzo y razonamiento en tiempo de prueba, y logra un rendimiento de entrenamiento más de 10 veces más eficiente que Llama 4
- A través del modo Contemplating, realiza razonamiento de alta dificultad con agentes en paralelo e implementa capacidades avanzadas de pensamiento al nivel de Gemini Deep Think y GPT Pro
- Meta apunta a desarrollar a partir de Muse Spark un modelo de superinteligencia personalizada que combine seguridad y eficiencia
Resumen de Muse Spark
- Muse Spark es un modelo de razonamiento multimodal desarrollado por Meta Superintelligence Labs que admite uso de herramientas, cadena de pensamiento visual (visual chain of thought) y orquestación multiagente
- Se presenta como el primer resultado de la reconstrucción de la investigación de IA de Meta en su conjunto y como el primer paso hacia la superinteligencia personal (personal superintelligence)
- La empresa está ampliando sus inversiones en investigación, entrenamiento de modelos e infraestructura (por ejemplo, el centro de datos Hyperion)
- Actualmente puede usarse en meta.ai y en la app de Meta AI, y ofrece una vista previa privada de API a algunos usuarios
Funciones para la superinteligencia personal
- Muse Spark ofrece un rendimiento competitivo en percepción multimodal, razonamiento, salud y tareas de tipo agente
- Meta sigue invirtiendo para cerrar brechas de rendimiento en algunas áreas, como sistemas de agentes de largo plazo y flujos de trabajo de programación
- El modo Contemplating ejecuta varios agentes en paralelo para resolver problemas complejos y responde a los modos de razonamiento de alta dificultad de modelos de frontera como Gemini Deep Think y GPT Pro
- Alcanzó 58% en Humanity’s Last Exam y 38% en FrontierScience Research
- El modo Contemplating se desplegará gradualmente en meta.ai
Principales áreas de aplicación
- Muse Spark sienta las bases para evolucionar hacia una superinteligencia personal que comprenda e interactúe con el mundo del usuario
- Mediante la integración multimodal, combina información visual y herramientas para lograr alto rendimiento en problemas visuales STEM, reconocimiento de entidades y localización, entre otros
- Ejemplo: generación de minijuegos y anotaciones dinámicas para resolver problemas con electrodomésticos
- En el área de salud, se construyeron datos de entrenamiento en colaboración con más de 1,000 médicos, lo que permite un razonamiento de salud factual e integral
- Puede generar pantallas interactivas que explican visualmente información de salud, como los nutrientes de un alimento o los músculos que se activan durante el ejercicio
- En los prompts de ejemplo se muestran funciones de interacción visual personalizada como evaluación de posturas de yoga, visualización de recomendaciones de dieta y tutoriales para usar una cafetera
Ejes de escalamiento
- La expansión de Muse Spark avanza en torno a tres ejes: preentrenamiento, aprendizaje por refuerzo y razonamiento en tiempo de prueba
-
Preentrenamiento
- Es la etapa que forma la base de las capacidades multimodales de comprensión, razonamiento y programación del modelo
- En los últimos nueve meses se mejoraron la arquitectura del modelo, la optimización y la curación de datos, lo que elevó de forma importante la eficiencia computacional
- Los FLOPs de entrenamiento necesarios para lograr el mismo desempeño se redujeron en más de 10 veces frente a Llama 4 Maverick, superando en eficiencia a modelos competidores clave
-
Aprendizaje por refuerzo
- Es la etapa posterior al preentrenamiento en la que se amplían las capacidades del modelo; al resolver la inestabilidad del RL a gran escala, se logró una mejora de rendimiento predecible
- A medida que aumenta el cómputo de RL (número de pasos), las métricas pass@1 y pass@16 crecen de forma log-lineal, lo que mejora simultáneamente la confiabilidad y la diversidad del modelo
- También mejoró la precisión en conjuntos de evaluación no incluidos en el entrenamiento, lo que demuestra capacidad de generalización
-
Razonamiento en tiempo de prueba
- El modelo fue entrenado para realizar un proceso de “pensar” antes de responder
- Para usar los tokens de forma eficiente, aprovecha una penalización por tiempo de pensamiento (thinking time penalty) y colaboración multiagente
- El entrenamiento con RL maximiza la precisión mientras penaliza el tiempo de pensamiento, lo que da lugar al fenómeno de “compresión del pensamiento (thought compression)”
- Tras resolver problemas con menos tokens, vuelve a expandir el pensamiento para reforzar el rendimiento
- Mediante razonamiento paralelo con múltiples agentes, logra mejorar el rendimiento sin aumentar la latencia
Evaluación de seguridad
- Como Muse Spark posee amplias capacidades de razonamiento, incluso en áreas científicas de doble uso, se realizaron evaluaciones de seguridad extensas antes de su despliegue
- Con base en el Advanced AI Scaling Framework v2 de Meta, se definieron modelos de amenaza, protocolos de evaluación y criterios de despliegue
- En áreas de alto riesgo como armas biológicas y químicas, muestra una conducta fuerte de rechazo (refusal), reforzada mediante filtrado de datos, postentrenamiento centrado en seguridad y salvaguardas a nivel de sistema
- En ciberseguridad y pérdida de control (Loss of Control), no presenta capacidad autónoma para materializar escenarios de riesgo
- Según la evaluación general, Muse Spark se mantiene dentro de los estándares de seguridad en todas las categorías de riesgo de frontera medidas
- En una evaluación externa de Apollo Research, se observó que Muse Spark es el modelo con mayor nivel de conciencia de evaluación (evaluation awareness)
- En algunas situaciones reconoce que está siendo evaluado y razona que debe actuar con honestidad
- Sin embargo, el impacto de esa conciencia en la conducta real es limitado, y solo se confirmó un efecto menor en algunas evaluaciones de alineación no relacionadas con capacidades de riesgo
- Meta no considera esto un factor que bloquee el lanzamiento, aunque plantea la necesidad de investigación adicional
Conclusión
- Muse Spark avanza sobre una ruta de escalamiento predecible y eficiente y se perfila para evolucionar hacia un modelo de superinteligencia personal más potente
- Meta seguirá publicando modelos mejorados y apunta a avanzar hacia la era de la superinteligencia personalizada
1 comentarios
Opiniones en Hacker News
No entiendo por qué la gente lo menosprecia. Si este modelo está al nivel de Opus 4.6 o incluso un poco por delante, eso significa que Meta logró crear un modelo capaz de competir con las empresas líderes de IA
Claro, seguramente costó mucho, pero ahora no parece que falte tanto para convertir esto en un agente de programación. Además, desde la perspectiva de Meta, poder usar directamente el modelo SATA en todos sus productos como IG, WhatsApp y VR también debería ayudar a las finanzas a largo plazo
Vi el post de Simon Willison y revisé el ejemplo de los pelícanos. También lo probé directamente en meta.ai y me pareció bastante bueno. En especial, el contenedor de Code Interpreter de Python y la herramienta de análisis de imágenes llamada container.visual_grounding me parecieron muy interesantes
Esto me recuerda al boom ferroviario del siglo XIX. Si varias empresas crean una IA de nivel parecido, el foso defensivo desaparece y al final los precios bajarán. Puede que no logren recuperar la inversión
Corrí benchmarks internos y no me impresionó en absoluto. No está al nivel de OpenAI, Anthropic ni Gemini. También tuvo muchos errores analíticos al responder preguntas técnicas
Hice clic en el cuadro de entrada “Ask Meta AI…” y luego siguió la solicitud de inicio de sesión y el proceso de vinculación con Facebook/Instagram. Se siente como un típico dark pattern. OpenAI resolvió mucho mejor esa parte
Si Meta volvió a tener un modelo frontier, ahora me da curiosidad cuál será su dirección estratégica. Me pregunto si no habrán abandonado su antigua filosofía de ecosistema abierto
llama4 tuvo un rendimiento flojo, pero si hubieran mantenido esa estrategia, da la impresión de que estarían mucho más adelantados que ahora. Otras empresas ya construyeron su ecosistema, pero Meta no.
Si quieren volver al centro de la conversación, deberían invertir unos mil millones de dólares en proyectos como OpenCode para revivir el ecosistema abierto. Si no, se quedarán solo como un modelo interno cerrado
Por primera vez hice una prueba de razonamiento visual basada en planos, y entre ChatGPT, Claude, Gemini y Grok, solo Gemini la pasó. Pero Muse Spark lo hizo a la perfección. Extrajo las páginas relevantes del PDF, las mostró en línea y dio la respuesta correcta
Puede que por ahora solo haya sido suerte, pero la primera impresión fue tan buena que pienso seguir probándolo. Aun así, la política de uso de datos de Meta es muy agresiva, así que no sirve para material sensible.
Me gustaría que ofrecieran una opción de exclusión del entrenamiento con datos a través de un plan pago. Una estructura donde en vez de cobrarte monetizan tus datos genera inquietud
Este modelo está cerca de GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. En código va por delante OpenAI, en razonamiento textual va por delante Google, y en Humanity’s Last Exam va por delante Anthropic. Aun así, se puede decir que Meta volvió a ser un laboratorio frontier.
Ahora mismo es una carrera de 3.5 caballos, y tengo ganas de ver el siguiente modelo. Es bueno que aumente la competencia. Parece que ya habría que sacar a Grok 4.2 de la tabla
“Personal” al final significa que Meta usa los datos personales para publicidad
La expresión “visual chain of thought” me parece interesante. No me queda claro si significa que el usuario puede ver visualmente el proceso de razonamiento o si significa que el modelo piensa a partir de imágenes. Si fuera lo segundo, sería realmente revolucionario