1 puntos por GN⁺ 19 일 전 | 1 comentarios | Compartir por WhatsApp
  • Muse Spark, desarrollado por Meta Superintelligence Labs, es un modelo de razonamiento multimodal que admite uso de herramientas, cadena de pensamiento visual y colaboración multiagente
  • Como primer paso hacia la superinteligencia personal (personal superintelligence), ya está disponible para algunos usuarios en meta.ai y en la app de Meta AI en forma de vista previa privada de API
  • El modelo escala a lo largo de tres ejes: preentrenamiento, aprendizaje por refuerzo y razonamiento en tiempo de prueba, y logra un rendimiento de entrenamiento más de 10 veces más eficiente que Llama 4
  • A través del modo Contemplating, realiza razonamiento de alta dificultad con agentes en paralelo e implementa capacidades avanzadas de pensamiento al nivel de Gemini Deep Think y GPT Pro
  • Meta apunta a desarrollar a partir de Muse Spark un modelo de superinteligencia personalizada que combine seguridad y eficiencia

Resumen de Muse Spark

  • Muse Spark es un modelo de razonamiento multimodal desarrollado por Meta Superintelligence Labs que admite uso de herramientas, cadena de pensamiento visual (visual chain of thought) y orquestación multiagente
  • Se presenta como el primer resultado de la reconstrucción de la investigación de IA de Meta en su conjunto y como el primer paso hacia la superinteligencia personal (personal superintelligence)
  • La empresa está ampliando sus inversiones en investigación, entrenamiento de modelos e infraestructura (por ejemplo, el centro de datos Hyperion)
  • Actualmente puede usarse en meta.ai y en la app de Meta AI, y ofrece una vista previa privada de API a algunos usuarios

Funciones para la superinteligencia personal

  • Muse Spark ofrece un rendimiento competitivo en percepción multimodal, razonamiento, salud y tareas de tipo agente
  • Meta sigue invirtiendo para cerrar brechas de rendimiento en algunas áreas, como sistemas de agentes de largo plazo y flujos de trabajo de programación
  • El modo Contemplating ejecuta varios agentes en paralelo para resolver problemas complejos y responde a los modos de razonamiento de alta dificultad de modelos de frontera como Gemini Deep Think y GPT Pro
    • Alcanzó 58% en Humanity’s Last Exam y 38% en FrontierScience Research
  • El modo Contemplating se desplegará gradualmente en meta.ai

Principales áreas de aplicación

  • Muse Spark sienta las bases para evolucionar hacia una superinteligencia personal que comprenda e interactúe con el mundo del usuario
  • Mediante la integración multimodal, combina información visual y herramientas para lograr alto rendimiento en problemas visuales STEM, reconocimiento de entidades y localización, entre otros
    • Ejemplo: generación de minijuegos y anotaciones dinámicas para resolver problemas con electrodomésticos
  • En el área de salud, se construyeron datos de entrenamiento en colaboración con más de 1,000 médicos, lo que permite un razonamiento de salud factual e integral
    • Puede generar pantallas interactivas que explican visualmente información de salud, como los nutrientes de un alimento o los músculos que se activan durante el ejercicio
  • En los prompts de ejemplo se muestran funciones de interacción visual personalizada como evaluación de posturas de yoga, visualización de recomendaciones de dieta y tutoriales para usar una cafetera

Ejes de escalamiento

  • La expansión de Muse Spark avanza en torno a tres ejes: preentrenamiento, aprendizaje por refuerzo y razonamiento en tiempo de prueba
  • Preentrenamiento

    • Es la etapa que forma la base de las capacidades multimodales de comprensión, razonamiento y programación del modelo
    • En los últimos nueve meses se mejoraron la arquitectura del modelo, la optimización y la curación de datos, lo que elevó de forma importante la eficiencia computacional
    • Los FLOPs de entrenamiento necesarios para lograr el mismo desempeño se redujeron en más de 10 veces frente a Llama 4 Maverick, superando en eficiencia a modelos competidores clave
  • Aprendizaje por refuerzo

    • Es la etapa posterior al preentrenamiento en la que se amplían las capacidades del modelo; al resolver la inestabilidad del RL a gran escala, se logró una mejora de rendimiento predecible
    • A medida que aumenta el cómputo de RL (número de pasos), las métricas pass@1 y pass@16 crecen de forma log-lineal, lo que mejora simultáneamente la confiabilidad y la diversidad del modelo
    • También mejoró la precisión en conjuntos de evaluación no incluidos en el entrenamiento, lo que demuestra capacidad de generalización
  • Razonamiento en tiempo de prueba

    • El modelo fue entrenado para realizar un proceso de “pensar” antes de responder
    • Para usar los tokens de forma eficiente, aprovecha una penalización por tiempo de pensamiento (thinking time penalty) y colaboración multiagente
    • El entrenamiento con RL maximiza la precisión mientras penaliza el tiempo de pensamiento, lo que da lugar al fenómeno de “compresión del pensamiento (thought compression)”
      • Tras resolver problemas con menos tokens, vuelve a expandir el pensamiento para reforzar el rendimiento
    • Mediante razonamiento paralelo con múltiples agentes, logra mejorar el rendimiento sin aumentar la latencia

Evaluación de seguridad

  • Como Muse Spark posee amplias capacidades de razonamiento, incluso en áreas científicas de doble uso, se realizaron evaluaciones de seguridad extensas antes de su despliegue
  • Con base en el Advanced AI Scaling Framework v2 de Meta, se definieron modelos de amenaza, protocolos de evaluación y criterios de despliegue
  • En áreas de alto riesgo como armas biológicas y químicas, muestra una conducta fuerte de rechazo (refusal), reforzada mediante filtrado de datos, postentrenamiento centrado en seguridad y salvaguardas a nivel de sistema
  • En ciberseguridad y pérdida de control (Loss of Control), no presenta capacidad autónoma para materializar escenarios de riesgo
  • Según la evaluación general, Muse Spark se mantiene dentro de los estándares de seguridad en todas las categorías de riesgo de frontera medidas
  • En una evaluación externa de Apollo Research, se observó que Muse Spark es el modelo con mayor nivel de conciencia de evaluación (evaluation awareness)
    • En algunas situaciones reconoce que está siendo evaluado y razona que debe actuar con honestidad
    • Sin embargo, el impacto de esa conciencia en la conducta real es limitado, y solo se confirmó un efecto menor en algunas evaluaciones de alineación no relacionadas con capacidades de riesgo
    • Meta no considera esto un factor que bloquee el lanzamiento, aunque plantea la necesidad de investigación adicional

Conclusión

  • Muse Spark avanza sobre una ruta de escalamiento predecible y eficiente y se perfila para evolucionar hacia un modelo de superinteligencia personal más potente
  • Meta seguirá publicando modelos mejorados y apunta a avanzar hacia la era de la superinteligencia personalizada

1 comentarios

 
GN⁺ 19 일 전
Opiniones en Hacker News
  • No entiendo por qué la gente lo menosprecia. Si este modelo está al nivel de Opus 4.6 o incluso un poco por delante, eso significa que Meta logró crear un modelo capaz de competir con las empresas líderes de IA
    Claro, seguramente costó mucho, pero ahora no parece que falte tanto para convertir esto en un agente de programación. Además, desde la perspectiva de Meta, poder usar directamente el modelo SATA en todos sus productos como IG, WhatsApp y VR también debería ayudar a las finanzas a largo plazo

    • También se entiende la reacción escéptica. Antes ya estuvo el incidente de la exageración de benchmarks de llama 4. Este modelo también existía desde hace unos meses, pero parece que en ese momento lo retrasaron porque estaba más bien al nivel de Gemini 2.5 Pro
    • El mercado de agentes de programación ya está siendo disputado por Anthropic y OpenAI. La oportunidad que Meta debería apuntar a capturar está más bien en el área de IA para consumidores. OpenAI pronto llegará al punto en que tendrá que decidir si dedicar sus recursos a los usuarios gratuitos o a la empresa
    • Viendo solo los benchmarks, parece un buen modelo, pero en la utilidad práctica para programar no alcanza a Opus. La utilidad en tareas cotidianas de programación no se mide por completo con benchmarks. Aun así, es bueno que aumente la competencia
    • Decir que “supera a Opus 4.6” no es cierto
    • También hay muchas personas que sienten una aversión básica hacia Meta. Sea justificada o no, muchas veces simplemente no les gusta porque es Meta
  • Vi el post de Simon Willison y revisé el ejemplo de los pelícanos. También lo probé directamente en meta.ai y me pareció bastante bueno. En especial, el contenedor de Code Interpreter de Python y la herramienta de análisis de imágenes llamada container.visual_grounding me parecieron muy interesantes

    • Alexandr Wang mencionó que esto podría liberarse como código abierto más adelante, así que tengo expectativas
    • Parece que las herramientas disponibles cambian según la región. Yo no tengo la función visual_grounding y solo pude acceder a las funciones de este enlace
    • Me gustaría preguntarle a Simon: de todos los modelos que ha visto hasta ahora, ¿cuál ha sido el que mejor hizo al “pelícano andando en bicicleta”?
    • Es una lástima que en meta.ai solo se pueda usar iniciando sesión. Ojalá Openrouter también lo soporte pronto. Aun así, me emociona lo suficiente como para querer probarlo cuanto antes
  • Esto me recuerda al boom ferroviario del siglo XIX. Si varias empresas crean una IA de nivel parecido, el foso defensivo desaparece y al final los precios bajarán. Puede que no logren recuperar la inversión

    • Por eso creo que Anthropic mantiene altos los precios de su API y limita las suscripciones a sus propios productos. Es una estrategia orientada a que los usuarios no técnicos se queden más tiempo
    • De todos modos, todos ellos están estrechamente conectados con el gobierno, así que recibirán más apoyo del que dictaría la lógica del mercado. Incluso si fracasan, eso podría dar como resultado modelos de pesos abiertos. Aunque probablemente también queden obsoletos en pocos meses
    • Por otro lado, hoy la IA es tan masiva como el smartphone y tan disruptiva como la máquina de vapor. Las empresas de IA están creciendo hasta convertirse en las mayores compañías de software del mundo, y en el mercado hay una oportunidad de billones de dólares
    • El verdadero foso está en la capacidad de cómputo y el acceso a la energía. Por eso Elon Musk está construyendo fábricas de semiconductores directamente. Puede haber muchos modelos en HuggingFace, pero casi nadie puede ejecutarlos de verdad
  • Corrí benchmarks internos y no me impresionó en absoluto. No está al nivel de OpenAI, Anthropic ni Gemini. También tuvo muchos errores analíticos al responder preguntas técnicas

    • Después de probar más, vi demasiados errores de matemáticas básicas. Al validarlo de forma cruzada con Gemini, aparecieron errores en casi todos los problemas sencillos
    • Aun así, en lo multimodal sí está bastante bien. Tiene el nivel suficiente para que lo usen 3 mil millones de personas, pero en el campo científico sigue rezagado
    • De hecho, ni siquiera creo que Gemini esté al nivel de esa conversación
  • Hice clic en el cuadro de entrada “Ask Meta AI…” y luego siguió la solicitud de inicio de sesión y el proceso de vinculación con Facebook/Instagram. Se siente como un típico dark pattern. OpenAI resolvió mucho mejor esa parte

  • Si Meta volvió a tener un modelo frontier, ahora me da curiosidad cuál será su dirección estratégica. Me pregunto si no habrán abandonado su antigua filosofía de ecosistema abierto
    llama4 tuvo un rendimiento flojo, pero si hubieran mantenido esa estrategia, da la impresión de que estarían mucho más adelantados que ahora. Otras empresas ya construyeron su ecosistema, pero Meta no.
    Si quieren volver al centro de la conversación, deberían invertir unos mil millones de dólares en proyectos como OpenCode para revivir el ecosistema abierto. Si no, se quedarán solo como un modelo interno cerrado

    • Quizá ni siquiera haga falta un nuevo harness abierto. Anthropic ya le dio eso a la comunidad gratis
  • Por primera vez hice una prueba de razonamiento visual basada en planos, y entre ChatGPT, Claude, Gemini y Grok, solo Gemini la pasó. Pero Muse Spark lo hizo a la perfección. Extrajo las páginas relevantes del PDF, las mostró en línea y dio la respuesta correcta
    Puede que por ahora solo haya sido suerte, pero la primera impresión fue tan buena que pienso seguir probándolo. Aun así, la política de uso de datos de Meta es muy agresiva, así que no sirve para material sensible.
    Me gustaría que ofrecieran una opción de exclusión del entrenamiento con datos a través de un plan pago. Una estructura donde en vez de cobrarte monetizan tus datos genera inquietud

  • Este modelo está cerca de GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. En código va por delante OpenAI, en razonamiento textual va por delante Google, y en Humanity’s Last Exam va por delante Anthropic. Aun así, se puede decir que Meta volvió a ser un laboratorio frontier.
    Ahora mismo es una carrera de 3.5 caballos, y tengo ganas de ver el siguiente modelo. Es bueno que aumente la competencia. Parece que ya habría que sacar a Grok 4.2 de la tabla

    • Usé Grok Code como principal durante un tiempo y fue bastante excelente. Al final, los LLM dependen del contexto de uso y del dominio. Sobre todo en preguntas de salud, como otros modelos tienden a esquivar la respuesta, sigo usando Grok
    • Aun así, este enfoque de Meta parece carecer de capacidad de razonamiento y resolución de problemas a largo plazo. Tiene una puntuación de HLE más baja que Mythos de Anthropic. Pero en términos generales sigue siendo un avance positivo
  • “Personal” al final significa que Meta usa los datos personales para publicidad

    • Y al hacerlo, da la impresión de que incluso absorbe en el modelo la esencia mental del usuario
    • Si al final yo solo soy un objetivo publicitario, entonces no me molesta que me envíen todos los anuncios que quieran
  • La expresión “visual chain of thought” me parece interesante. No me queda claro si significa que el usuario puede ver visualmente el proceso de razonamiento o si significa que el modelo piensa a partir de imágenes. Si fuera lo segundo, sería realmente revolucionario

    • Pero la mayoría de los chain of thought que he visto hasta ahora parecen un razonamiento falso que solo se ve convincente por fuera. En realidad, por dentro se procesa de otra manera
    • De hecho, este tipo de pasos intermedios visuales ya aparecen en Gemini. Durante tareas visuales incluso genera diagramas intermedios, y en investigaciones de 2024 ya se habían propuesto enfoques como el turtle diagram