16 puntos por GN⁺ 2025-04-06 | 2 comentarios | Compartir por WhatsApp
  • Scout, Maverick y Behemoth, los 3 modelos que conforman el primer modelo multimodal nativo basado en open weights
    • Todos los modelos son multimodales y entienden imagen + texto

Llama 4 Scout

  • 17B de parámetros activos + 16 expertos
  • Capacidad de manejar contexto ultralargo con soporte para 10M tokens
  • Modelo ligero y eficiente que puede ejecutarse en una sola GPU (H100)
  • Rendimiento superior a Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
  • Excelente desempeño en alineación de imágenes, resumen de múltiples documentos, análisis de grandes bases de código y más

Llama 4 Maverick

  • 17B de parámetros activos + 128 expertos + 400B de parámetros totales
  • Mejor rendimiento que GPT-4o y Gemini 2.0 Flash
  • Sobresale en todas las áreas, incluyendo razonamiento, programación y comprensión de imágenes
  • Registró una puntuación ELO de 1417 (según LMArena)
  • Estructura de costos eficiente en relación con su alto rendimiento

Llama 4 Behemoth (preview)

  • 288B de parámetros activos + 16 expertos + cerca de 2T de parámetros totales
  • Aún está en entrenamiento, pero muestra un rendimiento superior a GPT-4.5, Claude 3.7 y Gemini 2.0 Pro
  • Se utiliza como modelo maestro en el preentrenamiento de Maverick

# Características técnicas

Arquitectura Mixture of Experts (MoE)

  • En lugar de usar todos los parámetros, activa solo algunos expertos para maximizar la eficiencia computacional
  • Implementa una estructura de entrenamiento con inferencia rápida, menor costo y alta calidad

Multimodal nativo & Early Fusion

  • Integra texto y visión desde etapas tempranas para el entrenamiento conjunto
  • Puede recibir hasta 48 imágenes como entrada; las pruebas se realizaron con éxito con hasta 8 imágenes

Manejo de contexto ultralargo (10M tokens)

  • El modelo Scout explora la posibilidad de un “contexto infinito” con la estructura iRoPE (interleaved Rotary Position Embedding)
  • Excelente capacidad de generalización de longitud para texto y código

Técnicas de entrenamiento MetaP & FP8

  • Nueva técnica de ajuste de hiperparámetros para entrenamiento rápido y eficiente
  • Alta utilización de FLOPs con precisión FP8 (Behemoth: 390 TFLOPs/GPU)

# Estrategia de posprocesamiento y entrenamiento RL

  • Pipeline de posprocesamiento en tres etapas: SFT → RL online → DPO
  • Se elimina la data fácil y se entrena con foco en prompts de dificultad media a alta
  • Introducción de una estrategia de RL online continuo para maximizar la mejora de rendimiento y la eficiencia del aprendizaje

# Seguridad y consideraciones éticas

Estrategia de protección en múltiples capas

  • Filtrado y moderación de datos en las etapas previas y posteriores al entrenamiento
  • Llama Guard: verificación de seguridad de entrada/salida
  • Prompt Guard: detección de jailbreaks y ataques de inyección
  • CyberSecEval: herramienta para evaluar riesgos de seguridad en IA generativa

Automatización de la detección cuantitativa de riesgos

  • Introducción de GOAT (Generative Offensive Agent Testing)
    • Simulación de escenarios de atacantes intermedios
    • Detección temprana de riesgos mediante pruebas automatizadas de múltiples turnos

Esfuerzos para reducir sesgos

  • Llama 4 mejora considerablemente los sesgos frente a Llama 3
    • Tasa de rechazo de respuestas: 7% → menos de 2%
    • Desequilibrio en respuestas < 1%
    • Mantiene respuestas con equilibrio político al nivel de Grok

# Guía de uso de los modelos Llama 4

  • Scout y Maverick están disponibles para descarga y uso
  • Integración de Llama 4 en el servicio Meta AI:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# Próximos pasos

  • LlamaCon 2025, donde se presentarán más detalles técnicos y la visión futura, está programado para el 29 de abril

2 comentarios

 
jjw951215 2025-04-07

Parece adecuado para APPLE SILICON con RAM holgada o para la línea de NPU. Para usarlo en un servidor puramente de GPU, el hecho de que incluso el modelo de especificaciones mínimas requiera una H100 con cuantización int4 es...

 
GN⁺ 2025-04-06
Opiniones de Hacker News
  • Resumen de los modelos Llama 4:

    • Llama 4 Scout y Llama 4 Maverick usan un diseño Mixture-of-Experts (MoE) con 17B de parámetros activos cada uno
    • Tienen capacidades multimodales con soporte para entradas de texto e imagen
    • Entre sus logros principales están una longitud de contexto líder en la industria, sólido desempeño en código/razonamiento y mejor soporte multilingüe
    • El corte de conocimiento es de agosto de 2024
  • Llama 4 Scout:

    • 17B de parámetros activos, 16 expertos, 109B en total
    • Cabe en una sola GPU H100 (cuantización INT4)
    • Ventana de contexto de 10M tokens
    • Muestra mejor desempeño en tareas multimodales que versiones anteriores de Llama y es más amigable con los recursos
    • Usa la arquitectura iRoPE para una atención eficiente en contextos largos
    • Se probó con hasta 8 imágenes por prompt
  • Llama 4 Maverick:

    • 17B de parámetros activos, 128 expertos, 400B en total
    • Ventana de contexto de 1M tokens
    • Corre en un host H100 DGX en lugar de una sola GPU, o puede distribuirse para mayor eficiencia
    • Supera a GPT-4o y Gemini 2.0 Flash en pruebas de código, razonamiento y multilingües, manteniendo un costo competitivo
    • Mantiene una sólida comprensión de imágenes y capacidad de razonamiento fundamentado
  • Llama 4 Behemoth (avance previo):

    • 288B de parámetros activos, 16 expertos, casi 2T en total
    • Sigue en entrenamiento y aún no se ha lanzado
    • Supera a GPT-4.5, Claude Sonnet 3.7 y Gemini 2.0 Pro en benchmarks STEM (por ejemplo, MATH-500, GPQA Diamond)
    • Funciona como modelo "maestro" para Scout y Maverick mediante codestilación
  • Otros puntos:

    • Arquitectura MoE: solo se activan 17B de parámetros por token, lo que reduce el costo de inferencia
    • Multimodalidad nativa: codificador unificado de texto + visión preentrenado con grandes volúmenes de datos sin etiquetar
  • Hilo resumido por Llama 4 Maverick:

  • El resultado obtenido con Scout fue una salida completamente inútil:

  • También ejecutaron Scout directamente a través de Groq, pero había un límite de salida de 2048:

  • Los resúmenes de otros modelos se apegaron más al prompt del sistema. Por ejemplo, fue mucho mejor comparado con Gemini 2.5 Pro:

  • El modelo Scout pequeño es muy atractivo para Apple Silicon. Aunque tiene tamaño de 109B, está dividido entre 16 expertos. El procesamiento real ocurre en 17B. En una MacBook Pro M4 Max, al hacerle preguntas a un modelo local 7B (qwen 2.5 7B instruct) con contexto de 2k, se obtuvieron ~60 tokens por segundo. Así que podría alcanzar 30 tokens por segundo. El tiempo hasta el primer token todavía puede ser lento

  • El modelo tiene una ventana de contexto de 10M tokens. No está claro qué tan bien podrá seguir el contexto a esa escala, pero el simple hecho de no estar limitado a ~32k ya es excelente

  • Todos los LLM principales tienen problemas de sesgo. Especialmente en temas políticos y sociales, tienden a inclinarse hacia la izquierda. Eso podría deberse al tipo de datos de entrenamiento disponibles en internet

  • El prompt propuesto evita que esté tan restringido como los lanzamientos de OpenAI:

    • Entiende la intención del usuario y no intenta ser excesivamente servicial
    • No rechaza prompts políticos
    • Llama 4 tiene conocimiento hasta agosto de 2024 y habla varios idiomas
  • Se lanzó apenas una hora después de que hubo otra discusión sobre Meta:

    • Independientemente de lo que uno crea sobre los LLM, no es buena idea confiar en lo que dice LeCun
    • El laboratorio de IA que dirige LeCun tiene varios problemas
  • Disponible en Groq:

    • Llama 4 Scout está corriendo a más de 460 tokens por segundo y Llama 4 Maverick se lanza hoy
    • Llama 4 Scout: $0.11 / M tokens de entrada y $0.34 / M tokens de salida
    • Llama 4 Maverick: $0.50 / M tokens de entrada y $0.77 / M tokens de salida
  • Este es un momento muy emocionante. Se siente parecido a la época en que los frameworks de JavaScript estaban explotando. En ese entonces era como "¿tengo que aprender otro framework más?", pero ahora la innovación vuelve a avanzar rápido y esta vez se siente como un viaje emocionante del que podemos formar parte