Meta lanza Llama 4

(ai.meta.com)

16 puntos por GN⁺ 2025-04-06 | 2 comentarios | Compartir por WhatsApp

Scout, Maverick y Behemoth, los 3 modelos que conforman el primer modelo multimodal nativo basado en open weights
- Todos los modelos son multimodales y entienden imagen + texto

Llama 4 Scout

17B de parámetros activos + 16 expertos
Capacidad de manejar contexto ultralargo con soporte para 10M tokens
Modelo ligero y eficiente que puede ejecutarse en una sola GPU (H100)
Rendimiento superior a Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
Excelente desempeño en alineación de imágenes, resumen de múltiples documentos, análisis de grandes bases de código y más

Llama 4 Maverick

17B de parámetros activos + 128 expertos + 400B de parámetros totales
Mejor rendimiento que GPT-4o y Gemini 2.0 Flash
Sobresale en todas las áreas, incluyendo razonamiento, programación y comprensión de imágenes
Registró una puntuación ELO de 1417 (según LMArena)
Estructura de costos eficiente en relación con su alto rendimiento

Llama 4 Behemoth (preview)

288B de parámetros activos + 16 expertos + cerca de 2T de parámetros totales
Aún está en entrenamiento, pero muestra un rendimiento superior a GPT-4.5, Claude 3.7 y Gemini 2.0 Pro
Se utiliza como modelo maestro en el preentrenamiento de Maverick

Scout y Maverick pueden descargarse desde hoy en llama.com y Hugging Face

# Características técnicas

Arquitectura Mixture of Experts (MoE)

En lugar de usar todos los parámetros, activa solo algunos expertos para maximizar la eficiencia computacional
Implementa una estructura de entrenamiento con inferencia rápida, menor costo y alta calidad

Multimodal nativo & Early Fusion

Integra texto y visión desde etapas tempranas para el entrenamiento conjunto
Puede recibir hasta 48 imágenes como entrada; las pruebas se realizaron con éxito con hasta 8 imágenes

Manejo de contexto ultralargo (10M tokens)

El modelo Scout explora la posibilidad de un “contexto infinito” con la estructura iRoPE (interleaved Rotary Position Embedding)
Excelente capacidad de generalización de longitud para texto y código

Técnicas de entrenamiento MetaP & FP8

Nueva técnica de ajuste de hiperparámetros para entrenamiento rápido y eficiente
Alta utilización de FLOPs con precisión FP8 (Behemoth: 390 TFLOPs/GPU)

# Estrategia de posprocesamiento y entrenamiento RL

Pipeline de posprocesamiento en tres etapas: SFT → RL online → DPO
Se elimina la data fácil y se entrena con foco en prompts de dificultad media a alta
Introducción de una estrategia de RL online continuo para maximizar la mejora de rendimiento y la eficiencia del aprendizaje

# Seguridad y consideraciones éticas

Estrategia de protección en múltiples capas

Filtrado y moderación de datos en las etapas previas y posteriores al entrenamiento
Llama Guard: verificación de seguridad de entrada/salida
Prompt Guard: detección de jailbreaks y ataques de inyección
CyberSecEval: herramienta para evaluar riesgos de seguridad en IA generativa

Automatización de la detección cuantitativa de riesgos

Introducción de GOAT (Generative Offensive Agent Testing)
- Simulación de escenarios de atacantes intermedios
- Detección temprana de riesgos mediante pruebas automatizadas de múltiples turnos

Esfuerzos para reducir sesgos

Llama 4 mejora considerablemente los sesgos frente a Llama 3
- Tasa de rechazo de respuestas: 7% → menos de 2%
- Desequilibrio en respuestas < 1%
- Mantiene respuestas con equilibrio político al nivel de Grok

# Guía de uso de los modelos Llama 4

Scout y Maverick están disponibles para descarga y uso
- llama.com
- Hugging Face
Integración de Llama 4 en el servicio Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai

# Próximos pasos

LlamaCon 2025, donde se presentarán más detalles técnicos y la visión futura, está programado para el 29 de abril
- Registrarse en LlamaCon

2 comentarios

jjw951215 2025-04-07

Parece adecuado para APPLE SILICON con RAM holgada o para la línea de NPU. Para usarlo en un servidor puramente de GPU, el hecho de que incluso el modelo de especificaciones mínimas requiera una H100 con cuantización int4 es...

GN⁺ 2025-04-06

Opiniones de Hacker News

Resumen de los modelos Llama 4:
- Llama 4 Scout y Llama 4 Maverick usan un diseño Mixture-of-Experts (MoE) con 17B de parámetros activos cada uno
- Tienen capacidades multimodales con soporte para entradas de texto e imagen
- Entre sus logros principales están una longitud de contexto líder en la industria, sólido desempeño en código/razonamiento y mejor soporte multilingüe
- El corte de conocimiento es de agosto de 2024
Llama 4 Scout:
- 17B de parámetros activos, 16 expertos, 109B en total
- Cabe en una sola GPU H100 (cuantización INT4)
- Ventana de contexto de 10M tokens
- Muestra mejor desempeño en tareas multimodales que versiones anteriores de Llama y es más amigable con los recursos
- Usa la arquitectura iRoPE para una atención eficiente en contextos largos
- Se probó con hasta 8 imágenes por prompt
Llama 4 Maverick:
- 17B de parámetros activos, 128 expertos, 400B en total
- Ventana de contexto de 1M tokens
- Corre en un host H100 DGX en lugar de una sola GPU, o puede distribuirse para mayor eficiencia
- Supera a GPT-4o y Gemini 2.0 Flash en pruebas de código, razonamiento y multilingües, manteniendo un costo competitivo
- Mantiene una sólida comprensión de imágenes y capacidad de razonamiento fundamentado
Llama 4 Behemoth (avance previo):
- 288B de parámetros activos, 16 expertos, casi 2T en total
- Sigue en entrenamiento y aún no se ha lanzado
- Supera a GPT-4.5, Claude Sonnet 3.7 y Gemini 2.0 Pro en benchmarks STEM (por ejemplo, MATH-500, GPQA Diamond)
- Funciona como modelo "maestro" para Scout y Maverick mediante codestilación
Otros puntos:
- Arquitectura MoE: solo se activan 17B de parámetros por token, lo que reduce el costo de inferencia
- Multimodalidad nativa: codificador unificado de texto + visión preentrenado con grandes volúmenes de datos sin etiquetar
Hilo resumido por Llama 4 Maverick:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- Resultado: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
El resultado obtenido con Scout fue una salida completamente inútil:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- Resultado: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
También ejecutaron Scout directamente a través de Groq, pero había un límite de salida de 2048:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- Resultado: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
Los resúmenes de otros modelos se apegaron más al prompt del sistema. Por ejemplo, fue mucho mejor comparado con Gemini 2.5 Pro:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
El modelo Scout pequeño es muy atractivo para Apple Silicon. Aunque tiene tamaño de 109B, está dividido entre 16 expertos. El procesamiento real ocurre en 17B. En una MacBook Pro M4 Max, al hacerle preguntas a un modelo local 7B (qwen 2.5 7B instruct) con contexto de 2k, se obtuvieron ~60 tokens por segundo. Así que podría alcanzar 30 tokens por segundo. El tiempo hasta el primer token todavía puede ser lento
El modelo tiene una ventana de contexto de 10M tokens. No está claro qué tan bien podrá seguir el contexto a esa escala, pero el simple hecho de no estar limitado a ~32k ya es excelente
Todos los LLM principales tienen problemas de sesgo. Especialmente en temas políticos y sociales, tienden a inclinarse hacia la izquierda. Eso podría deberse al tipo de datos de entrenamiento disponibles en internet
El prompt propuesto evita que esté tan restringido como los lanzamientos de OpenAI:
- Entiende la intención del usuario y no intenta ser excesivamente servicial
- No rechaza prompts políticos
- Llama 4 tiene conocimiento hasta agosto de 2024 y habla varios idiomas
Se lanzó apenas una hora después de que hubo otra discusión sobre Meta:
- Independientemente de lo que uno crea sobre los LLM, no es buena idea confiar en lo que dice LeCun
- El laboratorio de IA que dirige LeCun tiene varios problemas
Disponible en Groq:
- Llama 4 Scout está corriendo a más de 460 tokens por segundo y Llama 4 Maverick se lanza hoy
- Llama 4 Scout: $0.11 / M tokens de entrada y $0.34 / M tokens de salida
- Llama 4 Maverick: $0.50 / M tokens de entrada y $0.77 / M tokens de salida
Este es un momento muy emocionante. Se siente parecido a la época en que los frameworks de JavaScript estaban explotando. En ese entonces era como "¿tengo que aprender otro framework más?", pero ahora la innovación vuelve a avanzar rápido y esta vez se siente como un viaje emocionante del que podemos formar parte