- Scout, Maverick y Behemoth, los 3 modelos que conforman el primer modelo multimodal nativo basado en open weights
- Todos los modelos son multimodales y entienden imagen + texto
Llama 4 Scout
- 17B de parámetros activos + 16 expertos
- Capacidad de manejar contexto ultralargo con soporte para 10M tokens
- Modelo ligero y eficiente que puede ejecutarse en una sola GPU (H100)
- Rendimiento superior a Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
- Excelente desempeño en alineación de imágenes, resumen de múltiples documentos, análisis de grandes bases de código y más
Llama 4 Maverick
- 17B de parámetros activos + 128 expertos + 400B de parámetros totales
- Mejor rendimiento que GPT-4o y Gemini 2.0 Flash
- Sobresale en todas las áreas, incluyendo razonamiento, programación y comprensión de imágenes
- Registró una puntuación ELO de 1417 (según LMArena)
- Estructura de costos eficiente en relación con su alto rendimiento
Llama 4 Behemoth (preview)
- 288B de parámetros activos + 16 expertos + cerca de 2T de parámetros totales
- Aún está en entrenamiento, pero muestra un rendimiento superior a GPT-4.5, Claude 3.7 y Gemini 2.0 Pro
- Se utiliza como modelo maestro en el preentrenamiento de Maverick
# Características técnicas
Arquitectura Mixture of Experts (MoE)
- En lugar de usar todos los parámetros, activa solo algunos expertos para maximizar la eficiencia computacional
- Implementa una estructura de entrenamiento con inferencia rápida, menor costo y alta calidad
Multimodal nativo & Early Fusion
- Integra texto y visión desde etapas tempranas para el entrenamiento conjunto
- Puede recibir hasta 48 imágenes como entrada; las pruebas se realizaron con éxito con hasta 8 imágenes
Manejo de contexto ultralargo (10M tokens)
- El modelo Scout explora la posibilidad de un “contexto infinito” con la estructura iRoPE (interleaved Rotary Position Embedding)
- Excelente capacidad de generalización de longitud para texto y código
Técnicas de entrenamiento MetaP & FP8
- Nueva técnica de ajuste de hiperparámetros para entrenamiento rápido y eficiente
- Alta utilización de FLOPs con precisión FP8 (Behemoth: 390 TFLOPs/GPU)
# Estrategia de posprocesamiento y entrenamiento RL
- Pipeline de posprocesamiento en tres etapas: SFT → RL online → DPO
- Se elimina la data fácil y se entrena con foco en prompts de dificultad media a alta
- Introducción de una estrategia de RL online continuo para maximizar la mejora de rendimiento y la eficiencia del aprendizaje
# Seguridad y consideraciones éticas
Estrategia de protección en múltiples capas
- Filtrado y moderación de datos en las etapas previas y posteriores al entrenamiento
- Llama Guard: verificación de seguridad de entrada/salida
- Prompt Guard: detección de jailbreaks y ataques de inyección
- CyberSecEval: herramienta para evaluar riesgos de seguridad en IA generativa
Automatización de la detección cuantitativa de riesgos
- Introducción de GOAT (Generative Offensive Agent Testing)
- Simulación de escenarios de atacantes intermedios
- Detección temprana de riesgos mediante pruebas automatizadas de múltiples turnos
Esfuerzos para reducir sesgos
- Llama 4 mejora considerablemente los sesgos frente a Llama 3
- Tasa de rechazo de respuestas: 7% → menos de 2%
- Desequilibrio en respuestas < 1%
- Mantiene respuestas con equilibrio político al nivel de Grok
# Guía de uso de los modelos Llama 4
- Scout y Maverick están disponibles para descarga y uso
- Integración de Llama 4 en el servicio Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai
# Próximos pasos
- LlamaCon 2025, donde se presentarán más detalles técnicos y la visión futura, está programado para el 29 de abril
2 comentarios
Parece adecuado para APPLE SILICON con RAM holgada o para la línea de NPU. Para usarlo en un servidor puramente de GPU, el hecho de que incluso el modelo de especificaciones mínimas requiera una H100 con cuantización int4 es...
Opiniones de Hacker News
Resumen de los modelos Llama 4:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (avance previo):
Otros puntos:
Hilo resumido por Llama 4 Maverick:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000El resultado obtenido con Scout fue una salida completamente inútil:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000También ejecutaron Scout directamente a través de Groq, pero había un límite de salida de 2048:
hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048Los resúmenes de otros modelos se apegaron más al prompt del sistema. Por ejemplo, fue mucho mejor comparado con Gemini 2.5 Pro:
El modelo Scout pequeño es muy atractivo para Apple Silicon. Aunque tiene tamaño de 109B, está dividido entre 16 expertos. El procesamiento real ocurre en 17B. En una MacBook Pro M4 Max, al hacerle preguntas a un modelo local 7B (
qwen 2.5 7B instruct) con contexto de 2k, se obtuvieron ~60 tokens por segundo. Así que podría alcanzar 30 tokens por segundo. El tiempo hasta el primer token todavía puede ser lentoEl modelo tiene una ventana de contexto de 10M tokens. No está claro qué tan bien podrá seguir el contexto a esa escala, pero el simple hecho de no estar limitado a ~32k ya es excelente
Todos los LLM principales tienen problemas de sesgo. Especialmente en temas políticos y sociales, tienden a inclinarse hacia la izquierda. Eso podría deberse al tipo de datos de entrenamiento disponibles en internet
El prompt propuesto evita que esté tan restringido como los lanzamientos de OpenAI:
Se lanzó apenas una hora después de que hubo otra discusión sobre Meta:
Disponible en Groq:
Este es un momento muy emocionante. Se siente parecido a la época en que los frameworks de JavaScript estaban explotando. En ese entonces era como "¿tengo que aprender otro framework más?", pero ahora la innovación vuelve a avanzar rápido y esta vez se siente como un viaje emocionante del que podemos formar parte