Lanzamiento del modelo de lenguaje Llama 3 de Meta
(llama.meta.com)- La página de Llama de Meta presenta la familia de modelos Llama como una línea de IA de código abierto enfocada en facilidad de despliegue, eficiencia de costos, rendimiento y escalabilidad a gran escala, y cubre tanto Llama 4 como la serie Llama 3
- Llama 4 Maverick y Llama 4 Scout son modelos multimodales nativos basados en early fusion que se preentrenan con texto y tokens de visión en conjunto, y ambos destacan una ventana de contexto de 10M tokens
- La serie Llama 3 se divide en 3.1, 3.2 y 3.3, y ofrece opciones por tamaño y uso —8B, 70B y 405B; 1B, 3B, 11B y 90B; y 70B— para texto, edge y multimodalidad
- La comparación de rendimiento incluye MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi y MTOB, donde Llama 4 Maverick registra 80.5 en MMLU Pro y Scout 74.3
- En los casos de Stoque y Shopify, los resultados de adopción incluyen una reducción del 50% en preguntas repetitivas de soporte técnico, un aumento del 11% en satisfacción interna, un incremento del 76% en throughput de tokens y una reducción del 33% en costos de cómputo basada en salida JSON
Familia de modelos Llama y opciones por versión
- Llama es una familia de modelos que puede construirse según necesidades propias, orientada a un despliegue sencillo, eficiencia de costos, rendimiento y escalabilidad para miles de millones de usuarios
- Los ejes principales de los modelos Llama más recientes son la multimodalidad nativa, el razonamiento avanzado y las ventanas de contexto largas
- Las tarjetas de modelo y los formatos de prompt pueden revisarse en Model overview
-
Llama 4: multimodalidad nativa y contexto de 10M
- Llama 4 es una familia de modelos multimodales nativos que usa early fusion para preentrenar conjuntamente datos de texto y visión sin etiquetar
- Llama 4 Maverick admite comprensión de imagen y texto, y maneja tareas de formato largo con un contexto de 10M tokens
- Sus usos principales incluyen memoria, personalización y aplicaciones multimodales
- Llama 4 Scout es un modelo que ofrece inteligencia textual y visual, destacando eficiencia en una sola GPU H100 y una ventana de contexto de 10M
- El análisis de documentos largos se presenta como uno de los principales usos de Scout
- Más detalles se ofrecen en la documentación del modelo Llama 4
-
Llama 3: familia de modelos por tamaño y uso
- Llama 3 es una familia de modelos de IA de código abierto apta para fine-tuning, destilación y despliegue en cualquier entorno
- Llama 3.3 es un modelo de lenguaje grande multilingüe de código abierto disponible en 70B, y se indica que permite experimentar rendimiento y calidad de nivel 405B a un menor costo
- Está orientado a usos basados en texto como la generación de datos sintéticos, y más detalles pueden consultarse en la documentación del modelo Llama 3.3
- Llama 3.2 es una familia de modelos flexible y eficiente en costos pensada para casos de uso en edge
- 1B y 3B son ligeros y rentables, por lo que pueden ejecutarse en cualquier lugar
- 11B y 90B son modelos multimodales capaces de razonar sobre imágenes de alta resolución y generar texto
- Más detalles se ofrecen en la documentación del modelo Llama 3.2
- Llama 3.1 es un modelo fundacional abierto para flexibilidad y control, disponible en tamaños de 8B, 70B y 405B
- Incluye capacidades de conocimiento general, ajustabilidad, matemáticas, uso de herramientas y traducción multilingüe, y se usa para resumen de texto, agentes multilingües y tareas de programación
- Más detalles pueden revisarse en la documentación del modelo Llama 3.1
Métricas de rendimiento y resultados reales de adopción
-
Benchmarks de Llama 4 y condiciones de evaluación
- Las capacidades de Llama 4 se resumen en multimodalidad nativa, contexto largo y grounding de imágenes
- Todos los modelos Llama 4 usan early fusion para poder preentrenar conjuntamente grandes volúmenes de texto sin etiquetar y tokens de visión
- Los benchmarks comparan Llama 4 Maverick y Llama 4 Scout
- Razonamiento: MMLU Pro es 80.5 para Maverick y 74.3 para Scout, mientras que GPQA Diamond es 69.8 para Maverick y 57.2 para Scout
- Programación: LiveCodeBench es 43.4 para Maverick y 32.8 para Scout
- Imagen multimodal: MMMU es 73.4 para Maverick y 69.4 para Scout; ChartQA es 90.0 para Maverick y 88.8 para Scout; y DocVQA es 94.4 para ambos
- Multilingüe: MMLU Multi es 84.6 para Maverick y 74.3 para Scout
- Contexto largo: MTOB Half Book es 54.0 / 46.4 para Maverick y 42.2 / 36.6 para Scout, y MTOB Full Book es 50.8 / 46.7 para Maverick y 39.7 / 36.3 para Scout
- Eficiencia: el costo por 1M tokens se presenta como $0.19–$0.49 para ambos
- Según la metodología y las notas, los resultados de Llama corresponden a una evaluación 0-shot con temperature 0, sin usar majority voting ni cómputo de tiempo de prueba en paralelo
- En benchmarks con alta varianza como GPQA Diamond y LiveCodeBench, se promedian múltiples generaciones para reducir la incertidumbre
- Dado que las evaluaciones especializadas de contexto largo tradicionalmente no se reportan en modelos generales, se comparten resultados de ejecuciones internas
- El costo de $0.19/Mtok de Llama 4 Maverick es una estimación combinada 3:1 que asume inferencia distribuida, y se proyecta que en un solo host podría ofrecerse en $0.30–$0.49/Mtok
-
Casos de uso de Stoque y Shopify
- Stoque transformó su inteligencia interna con Llama para que sus equipos encontraran insights más rápido, redujeran fricción y trabajaran con mayor eficiencia a gran escala
- Las consultas repetitivas de soporte técnico se redujeron en 50%, y la finalización de tareas de administración y soporte aumentó 30%
- La satisfacción de los usuarios internos aumentó 11%
- Shopify usa Llama para generar páginas de producto, localizar contenido y automatizar soporte
- El throughput de tokens es 76% mayor que con el modelo anterior, y registra una precisión Macro-F1 de 97.7% en detección de intención
- El uso de salida JSON reduce los costos de cómputo en 33%
- Las protecciones para IA generativa ayudan a identificar y mitigar riesgos potenciales de forma anticipada mediante protecciones a nivel de sistema, y apoyan a los desarrolladores para desplegar IA generativa de manera más responsable
1 comentarios
Opiniones en Hacker News
Enlaces de referencia: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta también publicó una consola: https://www.meta.ai/
También anunció la integración de Meta AI en toda su familia de productos: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Pero, al ver que no incluyeron comparaciones con GPT-4-Turbo o Claude Opus, parece que está lejos de los modelos de frontera; habrá que ver cómo rinde en LLM Arena
Es probable que las grandes diferencias solo aparezcan en benchmarks de razonamiento muy difíciles. Como Llama tiene pesos abiertos, a diferencia de Opus, seguramente aparecerán muchos fine-tunings y LoRA
Si países y grandes empresas usan Llama-3/Llama-4 en vez de gastar dinero en GPUs para entrenar sus propios modelos, podrían enfriarse las expectativas de crecimiento de GPUs; OpenAI tendría menos argumentos para levantar 100 mil millones de dólares, y la ventaja de Google en IA se volvería más difusa. AMD e Intel podrían concentrarse en chips de inferencia de IA en vez de intentar alcanzar a las GPUs de entrenamiento de Nvidia
Dice que sus modelos más grandes, de más de 400B, siguen en entrenamiento, y que en los próximos meses planea lanzar varios modelos con capacidades multimodales, conversaciones multilingües, ventanas de contexto mucho más largas y capacidades generales más fuertes
Los benchmarks públicos son buenos como indicadores aproximados, pero los desarrolladores deberían correr benchmarks personalizados ajustados a sus propios casos de uso
Replicate armó rápidamente una API de Llama 3: https://replicate.com/blog/run-llama-3-with-an-api, y con promptfoo https://github.com/typpo/promptfoo se pueden comparar Llama 3, Mixtral, GPT, Claude, etc. Por ejemplo, se pueden evaluar con el mismo prompt
meta/meta-llama-3-8b-instruct,meta/meta-llama-3-70b-instruct,gpt-4-turbode OpenAI,claude-3-opus-20240229de Anthropic, etc.Todavía estoy probando, pero en un conjunto de preguntas aleatorias de programación, Llama 3 8B se ve bastante bien. ollama ahora también soporta Llama 3 8B, así que es fácil hacer evaluaciones locales con
ollama:chat:llama3Una buena prueba es algo simple pero que requiere ver la aplicación real, como resolver una ecuación cuadrática para valores aleatorios a, b y c. Aunque sea un algoritmo que todos los modelos deberían conocer, se equivocan y luego pueden fingir haber verificado y repetir la respuesta incorrecta. LLAMA 3 también, después de que le señalaran errores varias veces, dijo que “encontró la solución correcta y la verificó de varias formas”, pero la solución real seguía estando mal como al principio y ni siquiera hubo intentos de verificación
assistantal final de las respuestas, pero ahora debería funcionarSe puede ejecutar con
ollama run llama3, y también están subiendo varias versiones cuantizadas y modelos de texto/70BLlama 3 70B debutó en el 5.º lugar de la famosa tabla de posiciones LMSYS Chatbot Arena, empatado con Claude 2 Sonnet, Bard (Gemini Pro) y Command R+, y por delante de Claude 2 Haiku y versiones anteriores de GPT-4
La incertidumbre de la puntuación todavía es grande, así que el ranking exacto requerirá tiempo y podría cambiar. Llama 3 8B está en el puesto 12, empatado con Claude 1, Mixtral 8x22B y Qwen-1.5-72B. El ranking más reciente puede verse en https://arena.lmsys.org/
En la tabla solo en inglés, Llama 3 70B se mantiene en la parte más alta junto con GPT-4 y Claude Opus, lo cual es aún más impresionante. Puede deberse a que el ajuste de seguridad es menos fuerte que antes y rechaza menos prompts, pero aun así es una mejora realmente útil. A este ritmo, el modelo 400B probablemente sea dominante en la práctica
Probé generar rap en chino y lo hizo bastante bien, pero justo después de terminar, la respuesta se borró y fue reemplazada por un texto que decía: “todavía no entiendo chino, pero estamos trabajando en ello y te avisaré cuando pueda conversar en chino”
Pasa lo mismo con otros idiomas: sí puede hacer generación no inglesa, pero al terminar borra la respuesta y la sustituye por el mismo aviso
El blog tiene muchos buenos detalles: https://ai.meta.com/blog/meta-llama-3/
También está prevista una versión 400B, y parece que será mucho mejor que GPT-4 y Claude Opus. Es una tendencia en la que la descentralización y el software abierto están ganando
Claro que lo evaluado en benchmarks fue un checkpoint intermedio y el entrenamiento sigue en curso
No hay que creer ciegamente en los benchmarks, pero no hay ninguna afirmación de que supere a GPT-4 u Opus. Como es un checkpoint intermedio, es posible que los supere más adelante
Y tampoco es open source
De verdad agradezco que Zuck, Yann y el equipo de Meta hayan elegido un enfoque abierto para compartir los pesos del modelo, el tokenizador, información sobre los datos de entrenamiento, etc.
Ellos son el principal motor de la explosión de investigación abierta que, mediante proyectos como llama.cpp, permitió correr localmente modelos bastante decentes en hardware de consumidor y evitar censura o control
No es que quiera hacer solicitudes que serían bloqueadas por los controles de OpenAI o Anthropic, pero no me gusta que una tecnología tan poderosa esté detrás de muros y que gatekeepers controlen cómo se usa. Hay muchas personas y empresas que creen en la apertura, pero cuando lo hace una organización con cientos de miles de millones de dólares de capital, flujo de caja sostenible y GPUs por miles de millones de dólares, el impacto es mucho mayor. Zuck no tenía por qué tomar este camino, y si Facebook estuviera dirigido por gerentes profesionales al estilo HBS/McKinsey, es muy probable que no lo hubieran dejado tan abierto. Todos nos beneficiamos enormemente de que no hayan escondido las joyas de la corona detrás de una API centralizada con la excusa de los riesgos de seguridad de la IA
Es una estrategia de la que Joel Spolsky habló hace tiempo, aunque no está claro exactamente qué complementos de los modelos de IA podría vender Meta. Aun así, parece claro que de algún modo es una decisión estratégica
Hay muchas cosas que criticarle a Zuck, pero la falta de autenticidad respecto de la misión no es una de ellas
Me alegra ver que Meta toma esa antorcha aquí, y espero que continúe
Como no había una comparación directa con GPT-4 de ChatGPT Plus de pago, ajusté las cifras
Para Llama 3 8B / Llama 3 70B / GPT-4, MMLU es 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6 y DROP 58.4 / 79.7 / 85.4
El ChatGPT gratuito que usa la mayoría se basa en GPT-3.5, que es mucho más débil que GPT-4. No pude encontrar cifras de evaluación completas del GPT-3.5 más reciente, pero Llama 3 70B debería ganarle con holgura, y el 8B también parece acercarse. Es muy interesante poder ejecutar y modificar localmente un modelo de este nivel. Las cifras de GPT-4 corresponden a
gpt-4-turbo-2024-04-09 (chatgpt)de https://github.com/openai/simple-evalsPara Llama 3 400B Base / Instruct, MMLU es 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1 y DROP 83.5 / -
Si alguien quiere probarlo para programar dentro del IDE, agregué Llama 3 70B a la herramienta de asistencia de código https://www.double.bot
También salió una entrevista con Zuck: https://twitter.com/dwarkesh_sp/status/1780990840179187715
Aseguró prudentemente el doble de lo que necesitaban en ese momento, y gracias a eso terminó por casualidad siendo una de las pocas empresas con capacidad de GPUs para entrenar LLMs de esta escala
La ficha del modelo incluye resultados de benchmarks frente a otros modelos Llama, incluido Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
La mejora de rendimiento de Llama 3 frente a Llama 2 es tan drástica que impresiona. Incluso al compararlo con Llama 2 13B, y el hecho de que la ventana de contexto se haya duplicado a 8k también abrirá muchas oportunidades nuevas.
Aun así, las métricas de rendimiento publicadas son impresionantes, y es digno de elogio que Meta haya lanzado estos modelos.