Lanzamiento del modelo de lenguaje Llama 3 de Meta

(llama.meta.com)

1 puntos por GN⁺ 2024-04-19 | 1 comentarios | Compartir por WhatsApp

La página de Llama de Meta presenta la familia de modelos Llama como una línea de IA de código abierto enfocada en facilidad de despliegue, eficiencia de costos, rendimiento y escalabilidad a gran escala, y cubre tanto Llama 4 como la serie Llama 3
Llama 4 Maverick y Llama 4 Scout son modelos multimodales nativos basados en early fusion que se preentrenan con texto y tokens de visión en conjunto, y ambos destacan una ventana de contexto de 10M tokens
La serie Llama 3 se divide en 3.1, 3.2 y 3.3, y ofrece opciones por tamaño y uso —8B, 70B y 405B; 1B, 3B, 11B y 90B; y 70B— para texto, edge y multimodalidad
La comparación de rendimiento incluye MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi y MTOB, donde Llama 4 Maverick registra 80.5 en MMLU Pro y Scout 74.3
En los casos de Stoque y Shopify, los resultados de adopción incluyen una reducción del 50% en preguntas repetitivas de soporte técnico, un aumento del 11% en satisfacción interna, un incremento del 76% en throughput de tokens y una reducción del 33% en costos de cómputo basada en salida JSON

Familia de modelos Llama y opciones por versión

Llama es una familia de modelos que puede construirse según necesidades propias, orientada a un despliegue sencillo, eficiencia de costos, rendimiento y escalabilidad para miles de millones de usuarios
Los ejes principales de los modelos Llama más recientes son la multimodalidad nativa, el razonamiento avanzado y las ventanas de contexto largas
Las tarjetas de modelo y los formatos de prompt pueden revisarse en Model overview
Llama 4: multimodalidad nativa y contexto de 10M
- Llama 4 es una familia de modelos multimodales nativos que usa early fusion para preentrenar conjuntamente datos de texto y visión sin etiquetar
- Llama 4 Maverick admite comprensión de imagen y texto, y maneja tareas de formato largo con un contexto de 10M tokens
- Sus usos principales incluyen memoria, personalización y aplicaciones multimodales
- Llama 4 Scout es un modelo que ofrece inteligencia textual y visual, destacando eficiencia en una sola GPU H100 y una ventana de contexto de 10M
- El análisis de documentos largos se presenta como uno de los principales usos de Scout
- Más detalles se ofrecen en la documentación del modelo Llama 4
Llama 3: familia de modelos por tamaño y uso
- Llama 3 es una familia de modelos de IA de código abierto apta para fine-tuning, destilación y despliegue en cualquier entorno
- Llama 3.3 es un modelo de lenguaje grande multilingüe de código abierto disponible en 70B, y se indica que permite experimentar rendimiento y calidad de nivel 405B a un menor costo
- Está orientado a usos basados en texto como la generación de datos sintéticos, y más detalles pueden consultarse en la documentación del modelo Llama 3.3
- Llama 3.2 es una familia de modelos flexible y eficiente en costos pensada para casos de uso en edge
  - 1B y 3B son ligeros y rentables, por lo que pueden ejecutarse en cualquier lugar
  - 11B y 90B son modelos multimodales capaces de razonar sobre imágenes de alta resolución y generar texto
  - Más detalles se ofrecen en la documentación del modelo Llama 3.2
- Llama 3.1 es un modelo fundacional abierto para flexibilidad y control, disponible en tamaños de 8B, 70B y 405B
- Incluye capacidades de conocimiento general, ajustabilidad, matemáticas, uso de herramientas y traducción multilingüe, y se usa para resumen de texto, agentes multilingües y tareas de programación
- Más detalles pueden revisarse en la documentación del modelo Llama 3.1

Métricas de rendimiento y resultados reales de adopción

Benchmarks de Llama 4 y condiciones de evaluación
- Las capacidades de Llama 4 se resumen en multimodalidad nativa, contexto largo y grounding de imágenes
- Todos los modelos Llama 4 usan early fusion para poder preentrenar conjuntamente grandes volúmenes de texto sin etiquetar y tokens de visión
- Los benchmarks comparan Llama 4 Maverick y Llama 4 Scout
  - Razonamiento: MMLU Pro es 80.5 para Maverick y 74.3 para Scout, mientras que GPQA Diamond es 69.8 para Maverick y 57.2 para Scout
  - Programación: LiveCodeBench es 43.4 para Maverick y 32.8 para Scout
  - Imagen multimodal: MMMU es 73.4 para Maverick y 69.4 para Scout; ChartQA es 90.0 para Maverick y 88.8 para Scout; y DocVQA es 94.4 para ambos
  - Multilingüe: MMLU Multi es 84.6 para Maverick y 74.3 para Scout
  - Contexto largo: MTOB Half Book es 54.0 / 46.4 para Maverick y 42.2 / 36.6 para Scout, y MTOB Full Book es 50.8 / 46.7 para Maverick y 39.7 / 36.3 para Scout
  - Eficiencia: el costo por 1M tokens se presenta como $0.19–$0.49 para ambos
- Según la metodología y las notas, los resultados de Llama corresponden a una evaluación 0-shot con temperature 0, sin usar majority voting ni cómputo de tiempo de prueba en paralelo
- En benchmarks con alta varianza como GPQA Diamond y LiveCodeBench, se promedian múltiples generaciones para reducir la incertidumbre
- Dado que las evaluaciones especializadas de contexto largo tradicionalmente no se reportan en modelos generales, se comparten resultados de ejecuciones internas
- El costo de $0.19/Mtok de Llama 4 Maverick es una estimación combinada 3:1 que asume inferencia distribuida, y se proyecta que en un solo host podría ofrecerse en $0.30–$0.49/Mtok
Casos de uso de Stoque y Shopify
- Stoque transformó su inteligencia interna con Llama para que sus equipos encontraran insights más rápido, redujeran fricción y trabajaran con mayor eficiencia a gran escala
- Las consultas repetitivas de soporte técnico se redujeron en 50%, y la finalización de tareas de administración y soporte aumentó 30%
- La satisfacción de los usuarios internos aumentó 11%
- Shopify usa Llama para generar páginas de producto, localizar contenido y automatizar soporte
- El throughput de tokens es 76% mayor que con el modelo anterior, y registra una precisión Macro-F1 de 97.7% en detección de intención
- El uso de salida JSON reduce los costos de cómputo en 33%
- Las protecciones para IA generativa ayudan a identificar y mitigar riesgos potenciales de forma anticipada mediante protecciones a nivel de sistema, y apoyan a los desarrolladores para desplegar IA generativa de manera más responsable

1 comentarios

GN⁺ 2024-04-19

Opiniones en Hacker News

Enlaces de referencia: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta también publicó una consola: https://www.meta.ai/
También anunció la integración de Meta AI en toda su familia de productos: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Pero, al ver que no incluyeron comparaciones con GPT-4-Turbo o Claude Opus, parece que está lejos de los modelos de frontera; habrá que ver cómo rinde en LLM Arena
- Parece que no lo compararon con los mejores modelos porque intentaban hacer una comparación entre modelos “de la misma categoría”. El modelo 70B está en la misma gama que Sonnet, y si supera a Sonnet, podría acercarse a Opus o GPT-4 en la mayoría de las tareas
  Es probable que las grandes diferencias solo aparezcan en benchmarks de razonamiento muy difíciles. Como Llama tiene pesos abiertos, a diferencia de Opus, seguramente aparecerán muchos fine-tunings y LoRA
- Si Llama-3-400B iguala a Claude 3 Opus y similares, los perdedores podrían ser la acción de Nvidia, OpenAI y Sam, y Google; los ganadores podrían ser AMD, Intel, las universidades y los desarrolladores de todo el mundo
  Si países y grandes empresas usan Llama-3/Llama-4 en vez de gastar dinero en GPUs para entrenar sus propios modelos, podrían enfriarse las expectativas de crecimiento de GPUs; OpenAI tendría menos argumentos para levantar 100 mil millones de dólares, y la ventaja de Google en IA se volvería más difusa. AMD e Intel podrían concentrarse en chips de inferencia de IA en vez de intentar alcanzar a las GPUs de entrenamiento de Nvidia
- También sorprende que lo hayan dejado usar sin iniciar sesión. No era algo que esperaba de Meta
- Meta dijo que todavía está entrenando variantes grandes del modelo más competitivas
  Dice que sus modelos más grandes, de más de 400B, siguen en entrenamiento, y que en los próximos meses planea lanzar varios modelos con capacidades multimodales, conversaciones multilingües, ventanas de contexto mucho más largas y capacidades generales más fuertes
- Me aparece “Meta AI isn't available yet in your country”; me pregunto dónde está disponible. Me sale eso en Noruega
Los benchmarks públicos son buenos como indicadores aproximados, pero los desarrolladores deberían correr benchmarks personalizados ajustados a sus propios casos de uso
Replicate armó rápidamente una API de Llama 3: https://replicate.com/blog/run-llama-3-with-an-api, y con promptfoo https://github.com/typpo/promptfoo se pueden comparar Llama 3, Mixtral, GPT, Claude, etc. Por ejemplo, se pueden evaluar con el mismo prompt meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct, gpt-4-turbo de OpenAI, claude-3-opus-20240229 de Anthropic, etc.
Todavía estoy probando, pero en un conjunto de preguntas aleatorias de programación, Llama 3 8B se ve bastante bien. ollama ahora también soporta Llama 3 8B, así que es fácil hacer evaluaciones locales con ollama:chat:llama3
- Hay que tener mucho cuidado al probar con problemas que probablemente ya estén publicados completos en línea
  Una buena prueba es algo simple pero que requiere ver la aplicación real, como resolver una ecuación cuadrática para valores aleatorios a, b y c. Aunque sea un algoritmo que todos los modelos deberían conocer, se equivocan y luego pueden fingir haber verificado y repetir la respuesta incorrecta. LLAMA 3 también, después de que le señalaran errores varias veces, dijo que “encontró la solución correcta y la verificó de varias formas”, pero la solución real seguía estando mal como al principio y ni siquiera hubo intentos de verificación
- Había un problema de vocabulario por el que aparecía assistant al final de las respuestas, pero ahora debería funcionar
  Se puede ejecutar con ollama run llama3, y también están subiendo varias versiones cuantizadas y modelos de texto/70B
Llama 3 70B debutó en el 5.º lugar de la famosa tabla de posiciones LMSYS Chatbot Arena, empatado con Claude 2 Sonnet, Bard (Gemini Pro) y Command R+, y por delante de Claude 2 Haiku y versiones anteriores de GPT-4
La incertidumbre de la puntuación todavía es grande, así que el ranking exacto requerirá tiempo y podría cambiar. Llama 3 8B está en el puesto 12, empatado con Claude 1, Mixtral 8x22B y Qwen-1.5-72B. El ranking más reciente puede verse en https://arena.lmsys.org/
En la tabla solo en inglés, Llama 3 70B se mantiene en la parte más alta junto con GPT-4 y Claude Opus, lo cual es aún más impresionante. Puede deberse a que el ajuste de seguridad es menos fuerte que antes y rechaza menos prompts, pero aun así es una mejora realmente útil. A este ritmo, el modelo 400B probablemente sea dominante en la práctica
Probé generar rap en chino y lo hizo bastante bien, pero justo después de terminar, la respuesta se borró y fue reemplazada por un texto que decía: “todavía no entiendo chino, pero estamos trabajando en ello y te avisaré cuando pueda conversar en chino”
Pasa lo mismo con otros idiomas: sí puede hacer generación no inglesa, pero al terminar borra la respuesta y la sustituye por el mismo aviso
- Parece que hay un posprocesador que evalúa la calidad de la respuesta después de generar cierta cantidad de tokens y la revierte si queda por debajo del umbral
- Se puede ejecutar localmente. La versión local no tiene esas protecciones
- En italiano funciona, pero siempre agrega un descargo de responsabilidad diciendo que todavía están mejorando sus capacidades en idiomas distintos del inglés, que puede haber errores y que es más útil cuando ayuda en inglés
- Es raro que este bug siga ocurriendo 12 horas después
El blog tiene muchos buenos detalles: https://ai.meta.com/blog/meta-llama-3/
También está prevista una versión 400B, y parece que será mucho mejor que GPT-4 y Claude Opus. Es una tendencia en la que la descentralización y el software abierto están ganando
- Comparado con las cifras de Claude 3 de Anthropic https://www.anthropic.com/news/claude-3-family, las cifras de Llama 400B parecen un poco más bajas
  Claro que lo evaluado en benchmarks fue un checkpoint intermedio y el entrenamiento sigue en curso
- Nunca se dijo eso. De hecho, los benchmarks publicados salen por debajo de GPT-4 u Opus
  No hay que creer ciegamente en los benchmarks, pero no hay ninguna afirmación de que supere a GPT-4 u Opus. Como es un checkpoint intermedio, es posible que los supere más adelante
- No sé dónde dice que el modelo 400B sea mucho mejor que GPT-4
- Es difícil considerarlo descentralizado. Se podrá ejecutar en varios lugares, pero solo hay un distribuidor
  Y tampoco es open source
- No es open source ni descentralizado
De verdad agradezco que Zuck, Yann y el equipo de Meta hayan elegido un enfoque abierto para compartir los pesos del modelo, el tokenizador, información sobre los datos de entrenamiento, etc.
Ellos son el principal motor de la explosión de investigación abierta que, mediante proyectos como llama.cpp, permitió correr localmente modelos bastante decentes en hardware de consumidor y evitar censura o control
No es que quiera hacer solicitudes que serían bloqueadas por los controles de OpenAI o Anthropic, pero no me gusta que una tecnología tan poderosa esté detrás de muros y que gatekeepers controlen cómo se usa. Hay muchas personas y empresas que creen en la apertura, pero cuando lo hace una organización con cientos de miles de millones de dólares de capital, flujo de caja sostenible y GPUs por miles de millones de dólares, el impacto es mucho mayor. Zuck no tenía por qué tomar este camino, y si Facebook estuviera dirigido por gerentes profesionales al estilo HBS/McKinsey, es muy probable que no lo hubieran dejado tan abierto. Todos nos beneficiamos enormemente de que no hayan escondido las joyas de la corona detrás de una API centralizada con la excusa de los riesgos de seguridad de la IA
- Al ver las entrevistas de Zuck, se nota que en el fondo todavía es ingeniero. Otras grandes tecnológicas perdieron ese tipo de liderazgo
- Es bueno que todavía tenga 39 años y parezca tener mucha energía para seguir dirigiendo la empresa. Veo como una gran ventaja de Meta frente a otras grandes tecnológicas el hecho de contar con un fundador apasionado
- Probablemente no lo hagan solo por buena voluntad. Lo más probable es que sea una estrategia para convertir los modelos en una commodity y vender complementos
  Es una estrategia de la que Joel Spolsky habló hace tiempo, aunque no está claro exactamente qué complementos de los modelos de IA podría vender Meta. Aun así, parece claro que de algún modo es una decisión estratégica
- Es porque es un CEO fundador. Es diferente a los MBA de carrera en cuanto a pasión y autenticidad
  Hay muchas cosas que criticarle a Zuck, pero la falta de autenticidad respecto de la misión no es una de ellas
- Meta también lideró el Open Compute Project. Entré a Google por su compromiso con el open source, pero me decepcionó mucho ver que esa cultura no se mantuvo al construir soluciones de exaescala
  Me alegra ver que Meta toma esa antorcha aquí, y espero que continúe
Como no había una comparación directa con GPT-4 de ChatGPT Plus de pago, ajusté las cifras
Para Llama 3 8B / Llama 3 70B / GPT-4, MMLU es 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6 y DROP 58.4 / 79.7 / 85.4
El ChatGPT gratuito que usa la mayoría se basa en GPT-3.5, que es mucho más débil que GPT-4. No pude encontrar cifras de evaluación completas del GPT-3.5 más reciente, pero Llama 3 70B debería ganarle con holgura, y el 8B también parece acercarse. Es muy interesante poder ejecutar y modificar localmente un modelo de este nivel. Las cifras de GPT-4 corresponden a gpt-4-turbo-2024-04-09 (chatgpt) de https://github.com/openai/simple-evals
- En la parte inferior de https://ai.meta.com/blog/meta-llama-3/ también están los resultados del modelo 400B en curso. Parece que todavía no ha llegado del todo
  Para Llama 3 400B Base / Instruct, MMLU es 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1 y DROP 83.5 / -
- Es sorprendente si se considera que GPT-4 tiene 1.8T parámetros
- Estoy esperando modelos fine-tuned o fusionados. Muchos desarrolladores hicieron modelos basados en Llama 2 mucho mejores que el modelo base, así que espero una dinámica similar con la nueva versión
- Me pregunto si ya hay material comparándolo con Mixtral 8x22B. El mundo se mueve realmente rápido
- El puntaje de HumanEval es alto, así que me genera especial expectativa. Todavía no salieron ni el modelo 400B ni el tuning de CodeLlama
  Si alguien quiere probarlo para programar dentro del IDE, agregué Llama 3 70B a la herramienta de asistencia de código https://www.double.bot
También salió una entrevista con Zuck: https://twitter.com/dwarkesh_sp/status/1780990840179187715
- Hay una parte interesante alrededor del minuto 5: Zuck dice que hace unos años compró una enorme cantidad de GPUs H100 para construir un motor de recomendaciones de Reels que compitiera con TikTok
  Aseguró prudentemente el doble de lo que necesitaban en ese momento, y gracias a eso terminó por casualidad siendo una de las pocas empresas con capacidad de GPUs para entrenar LLMs de esta escala
- Parece que 1 o 2 años de MMA le ayudaron mucho más con el carisma que todo el entrenamiento mediático anterior. En las entrevistas de estos días se ve mucho más natural
- El podcast de Dwarkesh en general es realmente bueno
La ficha del modelo incluye resultados de benchmarks frente a otros modelos Llama, incluido Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
La mejora de rendimiento de Llama 3 frente a Llama 2 es tan drástica que impresiona. Incluso al compararlo con Llama 2 13B, y el hecho de que la ventana de contexto se haya duplicado a 8k también abrirá muchas oportunidades nuevas.
- Tomando como referencia los modelos con ajuste por instrucciones, Llama 3 8B es bastante mejor incluso que Llama 2 70B.
- Es una lástima que la longitud de contexto de 8k sea mucho menor que el contexto de 64k de Mixtral 8x22B.
  Aun así, las métricas de rendimiento publicadas son impresionantes, y es digno de elogio que Meta haya lanzado estos modelos.

Lanzamiento del modelo de lenguaje Llama 3 de Meta

Familia de modelos Llama y opciones por versión

Llama 4: multimodalidad nativa y contexto de 10M

Llama 3: familia de modelos por tamaño y uso

Métricas de rendimiento y resultados reales de adopción

Benchmarks de Llama 4 y condiciones de evaluación

Casos de uso de Stoque y Shopify

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News