Meta presenta Llama 3

xguru · 2024-04-19T08:26:25+09:00

Se presentan los dos primeros modelos de Llama 3 (modelos 8B y 70B preentrenados y ajustados con instrucciones) Muestran rendimiento de vanguardia en una amplia gama de benchmarks de la industria y ofrecen nuevas capacidades, como mejor razonamiento El objetivo es construir el mejor modelo abierto, al nivel de los mejores modelos propietarios disponibles actualmente. Buscan incorporar la retroalimentación de desarrolladores y lanzar versiones rápidas y frecuentes Se introducen nuevas herramientas de confianza y seguridad como Llama Guard 2, Code Shield y CyberSec Eval 2 En los próximos meses planean introducir nuevas capacidades, ventanas de contexto más largas, tamaños de modelo adicionales y mejor rendimiento, además de compartir el paper de investigación de Llama 3 Pronto estará disponible en AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake y más; además será compatible con plataformas de hardware de AMD, AWS, Dell, Intel, NVIDIA y Qualcomm Meta AI, construido con la tecnología de Llama 3, ahora es uno de los asistentes de IA de mayor nivel en el mundo y puede aumentar la inteligencia del usuario y reducir su carga Rendimiento de Llama 3 Los modelos Llama 3 de 8B y 70B parámetros representan un gran salto frente a Llama 2 y establecen un nuevo nivel máximo para modelos LLM en esa escala Gracias a mejoras en el preentrenamiento y el posentrenamiento, los modelos preentrenados y ajustados con instrucciones son los mejores existentes en las escalas de 8B y 70B parámetros Las mejoras en el proceso de posentrenamiento reducen considerablemente la tasa de falsos rechazos, mejoran la alineación y aumentan la diversidad de las respuestas del modelo También mejoran mucho capacidades como razonamiento, generación de código y seguimiento de instrucciones, haciendo a Llama 3 más controlable (steerable) Durante el desarrollo de Llama 3, revisaron el rendimiento del modelo en benchmarks estándar y también buscaron optimizarlo para escenarios reales Para ello desarrollaron un nuevo conjunto de evaluación humana de alta calidad que incluye 1,800 prompts y cubre 12 casos de uso clave Este conjunto de evaluación mostró que el modelo de 70B ajustado para seguimiento de instrucciones ofrece un rendimiento sólido frente a modelos competidores de tamaño similar en escenarios reales El modelo preentrenado también alcanzó un nuevo estado del arte en esa escala para modelos LLM Consideran que la innovación, la escalabilidad y la optimización de la simplicidad son esenciales para desarrollar un gran modelo de lenguaje A lo largo de todo el proyecto Llama 3 adoptaron esta filosofía de diseño enfocándose en cuatro elementos clave: arquitectura del modelo, datos de preentrenamiento, escalado del preentrenamiento y ajuste con instrucciones Arquitectura del modelo En Llama 3 eligieron una arquitectura de transformador relativamente estándar, solo decodificador Hay varias mejoras importantes frente a Llama 2 Llama 3 usa un tokenizador con un vocabulario de 128K tokens que codifica el lenguaje de forma mucho más eficiente, lo que mejora significativamente el rendimiento del modelo Para mejorar la eficiencia de inferencia de los modelos Llama 3, adoptaron grouped query attention (GQA) tanto en el tamaño 8B como en 70B Entrenaron el modelo con secuencias de 8,192 tokens usando una máscara para evitar que la self-attention cruce los límites del documento Datos de entrenamiento Para entrenar el mejor modelo de lenguaje, lo más importante es la curación de un dataset de entrenamiento grande y de alta calidad Llama 3 fue preentrenado con más de 15T tokens recolectados de fuentes disponibles públicamente El dataset de entrenamiento es 7 veces más grande que el usado en Llama 2 e incluye 4 veces más código Para prepararse para futuros casos de uso multilingües, más del 5% del dataset de preentrenamiento de Llama 3 está compuesto por datos de alta calidad en idiomas distintos del inglés, cubriendo más de 30 idiomas Escalado del preentrenamiento Invirtieron un esfuerzo considerable en escalar el preentrenamiento para aprovechar eficazmente los datos de preentrenamiento en los modelos Llama 3 En particular, desarrollaron una serie de leyes de escalado detalladas para evaluar benchmarks downstream Estas leyes de escalado les permiten tomar decisiones informadas sobre cómo elegir la mezcla de datos óptima y cómo usar de la mejor manera el cómputo de entrenamiento Ajuste con instrucciones Para aprovechar por completo el potencial del modelo preentrenado en casos de uso de chat, también innovaron en su enfoque de ajuste con instrucciones Su enfoque de posentrenamiento combina supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) y direct policy optimization (DPO) La calidad de los prompts usados en SFT y los rankings de preferencias usados en PPO y DPO influyen de manera excesiva en el rendimiento del modelo alineado Construir con Llama 3 La visión de Meta es permitir que los desarrolladores personalicen Llama 3 para soportar casos de uso relevantes, adoptar buenas prácticas con facilidad y mejorar el ecosistema abierto En esta versión introducen nuevas herramientas de confianza y seguridad, incluidos componentes actualizados junto con Llama Guard 2 y Cybersec Eval 2, así como Code Shield, una barrera de seguridad en tiempo de inferencia para filtrar código inseguro generado por LLM También desarrollaron Llama 3 junto con torchtune, una nueva biblioteca nativa de PyTorch que facilita crear, ajustar y experimentar con LLM Enfoque a nivel sistema para desarrollo y despliegue responsables Los modelos Llama 3 fueron diseñados para ser lo más útiles posible y al mismo tiempo garantizar un enfoque de despliegue responsable de nivel líder en la industria Para ello adoptaron un nuevo enfoque a nivel sistema para el desarrollo y despliegue responsables de Llama Consideran los modelos Llama como elementos base de sistemas que los desarrolladores diseñan teniendo en mente objetivos finales únicos El ajuste con instrucciones juega un papel importante para garantizar la seguridad del modelo Los modelos ajustados con instrucciones pasan por pruebas de red teaming de seguridad mediante esfuerzos internos y externos Estos esfuerzos son iterativos y se utilizan para afinar la seguridad de los modelos lanzados Los modelos Llama Guard sirven como base para la seguridad de prompts y respuestas, y permiten crear fácilmente nuevas clasificaciones según los requisitos de la aplicación El nuevo Llama Guard 2 usa la taxonomía de MLCommons anunciada recientemente para dar soporte a estándares de la industria CyberSecEval 2 amplía la versión anterior añadiendo mediciones sobre la propensión de los LLM a explotar intérpretes de código, capacidades ofensivas de ciberseguridad y vulnerabilidad a ataques de prompt injection Code Shield admite filtrado en tiempo de inferencia para código inseguro generado por LLM, mitigando riesgos relacionados con sugerencias de código inseguro, prevención de explotación de intérpretes de código y ejecución de comandos sensibles Despliegue a gran escala de Llama 3 Llama 3 pronto estará disponible en plataformas clave, incluidos proveedores de nube y proveedores de API de modelos Según los benchmarks, el tokenizador genera hasta 15% menos tokens que en Llama 2, mejorando la eficiencia de tokens Además, grouped query attention (GQA) también se añadió a Llama 3 8B Próximos planes para Llama 3 Los modelos Llama 3 8B y 70B son solo el inicio del plan de lanzamiento de Llama 3 En los próximos meses planean lanzar varios modelos con nuevas capacidades, incluyendo multimodalidad, conversación multilingüe, ventanas de contexto mucho más largas y capacidades más potentes en general Cuando el entrenamiento de Llama 3 concluya, también publicarán un paper de investigación detallado

(ai.meta.com)

22 puntos por xguru 2024-04-19 | 2 comentarios | Compartir por WhatsApp

Se presentan los dos primeros modelos de Llama 3 (modelos 8B y 70B preentrenados y ajustados con instrucciones)
Muestran rendimiento de vanguardia en una amplia gama de benchmarks de la industria y ofrecen nuevas capacidades, como mejor razonamiento
El objetivo es construir el mejor modelo abierto, al nivel de los mejores modelos propietarios disponibles actualmente. Buscan incorporar la retroalimentación de desarrolladores y lanzar versiones rápidas y frecuentes
Se introducen nuevas herramientas de confianza y seguridad como Llama Guard 2, Code Shield y CyberSec Eval 2
En los próximos meses planean introducir nuevas capacidades, ventanas de contexto más largas, tamaños de modelo adicionales y mejor rendimiento, además de compartir el paper de investigación de Llama 3
Pronto estará disponible en AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake y más; además será compatible con plataformas de hardware de AMD, AWS, Dell, Intel, NVIDIA y Qualcomm
Meta AI, construido con la tecnología de Llama 3, ahora es uno de los asistentes de IA de mayor nivel en el mundo y puede aumentar la inteligencia del usuario y reducir su carga

Rendimiento de Llama 3

Los modelos Llama 3 de 8B y 70B parámetros representan un gran salto frente a Llama 2 y establecen un nuevo nivel máximo para modelos LLM en esa escala
Gracias a mejoras en el preentrenamiento y el posentrenamiento, los modelos preentrenados y ajustados con instrucciones son los mejores existentes en las escalas de 8B y 70B parámetros
Las mejoras en el proceso de posentrenamiento reducen considerablemente la tasa de falsos rechazos, mejoran la alineación y aumentan la diversidad de las respuestas del modelo
También mejoran mucho capacidades como razonamiento, generación de código y seguimiento de instrucciones, haciendo a Llama 3 más controlable (steerable)
Durante el desarrollo de Llama 3, revisaron el rendimiento del modelo en benchmarks estándar y también buscaron optimizarlo para escenarios reales
Para ello desarrollaron un nuevo conjunto de evaluación humana de alta calidad que incluye 1,800 prompts y cubre 12 casos de uso clave
Este conjunto de evaluación mostró que el modelo de 70B ajustado para seguimiento de instrucciones ofrece un rendimiento sólido frente a modelos competidores de tamaño similar en escenarios reales
El modelo preentrenado también alcanzó un nuevo estado del arte en esa escala para modelos LLM
Consideran que la innovación, la escalabilidad y la optimización de la simplicidad son esenciales para desarrollar un gran modelo de lenguaje
A lo largo de todo el proyecto Llama 3 adoptaron esta filosofía de diseño enfocándose en cuatro elementos clave: arquitectura del modelo, datos de preentrenamiento, escalado del preentrenamiento y ajuste con instrucciones

Arquitectura del modelo

En Llama 3 eligieron una arquitectura de transformador relativamente estándar, solo decodificador
Hay varias mejoras importantes frente a Llama 2
- Llama 3 usa un tokenizador con un vocabulario de 128K tokens que codifica el lenguaje de forma mucho más eficiente, lo que mejora significativamente el rendimiento del modelo
- Para mejorar la eficiencia de inferencia de los modelos Llama 3, adoptaron grouped query attention (GQA) tanto en el tamaño 8B como en 70B
- Entrenaron el modelo con secuencias de 8,192 tokens usando una máscara para evitar que la self-attention cruce los límites del documento

Datos de entrenamiento

Para entrenar el mejor modelo de lenguaje, lo más importante es la curación de un dataset de entrenamiento grande y de alta calidad
Llama 3 fue preentrenado con más de 15T tokens recolectados de fuentes disponibles públicamente
El dataset de entrenamiento es 7 veces más grande que el usado en Llama 2 e incluye 4 veces más código
Para prepararse para futuros casos de uso multilingües, más del 5% del dataset de preentrenamiento de Llama 3 está compuesto por datos de alta calidad en idiomas distintos del inglés, cubriendo más de 30 idiomas

Escalado del preentrenamiento

Invirtieron un esfuerzo considerable en escalar el preentrenamiento para aprovechar eficazmente los datos de preentrenamiento en los modelos Llama 3
En particular, desarrollaron una serie de leyes de escalado detalladas para evaluar benchmarks downstream
Estas leyes de escalado les permiten tomar decisiones informadas sobre cómo elegir la mezcla de datos óptima y cómo usar de la mejor manera el cómputo de entrenamiento

Ajuste con instrucciones

Para aprovechar por completo el potencial del modelo preentrenado en casos de uso de chat, también innovaron en su enfoque de ajuste con instrucciones
Su enfoque de posentrenamiento combina supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) y direct policy optimization (DPO)
La calidad de los prompts usados en SFT y los rankings de preferencias usados en PPO y DPO influyen de manera excesiva en el rendimiento del modelo alineado

Construir con Llama 3

La visión de Meta es permitir que los desarrolladores personalicen Llama 3 para soportar casos de uso relevantes, adoptar buenas prácticas con facilidad y mejorar el ecosistema abierto
En esta versión introducen nuevas herramientas de confianza y seguridad, incluidos componentes actualizados junto con Llama Guard 2 y Cybersec Eval 2, así como Code Shield, una barrera de seguridad en tiempo de inferencia para filtrar código inseguro generado por LLM
También desarrollaron Llama 3 junto con torchtune, una nueva biblioteca nativa de PyTorch que facilita crear, ajustar y experimentar con LLM

Enfoque a nivel sistema para desarrollo y despliegue responsables

Los modelos Llama 3 fueron diseñados para ser lo más útiles posible y al mismo tiempo garantizar un enfoque de despliegue responsable de nivel líder en la industria
Para ello adoptaron un nuevo enfoque a nivel sistema para el desarrollo y despliegue responsables de Llama
Consideran los modelos Llama como elementos base de sistemas que los desarrolladores diseñan teniendo en mente objetivos finales únicos
El ajuste con instrucciones juega un papel importante para garantizar la seguridad del modelo
Los modelos ajustados con instrucciones pasan por pruebas de red teaming de seguridad mediante esfuerzos internos y externos
Estos esfuerzos son iterativos y se utilizan para afinar la seguridad de los modelos lanzados
Los modelos Llama Guard sirven como base para la seguridad de prompts y respuestas, y permiten crear fácilmente nuevas clasificaciones según los requisitos de la aplicación
El nuevo Llama Guard 2 usa la taxonomía de MLCommons anunciada recientemente para dar soporte a estándares de la industria
CyberSecEval 2 amplía la versión anterior añadiendo mediciones sobre la propensión de los LLM a explotar intérpretes de código, capacidades ofensivas de ciberseguridad y vulnerabilidad a ataques de prompt injection
Code Shield admite filtrado en tiempo de inferencia para código inseguro generado por LLM, mitigando riesgos relacionados con sugerencias de código inseguro, prevención de explotación de intérpretes de código y ejecución de comandos sensibles

Despliegue a gran escala de Llama 3

Llama 3 pronto estará disponible en plataformas clave, incluidos proveedores de nube y proveedores de API de modelos
Según los benchmarks, el tokenizador genera hasta 15% menos tokens que en Llama 2, mejorando la eficiencia de tokens
Además, grouped query attention (GQA) también se añadió a Llama 3 8B

Próximos planes para Llama 3

Los modelos Llama 3 8B y 70B son solo el inicio del plan de lanzamiento de Llama 3
En los próximos meses planean lanzar varios modelos con nuevas capacidades, incluyendo multimodalidad, conversación multilingüe, ventanas de contexto mucho más largas y capacidades más potentes en general
Cuando el entrenamiento de Llama 3 concluya, también publicarán un paper de investigación detallado

2 comentarios

dormis 2024-04-19

Por lo pronto no sé sobre otras nubes, pero en Azure AI Studio ya aparecen junto con Mixtral 8x22B los modelos Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct).

xguru 2024-04-19

Sitio oficial: https://llama.meta.com/llama3/
Evaluación de Andrej Karpathy sobre Meta Llama 3