- Se presentan los dos primeros modelos de Llama 3 (modelos 8B y 70B preentrenados y ajustados con instrucciones)
- Muestran rendimiento de vanguardia en una amplia gama de benchmarks de la industria y ofrecen nuevas capacidades, como mejor razonamiento
- El objetivo es construir el mejor modelo abierto, al nivel de los mejores modelos propietarios disponibles actualmente. Buscan incorporar la retroalimentación de desarrolladores y lanzar versiones rápidas y frecuentes
- Se introducen nuevas herramientas de confianza y seguridad como Llama Guard 2, Code Shield y CyberSec Eval 2
- En los próximos meses planean introducir nuevas capacidades, ventanas de contexto más largas, tamaños de modelo adicionales y mejor rendimiento, además de compartir el paper de investigación de Llama 3
- Pronto estará disponible en AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake y más; además será compatible con plataformas de hardware de AMD, AWS, Dell, Intel, NVIDIA y Qualcomm
- Meta AI, construido con la tecnología de Llama 3, ahora es uno de los asistentes de IA de mayor nivel en el mundo y puede aumentar la inteligencia del usuario y reducir su carga
Rendimiento de Llama 3
- Los modelos Llama 3 de 8B y 70B parámetros representan un gran salto frente a Llama 2 y establecen un nuevo nivel máximo para modelos LLM en esa escala
- Gracias a mejoras en el preentrenamiento y el posentrenamiento, los modelos preentrenados y ajustados con instrucciones son los mejores existentes en las escalas de 8B y 70B parámetros
- Las mejoras en el proceso de posentrenamiento reducen considerablemente la tasa de falsos rechazos, mejoran la alineación y aumentan la diversidad de las respuestas del modelo
- También mejoran mucho capacidades como razonamiento, generación de código y seguimiento de instrucciones, haciendo a Llama 3 más controlable (
steerable)
- Durante el desarrollo de Llama 3, revisaron el rendimiento del modelo en benchmarks estándar y también buscaron optimizarlo para escenarios reales
- Para ello desarrollaron un nuevo conjunto de evaluación humana de alta calidad que incluye 1,800 prompts y cubre 12 casos de uso clave
- Este conjunto de evaluación mostró que el modelo de 70B ajustado para seguimiento de instrucciones ofrece un rendimiento sólido frente a modelos competidores de tamaño similar en escenarios reales
- El modelo preentrenado también alcanzó un nuevo estado del arte en esa escala para modelos LLM
- Consideran que la innovación, la escalabilidad y la optimización de la simplicidad son esenciales para desarrollar un gran modelo de lenguaje
- A lo largo de todo el proyecto Llama 3 adoptaron esta filosofía de diseño enfocándose en cuatro elementos clave: arquitectura del modelo, datos de preentrenamiento, escalado del preentrenamiento y ajuste con instrucciones
Arquitectura del modelo
- En Llama 3 eligieron una arquitectura de transformador relativamente estándar, solo decodificador
- Hay varias mejoras importantes frente a Llama 2
- Llama 3 usa un tokenizador con un vocabulario de 128K tokens que codifica el lenguaje de forma mucho más eficiente, lo que mejora significativamente el rendimiento del modelo
- Para mejorar la eficiencia de inferencia de los modelos Llama 3, adoptaron grouped query attention (GQA) tanto en el tamaño 8B como en 70B
- Entrenaron el modelo con secuencias de 8,192 tokens usando una máscara para evitar que la self-attention cruce los límites del documento
Datos de entrenamiento
- Para entrenar el mejor modelo de lenguaje, lo más importante es la curación de un dataset de entrenamiento grande y de alta calidad
- Llama 3 fue preentrenado con más de 15T tokens recolectados de fuentes disponibles públicamente
- El dataset de entrenamiento es 7 veces más grande que el usado en Llama 2 e incluye 4 veces más código
- Para prepararse para futuros casos de uso multilingües, más del 5% del dataset de preentrenamiento de Llama 3 está compuesto por datos de alta calidad en idiomas distintos del inglés, cubriendo más de 30 idiomas
Escalado del preentrenamiento
- Invirtieron un esfuerzo considerable en escalar el preentrenamiento para aprovechar eficazmente los datos de preentrenamiento en los modelos Llama 3
- En particular, desarrollaron una serie de leyes de escalado detalladas para evaluar benchmarks downstream
- Estas leyes de escalado les permiten tomar decisiones informadas sobre cómo elegir la mezcla de datos óptima y cómo usar de la mejor manera el cómputo de entrenamiento
Ajuste con instrucciones
- Para aprovechar por completo el potencial del modelo preentrenado en casos de uso de chat, también innovaron en su enfoque de ajuste con instrucciones
- Su enfoque de posentrenamiento combina supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) y direct policy optimization (DPO)
- La calidad de los prompts usados en SFT y los rankings de preferencias usados en PPO y DPO influyen de manera excesiva en el rendimiento del modelo alineado
Construir con Llama 3
- La visión de Meta es permitir que los desarrolladores personalicen Llama 3 para soportar casos de uso relevantes, adoptar buenas prácticas con facilidad y mejorar el ecosistema abierto
- En esta versión introducen nuevas herramientas de confianza y seguridad, incluidos componentes actualizados junto con Llama Guard 2 y Cybersec Eval 2, así como Code Shield, una barrera de seguridad en tiempo de inferencia para filtrar código inseguro generado por LLM
- También desarrollaron Llama 3 junto con torchtune, una nueva biblioteca nativa de PyTorch que facilita crear, ajustar y experimentar con LLM
Enfoque a nivel sistema para desarrollo y despliegue responsables
- Los modelos Llama 3 fueron diseñados para ser lo más útiles posible y al mismo tiempo garantizar un enfoque de despliegue responsable de nivel líder en la industria
- Para ello adoptaron un nuevo enfoque a nivel sistema para el desarrollo y despliegue responsables de Llama
- Consideran los modelos Llama como elementos base de sistemas que los desarrolladores diseñan teniendo en mente objetivos finales únicos
- El ajuste con instrucciones juega un papel importante para garantizar la seguridad del modelo
- Los modelos ajustados con instrucciones pasan por pruebas de red teaming de seguridad mediante esfuerzos internos y externos
- Estos esfuerzos son iterativos y se utilizan para afinar la seguridad de los modelos lanzados
- Los modelos Llama Guard sirven como base para la seguridad de prompts y respuestas, y permiten crear fácilmente nuevas clasificaciones según los requisitos de la aplicación
- El nuevo Llama Guard 2 usa la taxonomía de MLCommons anunciada recientemente para dar soporte a estándares de la industria
- CyberSecEval 2 amplía la versión anterior añadiendo mediciones sobre la propensión de los LLM a explotar intérpretes de código, capacidades ofensivas de ciberseguridad y vulnerabilidad a ataques de prompt injection
- Code Shield admite filtrado en tiempo de inferencia para código inseguro generado por LLM, mitigando riesgos relacionados con sugerencias de código inseguro, prevención de explotación de intérpretes de código y ejecución de comandos sensibles
Despliegue a gran escala de Llama 3
- Llama 3 pronto estará disponible en plataformas clave, incluidos proveedores de nube y proveedores de API de modelos
- Según los benchmarks, el tokenizador genera hasta 15% menos tokens que en Llama 2, mejorando la eficiencia de tokens
- Además, grouped query attention (GQA) también se añadió a Llama 3 8B
Próximos planes para Llama 3
- Los modelos Llama 3 8B y 70B son solo el inicio del plan de lanzamiento de Llama 3
- En los próximos meses planean lanzar varios modelos con nuevas capacidades, incluyendo multimodalidad, conversación multilingüe, ventanas de contexto mucho más largas y capacidades más potentes en general
- Cuando el entrenamiento de Llama 3 concluya, también publicarán un paper de investigación detallado
2 comentarios
Por lo pronto no sé sobre otras nubes, pero en Azure AI Studio ya aparecen junto con Mixtral 8x22B los modelos Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct).