22 puntos por xguru 2024-04-19 | 2 comentarios | Compartir por WhatsApp
  • Se presentan los dos primeros modelos de Llama 3 (modelos 8B y 70B preentrenados y ajustados con instrucciones)
  • Muestran rendimiento de vanguardia en una amplia gama de benchmarks de la industria y ofrecen nuevas capacidades, como mejor razonamiento
  • El objetivo es construir el mejor modelo abierto, al nivel de los mejores modelos propietarios disponibles actualmente. Buscan incorporar la retroalimentación de desarrolladores y lanzar versiones rápidas y frecuentes
  • Se introducen nuevas herramientas de confianza y seguridad como Llama Guard 2, Code Shield y CyberSec Eval 2
  • En los próximos meses planean introducir nuevas capacidades, ventanas de contexto más largas, tamaños de modelo adicionales y mejor rendimiento, además de compartir el paper de investigación de Llama 3
  • Pronto estará disponible en AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake y más; además será compatible con plataformas de hardware de AMD, AWS, Dell, Intel, NVIDIA y Qualcomm
  • Meta AI, construido con la tecnología de Llama 3, ahora es uno de los asistentes de IA de mayor nivel en el mundo y puede aumentar la inteligencia del usuario y reducir su carga

Rendimiento de Llama 3

  • Los modelos Llama 3 de 8B y 70B parámetros representan un gran salto frente a Llama 2 y establecen un nuevo nivel máximo para modelos LLM en esa escala
  • Gracias a mejoras en el preentrenamiento y el posentrenamiento, los modelos preentrenados y ajustados con instrucciones son los mejores existentes en las escalas de 8B y 70B parámetros
  • Las mejoras en el proceso de posentrenamiento reducen considerablemente la tasa de falsos rechazos, mejoran la alineación y aumentan la diversidad de las respuestas del modelo
  • También mejoran mucho capacidades como razonamiento, generación de código y seguimiento de instrucciones, haciendo a Llama 3 más controlable (steerable)
  • Durante el desarrollo de Llama 3, revisaron el rendimiento del modelo en benchmarks estándar y también buscaron optimizarlo para escenarios reales
  • Para ello desarrollaron un nuevo conjunto de evaluación humana de alta calidad que incluye 1,800 prompts y cubre 12 casos de uso clave
  • Este conjunto de evaluación mostró que el modelo de 70B ajustado para seguimiento de instrucciones ofrece un rendimiento sólido frente a modelos competidores de tamaño similar en escenarios reales
  • El modelo preentrenado también alcanzó un nuevo estado del arte en esa escala para modelos LLM
  • Consideran que la innovación, la escalabilidad y la optimización de la simplicidad son esenciales para desarrollar un gran modelo de lenguaje
  • A lo largo de todo el proyecto Llama 3 adoptaron esta filosofía de diseño enfocándose en cuatro elementos clave: arquitectura del modelo, datos de preentrenamiento, escalado del preentrenamiento y ajuste con instrucciones

Arquitectura del modelo

  • En Llama 3 eligieron una arquitectura de transformador relativamente estándar, solo decodificador
  • Hay varias mejoras importantes frente a Llama 2
    • Llama 3 usa un tokenizador con un vocabulario de 128K tokens que codifica el lenguaje de forma mucho más eficiente, lo que mejora significativamente el rendimiento del modelo
    • Para mejorar la eficiencia de inferencia de los modelos Llama 3, adoptaron grouped query attention (GQA) tanto en el tamaño 8B como en 70B
    • Entrenaron el modelo con secuencias de 8,192 tokens usando una máscara para evitar que la self-attention cruce los límites del documento

Datos de entrenamiento

  • Para entrenar el mejor modelo de lenguaje, lo más importante es la curación de un dataset de entrenamiento grande y de alta calidad
  • Llama 3 fue preentrenado con más de 15T tokens recolectados de fuentes disponibles públicamente
  • El dataset de entrenamiento es 7 veces más grande que el usado en Llama 2 e incluye 4 veces más código
  • Para prepararse para futuros casos de uso multilingües, más del 5% del dataset de preentrenamiento de Llama 3 está compuesto por datos de alta calidad en idiomas distintos del inglés, cubriendo más de 30 idiomas

Escalado del preentrenamiento

  • Invirtieron un esfuerzo considerable en escalar el preentrenamiento para aprovechar eficazmente los datos de preentrenamiento en los modelos Llama 3
  • En particular, desarrollaron una serie de leyes de escalado detalladas para evaluar benchmarks downstream
  • Estas leyes de escalado les permiten tomar decisiones informadas sobre cómo elegir la mezcla de datos óptima y cómo usar de la mejor manera el cómputo de entrenamiento

Ajuste con instrucciones

  • Para aprovechar por completo el potencial del modelo preentrenado en casos de uso de chat, también innovaron en su enfoque de ajuste con instrucciones
  • Su enfoque de posentrenamiento combina supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) y direct policy optimization (DPO)
  • La calidad de los prompts usados en SFT y los rankings de preferencias usados en PPO y DPO influyen de manera excesiva en el rendimiento del modelo alineado

Construir con Llama 3

  • La visión de Meta es permitir que los desarrolladores personalicen Llama 3 para soportar casos de uso relevantes, adoptar buenas prácticas con facilidad y mejorar el ecosistema abierto
  • En esta versión introducen nuevas herramientas de confianza y seguridad, incluidos componentes actualizados junto con Llama Guard 2 y Cybersec Eval 2, así como Code Shield, una barrera de seguridad en tiempo de inferencia para filtrar código inseguro generado por LLM
  • También desarrollaron Llama 3 junto con torchtune, una nueva biblioteca nativa de PyTorch que facilita crear, ajustar y experimentar con LLM

Enfoque a nivel sistema para desarrollo y despliegue responsables

  • Los modelos Llama 3 fueron diseñados para ser lo más útiles posible y al mismo tiempo garantizar un enfoque de despliegue responsable de nivel líder en la industria
  • Para ello adoptaron un nuevo enfoque a nivel sistema para el desarrollo y despliegue responsables de Llama
  • Consideran los modelos Llama como elementos base de sistemas que los desarrolladores diseñan teniendo en mente objetivos finales únicos
  • El ajuste con instrucciones juega un papel importante para garantizar la seguridad del modelo
  • Los modelos ajustados con instrucciones pasan por pruebas de red teaming de seguridad mediante esfuerzos internos y externos
  • Estos esfuerzos son iterativos y se utilizan para afinar la seguridad de los modelos lanzados
  • Los modelos Llama Guard sirven como base para la seguridad de prompts y respuestas, y permiten crear fácilmente nuevas clasificaciones según los requisitos de la aplicación
  • El nuevo Llama Guard 2 usa la taxonomía de MLCommons anunciada recientemente para dar soporte a estándares de la industria
  • CyberSecEval 2 amplía la versión anterior añadiendo mediciones sobre la propensión de los LLM a explotar intérpretes de código, capacidades ofensivas de ciberseguridad y vulnerabilidad a ataques de prompt injection
  • Code Shield admite filtrado en tiempo de inferencia para código inseguro generado por LLM, mitigando riesgos relacionados con sugerencias de código inseguro, prevención de explotación de intérpretes de código y ejecución de comandos sensibles

Despliegue a gran escala de Llama 3

  • Llama 3 pronto estará disponible en plataformas clave, incluidos proveedores de nube y proveedores de API de modelos
  • Según los benchmarks, el tokenizador genera hasta 15% menos tokens que en Llama 2, mejorando la eficiencia de tokens
  • Además, grouped query attention (GQA) también se añadió a Llama 3 8B

Próximos planes para Llama 3

  • Los modelos Llama 3 8B y 70B son solo el inicio del plan de lanzamiento de Llama 3
  • En los próximos meses planean lanzar varios modelos con nuevas capacidades, incluyendo multimodalidad, conversación multilingüe, ventanas de contexto mucho más largas y capacidades más potentes en general
  • Cuando el entrenamiento de Llama 3 concluya, también publicarán un paper de investigación detallado

2 comentarios

 
dormis 2024-04-19

Por lo pronto no sé sobre otras nubes, pero en Azure AI Studio ya aparecen junto con Mixtral 8x22B los modelos Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct).