7 puntos por GN⁺ 2024-10-16 | 1 comentarios | Compartir por WhatsApp
  • Zamba2-7B alcanza SOTA en rendimiento de benchmarks de evaluación y eficiencia de inferencia frente a los principales modelos 7B actuales como Mistral-7B, Gemma-7B y Llama3-8B
  • Zamba2-7B genera el primer token un 25% más rápido, mejora en un 20% los tokens por segundo y reduce de forma importante el uso de memoria frente a modelos como Llama3-8B, mostrando una eficiencia de inferencia sobresaliente

Mejoras de arquitectura de Zamba2-7B frente a Zamba1-7B

  • Los bloques Mamba1 fueron reemplazados por bloques Mamba2
  • En lugar de un solo bloque de atención compartido, se usan 2 bloques de atención compartidos intercalados en patrón ABAB a lo largo de toda la red
  • Se aplican proyectores LoRA a cada bloque MLP compartido, lo que permite especializar el MLP en cada llamada a la capa compartida según la profundidad
  • Los pesos del modelo se publicaron como open source bajo licencia Apache 2.0

Rendimiento de Zamba2-7B en conjuntos de evaluación de modelado de lenguaje

  • Zamba2 muestra un rendimiento muy destacado en los conjuntos estándar de evaluación de modelado de lenguaje al considerar latencia y velocidad de generación
  • Lidera entre los modelos de lenguaje pequeños de hasta 8B tanto en calidad como en rendimiento

Por qué Zamba2-7B supera a los modelos SOTA existentes

  1. La nueva arquitectura de atención compartida permite asignar más parámetros al backbone Mamba2. Los bloques Transformer compartidos preservan las ricas dependencias entre secuencias de las operaciones de atención
  2. El conjunto de datos de preentrenamiento de 3 billones de tokens se compone de Zyda y una combinación de datasets públicos filtrados y deduplicados de forma agresiva, logrando la mayor calidad frente a los principales datasets open source de preentrenamiento existentes
  3. En una fase separada de preentrenamiento de "annealing", la tasa de aprendizaje se reduce bruscamente a lo largo de 100 mil millones de tokens de alta calidad. El conjunto de annealing se recopila de diversas fuentes de alta calidad y su calidad se controla de forma estricta

Gracias a la excelente calidad de los datasets de preentrenamiento y annealing, Zamba2-7B ofrece un rendimiento por token de entrenamiento muy sobresaliente y se ubica cómodamente muy por encima de la curva trazada por los modelos competidores

Arquitectura híbrida SSM-atención de Zamba

  • Zamba2-7B aprovecha y amplía la arquitectura híbrida SSM-atención original de Zamba
  • La arquitectura central de Zamba está compuesta por un backbone de capas Mamba intercaladas con una o más capas de atención compartida (Zamba1 usa 1, Zamba2 usa 2 atenciones compartidas)
  • Esta atención tiene pesos compartidos para minimizar el costo de parámetros del modelo
  • Conectar los embeddings originales del modelo de entrada a estos bloques de atención parece mejorar la retención de información a lo largo de la profundidad y mejorar el rendimiento
  • La arquitectura Zamba2 gana capacidad de representación adicional al aplicar matrices de proyección LoRA a los MLP compartidos, permitiendo que cada bloque se especialice ligeramente en su posición única mientras mantiene una pequeña sobrecarga de parámetros

Factores para lograr eficiencia de inferencia SOTA

  1. Los bloques Mamba2 son muy eficientes y ofrecen aproximadamente 4 veces el throughput de bloques Transformer con la misma cantidad de parámetros
  2. Los bloques Mamba solo necesitan almacenar un estado oculto pequeño y no requieren KV-cache, por lo que solo es necesario guardar el estado KV para las llamadas a los bloques de atención compartida
  3. El tamaño del modelo fue elegido para adaptarse muy bien a la paralelización en hardware moderno (por ejemplo, múltiples streaming multiprocessors en GPU o múltiples núcleos en CPU)

Entrenamiento y publicación de Zamba2-7B

  • Zamba2-7B fue entrenado durante unos 50 días en 128 GPUs H100 usando un framework interno de entrenamiento desarrollado sobre Megatron-LM
  • Zamba2-7B demuestra que, a escala 7B, incluso equipos pequeños y con presupuesto razonable pueden alcanzar y superar el estado del arte
  • Se publica bajo una licencia open source para que investigadores, desarrolladores y empresas puedan aprovechar sus capacidades
  • Esperan que la comunidad de IA explore la arquitectura única de Zamba y siga empujando los límites de los modelos fundacionales eficientes

Modelos Zamba2-7B publicados:

La visión de Zyphra

  • El equipo de Zyphra está comprometido con democratizar los sistemas avanzados de IA, explorar nuevas arquitecturas en la frontera del rendimiento y avanzar en la investigación científica y la comprensión de modelos potentes
  • Esperan colaborar con otras personas que compartan esta visión

Opinión de GN⁺

  • Que Zyphra haya publicado Zamba2 como open source tiene un gran significado. Esto contribuirá a la democratización de la tecnología de IA al permitir que cualquiera use e investigue gratis modelos de lenguaje de última generación
  • La nueva arquitectura de Zamba2 plantea una dirección para superar las limitaciones de los modelos existentes basados en Transformer y crear modelos de lenguaje más eficientes. Ideas únicas de Zamba, como la atención compartida y las proyecciones LoRA, probablemente inspirarán futuras investigaciones en modelos de lenguaje
  • También es alentador que incluso equipos medianos o pequeños puedan crear modelos de lenguaje de gran escala con rendimiento SOTA aprovechando hardware moderno. Se espera que el desarrollo de modelos fundacionales se vuelva aún más activo con la participación de organizaciones diversas
  • Habrá que observar cómo se desempeña Zamba2 en aplicaciones reales. Un puntaje sobresaliente en benchmarks no se traduce automáticamente en tareas del mundo real. Será importante que profesionales de distintos campos prueben Zamba2 y compartan sus ventajas y desventajas

1 comentarios

 
GN⁺ 2024-10-16
Comentarios en Hacker News
  • Comparten enlaces para quienes buscan los pesos que no estaban vinculados en el artículo

  • Se preguntan si la mejora en rendimiento se debe a mejoras en el dataset o a la arquitectura. Sería un experimento costoso

  • Hay cansancio con los lanzamientos de LLM que usan benchmarks de forma selectiva. Quieren comparaciones con los SOTA qwen2.5/phi3.5

    • Preguntan si alguien conoce un leaderboard independiente reciente. Lmsys y livebench se saltan la mayoría de los modelos importantes recientes
  • Es bueno ver más modelos con licencia Apache, especialmente junto con arquitecturas diversas

  • En comparación con la cantidad de trabajo teórico sobre bloques Mamba2, la mejora de rendimiento parece muy marginal

    • La atención (attention) sigue siendo importante
  • Al usar dos cabezas de atención, se preguntan si cada una se enfoca en aspectos distintos de los datos

    • En investigación sobre memoria existe el concepto de representación dual de los eventos. Una es una representación más precisa y la otra está más ponderada por el contexto
    • En los LLM se puede imaginar un sistema donde una cabeza de atención se concentre en representaciones exactas y otra en información más general. Pero no conocen lo suficiente sobre LLM como para saber si esto es solo una analogía simplista
  • Se preguntan qué tiene de especial 7B. Por qué no 8B, 9B o 11.234B. También si 7B se interpreta como una potencia de 2

  • Otro día, otro récord mundial en IA

    • Les recuerda a Sergey Bubka, quien rompió 35 veces el récord mundial masculino de salto con garrocha
  • Preguntan si alguien tiene idea de qué idiomas soporta este modelo