Eagle 7B - El modelo que superó a los Transformers

Modelo de 7.52B parámetros basado en la arquitectura RWKV-v5
El modelo 7B más ecológico del mundo, con bajo costo por token
Entrenado con 1.1 billones de tokens en más de 100 idiomas
Supera a todos los modelos de la clase 7B en benchmarks multilingües
En evaluaciones en inglés, se acerca al nivel de rendimiento de Falcon (1.5T), LLaMA2 (2T) y Mistral (>2T?)
Es un modelo fundacional con un ajuste de instrucciones muy pequeño, por lo que requiere fine-tuning para distintos casos de uso
Un transformer sin necesidad de Attention
Bajo licencia Apache 2.0, se puede usar sin restricciones para fines personales o comerciales

Detalles del rendimiento multilingüe

El rendimiento multilingüe se evaluó en un total de 23 idiomas mediante xLAMBDA, xStoryCloze, xWinograd, xCopa y otros.
Estos benchmarks abordan el razonamiento de sentido común en cada idioma.
Al pasar de la arquitectura RWKV v4 a v5, el rendimiento multilingüe mejoró considerablemente.
Debido a la falta de benchmarks multilingües, es difícil evaluar directamente el rendimiento lingüístico del modelo en los más de 75 idiomas restantes entre los más de 100 idiomas con los que fue entrenado.

El rendimiento en inglés se midió mediante 12 benchmarks independientes que cubren razonamiento de sentido común y conocimiento del mundo.
Al pasar de la arquitectura RWKV v4 a v5, el rendimiento en inglés mejoró considerablemente.
El modelo v5 se alinea con el nivel de rendimiento esperado de un transformer para la cantidad de tokens de entrenamiento dada.
Se espera que con 1 billón adicional de tokens de entrenamiento alcance el nivel de LLaMA2 y se acerque al de Mistral.

El checkpoint en el punto de 300 mil millones de tokens muestra un rendimiento similar a pythia-6.9b.
De forma consistente con experimentos previos en la arquitectura RWKV-v4, transformers lineales como RWKV escalan a un nivel de rendimiento similar al de los transformers cuando se entrenan con la misma cantidad de tokens.
Se vuelve a plantear la pregunta de si, para el rendimiento en evaluación de modelos, los datos son más importantes que la arquitectura exacta.
Al comparar el costo computacional en CUDA entre arquitecturas basadas en RWKV y modelos transformer, importa la escalabilidad lineal frente a la cuadrática.

Un comentario común sobre el enfoque multilingüe de RWKV es que afecta las puntuaciones en evaluaciones en inglés y ralentiza el avance de los transformers lineales.
Sin embargo, el equipo de RWKV no tiene planes de cambiar este enfoque y quiere construir IA para todo el mundo, no para un mundo que usa solo inglés.
En 2023, solo el 17% de la población mundial hablaba inglés.
Al dar soporte a los 25 idiomas principales y más allá, es posible cubrir a aproximadamente 4 mil millones de personas, es decir, al 50% de la población mundial.
El equipo de RWKV busca ampliar el dataset multilingüe y aumentar los idiomas soportados para cubrir al 100% de la población mundial.

Este lanzamiento marca el transformer lineal más potente hasta la fecha.
Aunque no superó a LLaMA2 ni a Mistral, demuestra que la arquitectura de modelos RWKV-v5 escala de forma comparable al rendimiento de los transformers con una cantidad similar de tokens.
En febrero de 2024 planean publicar un paper actualizado sobre RWKV v5, y en marzo lanzar un modelo MoE basado en v5 Eagle 2T junto con los modelos world RWKV-v6 "Finch" de 1.5B y 3B.

Agradecen a StabilityAI por proporcionar la mayor parte del cómputo para entrenar este modelo base.
Agradecen a EleutherAI por el apoyo constante durante el proceso de redacción del paper.
Agradecen al grupo Linux Foundation AI & Data por apoyar y alojar el proyecto RWKV.

Eagle 7B es un modelo transformer lineal que soporta diversos idiomas y ofrece alto rendimiento con un costo eficiente.
Este modelo puede contribuir a mejorar la accesibilidad de la IA y a reducir su impacto ambiental.
El equipo de RWKV tiene una visión clara de avanzar la tecnología hacia una IA que apoye a todas las personas del mundo e incluya todos los idiomas.