- Modelo de 7.52B parámetros basado en la arquitectura RWKV-v5
- El modelo 7B más ecológico del mundo, con bajo costo por token
- Entrenado con 1.1 billones de tokens en más de 100 idiomas
- Supera a todos los modelos de la clase 7B en benchmarks multilingües
- En evaluaciones en inglés, se acerca al nivel de rendimiento de Falcon (1.5T), LLaMA2 (2T) y Mistral (>2T?)
- Es un modelo fundacional con un ajuste de instrucciones muy pequeño, por lo que requiere fine-tuning para distintos casos de uso
- Un transformer sin necesidad de Attention
- Bajo licencia Apache 2.0, se puede usar sin restricciones para fines personales o comerciales
Detalles del rendimiento multilingüe
- El rendimiento multilingüe se evaluó en un total de 23 idiomas mediante xLAMBDA, xStoryCloze, xWinograd, xCopa y otros.
- Estos benchmarks abordan el razonamiento de sentido común en cada idioma.
- Al pasar de la arquitectura RWKV v4 a v5, el rendimiento multilingüe mejoró considerablemente.
- Debido a la falta de benchmarks multilingües, es difícil evaluar directamente el rendimiento lingüístico del modelo en los más de 75 idiomas restantes entre los más de 100 idiomas con los que fue entrenado.
Detalles del rendimiento en inglés
- El rendimiento en inglés se midió mediante 12 benchmarks independientes que cubren razonamiento de sentido común y conocimiento del mundo.
- Al pasar de la arquitectura RWKV v4 a v5, el rendimiento en inglés mejoró considerablemente.
- El modelo v5 se alinea con el nivel de rendimiento esperado de un transformer para la cantidad de tokens de entrenamiento dada.
- Se espera que con 1 billón adicional de tokens de entrenamiento alcance el nivel de LLaMA2 y se acerque al de Mistral.
Buen dataset + arquitectura escalable: ¿lo necesitamos todos?
- El checkpoint en el punto de 300 mil millones de tokens muestra un rendimiento similar a pythia-6.9b.
- De forma consistente con experimentos previos en la arquitectura RWKV-v4, transformers lineales como RWKV escalan a un nivel de rendimiento similar al de los transformers cuando se entrenan con la misma cantidad de tokens.
- Se vuelve a plantear la pregunta de si, para el rendimiento en evaluación de modelos, los datos son más importantes que la arquitectura exacta.
- Al comparar el costo computacional en CUDA entre arquitecturas basadas en RWKV y modelos transformer, importa la escalabilidad lineal frente a la cuadrática.
Construyendo una IA inclusiva para todos, no solo en inglés
- Un comentario común sobre el enfoque multilingüe de RWKV es que afecta las puntuaciones en evaluaciones en inglés y ralentiza el avance de los transformers lineales.
- Sin embargo, el equipo de RWKV no tiene planes de cambiar este enfoque y quiere construir IA para todo el mundo, no para un mundo que usa solo inglés.
- En 2023, solo el 17% de la población mundial hablaba inglés.
- Al dar soporte a los 25 idiomas principales y más allá, es posible cubrir a aproximadamente 4 mil millones de personas, es decir, al 50% de la población mundial.
- El equipo de RWKV busca ampliar el dataset multilingüe y aumentar los idiomas soportados para cubrir al 100% de la población mundial.
Planes futuros
- Este lanzamiento marca el transformer lineal más potente hasta la fecha.
- Aunque no superó a LLaMA2 ni a Mistral, demuestra que la arquitectura de modelos RWKV-v5 escala de forma comparable al rendimiento de los transformers con una cantidad similar de tokens.
- En febrero de 2024 planean publicar un paper actualizado sobre RWKV v5, y en marzo lanzar un modelo MoE basado en v5 Eagle 2T junto con los modelos world RWKV-v6 "Finch" de 1.5B y 3B.
Agradecimientos
- Agradecen a StabilityAI por proporcionar la mayor parte del cómputo para entrenar este modelo base.
- Agradecen a EleutherAI por el apoyo constante durante el proceso de redacción del paper.
- Agradecen al grupo Linux Foundation AI & Data por apoyar y alojar el proyecto RWKV.
Opinión de GN⁺:
- Eagle 7B es un modelo transformer lineal que soporta diversos idiomas y ofrece alto rendimiento con un costo eficiente.
- Este modelo puede contribuir a mejorar la accesibilidad de la IA y a reducir su impacto ambiental.
- El equipo de RWKV tiene una visión clara de avanzar la tecnología hacia una IA que apoye a todas las personas del mundo e incluya todos los idiomas.
2 comentarios
Anoche probé la demo un momento y era bastante rápida, además daba buenos resultados. También reconoció y respondió de forma natural en coreano y japonés.
Comentarios de Hacker News
Es interesante ver avances en arquitecturas alternativas de LLM (modelos de lenguaje grandes), pero es una lástima que el artículo solo trate la calidad del modelo
La arquitectura del modelo, ya sea Transformer, Mamba, SSM o RWKV, no es lo más importante; el impacto del conjunto de datos de entrenamiento importa más
RWKV-v5 Eagle 7B fue liberado bajo licencia Apache 2.0, así que puede usarse sin restricciones para fines personales o comerciales
Actualmente el enfoque está puesto principalmente en modelos de predicción del siguiente token solo de decodificador
Se pide una explicación de cómo se compara el modelo RWKV con los modelos Transformer comunes y cómo deben interpretarse los benchmarks
No está clara la información sobre la cantidad de RAM necesaria ni la velocidad de procesamiento de tokens cuando se usa solo CPU
Se sugiere consultar a un miembro del proyecto que está respondiendo preguntas en Reddit
Si quieres probar el modelo RWKV pero no quieres esperar, se recomienda usar rwkv-demo-api.recursal.ai
Se expresa expectativa por el modelo MoE v5 Eagle 2T basado en marzo de 2024
En experimentos con RWKV-4, se observó que la velocidad de inferencia es rápida, pero la tokenización es muy lenta