6 puntos por GN⁺ 2024-01-30 | 2 comentarios | Compartir por WhatsApp
  • Modelo de 7.52B parámetros basado en la arquitectura RWKV-v5
  • El modelo 7B más ecológico del mundo, con bajo costo por token
  • Entrenado con 1.1 billones de tokens en más de 100 idiomas
  • Supera a todos los modelos de la clase 7B en benchmarks multilingües
  • En evaluaciones en inglés, se acerca al nivel de rendimiento de Falcon (1.5T), LLaMA2 (2T) y Mistral (>2T?)
  • Es un modelo fundacional con un ajuste de instrucciones muy pequeño, por lo que requiere fine-tuning para distintos casos de uso
  • Un transformer sin necesidad de Attention
  • Bajo licencia Apache 2.0, se puede usar sin restricciones para fines personales o comerciales

Detalles del rendimiento multilingüe

  • El rendimiento multilingüe se evaluó en un total de 23 idiomas mediante xLAMBDA, xStoryCloze, xWinograd, xCopa y otros.
  • Estos benchmarks abordan el razonamiento de sentido común en cada idioma.
  • Al pasar de la arquitectura RWKV v4 a v5, el rendimiento multilingüe mejoró considerablemente.
  • Debido a la falta de benchmarks multilingües, es difícil evaluar directamente el rendimiento lingüístico del modelo en los más de 75 idiomas restantes entre los más de 100 idiomas con los que fue entrenado.

Detalles del rendimiento en inglés

  • El rendimiento en inglés se midió mediante 12 benchmarks independientes que cubren razonamiento de sentido común y conocimiento del mundo.
  • Al pasar de la arquitectura RWKV v4 a v5, el rendimiento en inglés mejoró considerablemente.
  • El modelo v5 se alinea con el nivel de rendimiento esperado de un transformer para la cantidad de tokens de entrenamiento dada.
  • Se espera que con 1 billón adicional de tokens de entrenamiento alcance el nivel de LLaMA2 y se acerque al de Mistral.

Buen dataset + arquitectura escalable: ¿lo necesitamos todos?

  • El checkpoint en el punto de 300 mil millones de tokens muestra un rendimiento similar a pythia-6.9b.
  • De forma consistente con experimentos previos en la arquitectura RWKV-v4, transformers lineales como RWKV escalan a un nivel de rendimiento similar al de los transformers cuando se entrenan con la misma cantidad de tokens.
  • Se vuelve a plantear la pregunta de si, para el rendimiento en evaluación de modelos, los datos son más importantes que la arquitectura exacta.
  • Al comparar el costo computacional en CUDA entre arquitecturas basadas en RWKV y modelos transformer, importa la escalabilidad lineal frente a la cuadrática.

Construyendo una IA inclusiva para todos, no solo en inglés

  • Un comentario común sobre el enfoque multilingüe de RWKV es que afecta las puntuaciones en evaluaciones en inglés y ralentiza el avance de los transformers lineales.
  • Sin embargo, el equipo de RWKV no tiene planes de cambiar este enfoque y quiere construir IA para todo el mundo, no para un mundo que usa solo inglés.
  • En 2023, solo el 17% de la población mundial hablaba inglés.
  • Al dar soporte a los 25 idiomas principales y más allá, es posible cubrir a aproximadamente 4 mil millones de personas, es decir, al 50% de la población mundial.
  • El equipo de RWKV busca ampliar el dataset multilingüe y aumentar los idiomas soportados para cubrir al 100% de la población mundial.

Planes futuros

  • Este lanzamiento marca el transformer lineal más potente hasta la fecha.
  • Aunque no superó a LLaMA2 ni a Mistral, demuestra que la arquitectura de modelos RWKV-v5 escala de forma comparable al rendimiento de los transformers con una cantidad similar de tokens.
  • En febrero de 2024 planean publicar un paper actualizado sobre RWKV v5, y en marzo lanzar un modelo MoE basado en v5 Eagle 2T junto con los modelos world RWKV-v6 "Finch" de 1.5B y 3B.

Agradecimientos

  • Agradecen a StabilityAI por proporcionar la mayor parte del cómputo para entrenar este modelo base.
  • Agradecen a EleutherAI por el apoyo constante durante el proceso de redacción del paper.
  • Agradecen al grupo Linux Foundation AI & Data por apoyar y alojar el proyecto RWKV.

Opinión de GN⁺:

  • Eagle 7B es un modelo transformer lineal que soporta diversos idiomas y ofrece alto rendimiento con un costo eficiente.
  • Este modelo puede contribuir a mejorar la accesibilidad de la IA y a reducir su impacto ambiental.
  • El equipo de RWKV tiene una visión clara de avanzar la tecnología hacia una IA que apoye a todas las personas del mundo e incluya todos los idiomas.

2 comentarios

 
cosine20 2024-01-31

Anoche probé la demo un momento y era bastante rápida, además daba buenos resultados. También reconoció y respondió de forma natural en coreano y japonés.

 
GN⁺ 2024-01-30
Comentarios de Hacker News
  • Es interesante ver avances en arquitecturas alternativas de LLM (modelos de lenguaje grandes), pero es una lástima que el artículo solo trate la calidad del modelo

    • El artículo termina de forma abrupta, así que falta motivación para adoptar la nueva arquitectura
    • Hace falta una discusión sobre rendimiento y tamaño de contexto
    • Decepciona que el artículo no mencione el contexto
    • Reutilizaron la gráfica de RWKV-4, pero no queda claro qué muestra
  • La arquitectura del modelo, ya sea Transformer, Mamba, SSM o RWKV, no es lo más importante; el impacto del conjunto de datos de entrenamiento importa más

    • Los datos de lenguaje son un depósito de la experiencia humana, y que la IA adquiera diversas capacidades a través de ellos sugiere que la inteligencia no está limitada solo al cerebro
  • RWKV-v5 Eagle 7B fue liberado bajo licencia Apache 2.0, así que puede usarse sin restricciones para fines personales o comerciales

    • Es positivo que el equipo haya establecido los incentivos correctos para pruebas y adopción
  • Actualmente el enfoque está puesto principalmente en modelos de predicción del siguiente token solo de decodificador

    • Los codificadores de BERT y T5 siguen siendo útiles para generar embeddings para tareas de búsqueda o clasificación
    • Hace falta más investigación sobre mejores arquitecturas de preentrenamiento para casos de uso de embeddings
  • Se pide una explicación de cómo se compara el modelo RWKV con los modelos Transformer comunes y cómo deben interpretarse los benchmarks

    • Parece mostrar un rendimiento similar a Mistral 7B/mistral-tiny
  • No está clara la información sobre la cantidad de RAM necesaria ni la velocidad de procesamiento de tokens cuando se usa solo CPU

  • Se sugiere consultar a un miembro del proyecto que está respondiendo preguntas en Reddit

    • Se proporciona el enlace de ese usuario de Reddit
  • Si quieres probar el modelo RWKV pero no quieres esperar, se recomienda usar rwkv-demo-api.recursal.ai

  • Se expresa expectativa por el modelo MoE v5 Eagle 2T basado en marzo de 2024

    • Se espera un equilibrio entre rendimiento y costo ambiental/por token
    • También se esperan mejoras en los idiomas escandinavos, aunque habrá que ver los resultados
    • Reconocer el valor de los datos de entrenamiento y la estructura y equilibrio del contenido para un entrenamiento óptimo traerá la verdadera revolución
  • En experimentos con RWKV-4, se observó que la velocidad de inferencia es rápida, pero la tokenización es muy lenta

    • Se necesitan directrices concretas para RWKV-5