Presentan los modelos RedPajama 3B y 7B

xguru · 2023-05-08T10:01:01+09:00

Un proyecto para crear un modelo de lenguaje completamente abierto Presentan los modelos RedPajama-INCITE de 3B (completado) y 7B (vista previa) de parámetros, basados en el dataset RedPajama-Data-1T publicado hace 3 semanas Modelo Base Modelo ajustado con instrucciones Modelo de chat El modelo 3B es el más potente de su categoría. Su tamaño reducido lo hace rápido y puede ejecutarse incluso en hardware como una RTX 2070 lanzada hace 5 años La versión 7B ajustada con instrucciones obtiene 3 puntos más que LLaMA 7B en el benchmark HELM El modelo 7B (con 80% del entrenamiento completado) ya supera al modelo Pythia 7B Cuando el entrenamiento del 7B termine en unas semanas, superará a LLaMA 7B El modelo 3B se estabilizó con 800 mil millones de tokens, y el modelo 7B está terminando su entrenamiento con 1 billón de tokens mientras sigue mejorando

(together.xyz)

7 puntos por xguru 2023-05-08 | 2 comentarios | Compartir por WhatsApp

Un proyecto para crear un modelo de lenguaje completamente abierto
Presentan los modelos RedPajama-INCITE de 3B (completado) y 7B (vista previa) de parámetros, basados en el dataset RedPajama-Data-1T publicado hace 3 semanas
- Modelo Base
- Modelo ajustado con instrucciones
- Modelo de chat
El modelo 3B es el más potente de su categoría. Su tamaño reducido lo hace rápido y puede ejecutarse incluso en hardware como una RTX 2070 lanzada hace 5 años
La versión 7B ajustada con instrucciones obtiene 3 puntos más que LLaMA 7B en el benchmark HELM
El modelo 7B (con 80% del entrenamiento completado) ya supera al modelo Pythia 7B
Cuando el entrenamiento del 7B termine en unas semanas, superará a LLaMA 7B
El modelo 3B se estabilizó con 800 mil millones de tokens, y el modelo 7B está terminando su entrenamiento con 1 billón de tokens mientras sigue mejorando

2 comentarios

coremaker 2023-05-08

Es un hecho importante para la investigación y el avance de la IA,
pero es muy probable que este tipo de modelos no presenten soluciones para las partes problemáticas cuando se usan comercialmente.
En el ámbito comercial, parece que necesariamente tendría que acompañarse de trabajo como ajustar el modelo o contar con filtros adicionales, además de usar el modelo.

xguru 2023-05-08

RedPajama - Proyecto de código abierto para recrear el dataset de LLaMA

Presentan los modelos RedPajama 3B y 7B

Lecturas relacionadas

2 comentarios