- Un proyecto para crear un modelo de lenguaje completamente abierto
- Presentan los modelos RedPajama-INCITE de 3B (completado) y 7B (vista previa) de parámetros, basados en el dataset RedPajama-Data-1T publicado hace 3 semanas
- Modelo Base
- Modelo ajustado con instrucciones
- Modelo de chat
- El modelo 3B es el más potente de su categoría. Su tamaño reducido lo hace rápido y puede ejecutarse incluso en hardware como una RTX 2070 lanzada hace 5 años
- La versión 7B ajustada con instrucciones obtiene 3 puntos más que LLaMA 7B en el benchmark HELM
- El modelo 7B (con 80% del entrenamiento completado) ya supera al modelo Pythia 7B
- Cuando el entrenamiento del 7B termine en unas semanas, superará a LLaMA 7B
- El modelo 3B se estabilizó con 800 mil millones de tokens, y el modelo 7B está terminando su entrenamiento con 1 billón de tokens mientras sigue mejorando
2 comentarios
Es un hecho importante para la investigación y el avance de la IA,
pero es muy probable que este tipo de modelos no presenten soluciones para las partes problemáticas cuando se usan comercialmente.
En el ámbito comercial, parece que necesariamente tendría que acompañarse de trabajo como ajustar el modelo o contar con filtros adicionales, además de usar el modelo.
RedPajama - Proyecto de código abierto para recrear el dataset de LLaMA