RedPajama lanza un modelo 7B con mejor rendimiento que otros modelos LLM abiertos de 7B en el benchmark HELM
(together.xyz)Introducción a los 3 modelos RedPajama-INCITE-7B
- Se publicaron 3 modelos de 7B, incluido RedPajama-INCITE-7B-Instruct, que según el benchmark HELM supera a los modelos abiertos de 7B publicados anteriormente.
Modelo RedPajama-INCITE-7B-Instruct
- Versión ajustada con Instruct del modelo existente
- Entrenado usando P3 (BigScience) y Natural Instruction (AI2)
- El modelo abierto con la puntuación más alta en el benchmark HELM, ideal para diversas tareas
Modelo RedPajama-INCITE-7B-Chat
- Entrenado usando únicamente datos open source como Dolly2 y OASST ➡️ apto para uso comercial
- (+ No solo el modelo Chat, sino toda la familia RedPajama-INCITE puede usarse comercialmente)
- Publicado junto con scripts de entrenamiento para fine-tuning :arrow_forward: se puede usar de inmediato en OpenChatKit
- Compatible con RedPajama.cpp (un fork de LLaMA.cpp) - puede ejecutarse en CPU
- Colaboración con proyectos como MLC LLM ➡️ en el futuro buscarán hacerlo funcionar en distintos tipos de hardware
Modelo RedPajama-INCITE-7B-Base
- Usa la misma arquitectura que el modelo Pythia de EleutherAI y fue entrenado con el dataset RedPajama-Data-1T
- Disponible para descarga en 🤗HuggingFace como togethercomputer/RedPajama-INCITE-7B-Base
- Según el benchmark HELM, su rendimiento es 4 puntos inferior a LLaMA-7B y alrededor de 1.3 puntos inferior a Falcon-7B/MPT-7B
- Solo muestra menor rendimiento en tareas que calculan la diferencia de probabilidad entre respuestas correctas e incorrectas usando logprob
- En tareas donde genera respuestas directamente y se mide la calidad, muestra un rendimiento similar
- Como los resultados de LM Harness también usan logprob, muestran un rendimiento bajo de forma similar
Planes a futuro (RedPajama2)
- Están desarrollando un nuevo dataset de 2~3T tokens, RedPajama2, con planes como los siguientes:
- Planean equilibrar la mezcla de datos usando técnicas como DoReMi
- Usarán datos como Pile v1 de Eleuther.ai y Pile v2 de CarperAI para complementar diversidad y tamaño
- Procesamiento de una mayor cantidad de datos de CommonCrawl
- Explorar distintas estrategias de deduplicación de datos más allá del enfoque del paper de LLaMA
- Agregar más de 150B tokens de código para mejorar la calidad en tareas de programación y razonamiento
3 comentarios
Ups... había un error tipográfico en el título T_T
@xguru, ¿podrías cambiar "HEML" por "HELM" en el título, por favor? T_T
¡Ya lo corregí!
Leer más