RedPajama lanza un modelo 7B con mejor rendimiento que otros modelos LLM abiertos de 7B en el benchmark HELM

(together.xyz)

15 puntos por ninebow 2023-06-07 | 3 comentarios | Compartir por WhatsApp

Introducción a los 3 modelos RedPajama-INCITE-7B

Se publicaron 3 modelos de 7B, incluido RedPajama-INCITE-7B-Instruct, que según el benchmark HELM supera a los modelos abiertos de 7B publicados anteriormente.

Versión ajustada con Instruct del modelo existente
Entrenado usando P3 (BigScience) y Natural Instruction (AI2)
El modelo abierto con la puntuación más alta en el benchmark HELM, ideal para diversas tareas

Entrenado usando únicamente datos open source como Dolly2 y OASST ➡️ apto para uso comercial
- (+ No solo el modelo Chat, sino toda la familia RedPajama-INCITE puede usarse comercialmente)
Publicado junto con scripts de entrenamiento para fine-tuning :arrow_forward: se puede usar de inmediato en OpenChatKit
Compatible con RedPajama.cpp (un fork de LLaMA.cpp) - puede ejecutarse en CPU
Colaboración con proyectos como MLC LLM ➡️ en el futuro buscarán hacerlo funcionar en distintos tipos de hardware

Usa la misma arquitectura que el modelo Pythia de EleutherAI y fue entrenado con el dataset RedPajama-Data-1T
Disponible para descarga en 🤗HuggingFace como togethercomputer/RedPajama-INCITE-7B-Base
Según el benchmark HELM, su rendimiento es 4 puntos inferior a LLaMA-7B y alrededor de 1.3 puntos inferior a Falcon-7B/MPT-7B
- Solo muestra menor rendimiento en tareas que calculan la diferencia de probabilidad entre respuestas correctas e incorrectas usando logprob
- En tareas donde genera respuestas directamente y se mide la calidad, muestra un rendimiento similar
- Como los resultados de LM Harness también usan logprob, muestran un rendimiento bajo de forma similar

3 comentarios

ninebow 2023-06-07

Ups... había un error tipográfico en el título T_T
@xguru, ¿podrías cambiar "HEML" por "HELM" en el título, por favor? T_T

moderator 2023-06-08

¡Ya lo corregí!

ninebow 2023-06-07