15 puntos por ninebow 2023-06-07 | 3 comentarios | Compartir por WhatsApp

Introducción a los 3 modelos RedPajama-INCITE-7B

  • Se publicaron 3 modelos de 7B, incluido RedPajama-INCITE-7B-Instruct, que según el benchmark HELM supera a los modelos abiertos de 7B publicados anteriormente.

Modelo RedPajama-INCITE-7B-Instruct

  • Versión ajustada con Instruct del modelo existente
  • Entrenado usando P3 (BigScience) y Natural Instruction (AI2)
  • El modelo abierto con la puntuación más alta en el benchmark HELM, ideal para diversas tareas

Modelo RedPajama-INCITE-7B-Chat

  • Entrenado usando únicamente datos open source como Dolly2 y OASST ➡️ apto para uso comercial
    • (+ No solo el modelo Chat, sino toda la familia RedPajama-INCITE puede usarse comercialmente)
  • Publicado junto con scripts de entrenamiento para fine-tuning :arrow_forward: se puede usar de inmediato en OpenChatKit
  • Compatible con RedPajama.cpp (un fork de LLaMA.cpp) - puede ejecutarse en CPU
  • Colaboración con proyectos como MLC LLM ➡️ en el futuro buscarán hacerlo funcionar en distintos tipos de hardware

Modelo RedPajama-INCITE-7B-Base

  • Usa la misma arquitectura que el modelo Pythia de EleutherAI y fue entrenado con el dataset RedPajama-Data-1T
  • Disponible para descarga en 🤗HuggingFace como togethercomputer/RedPajama-INCITE-7B-Base
  • Según el benchmark HELM, su rendimiento es 4 puntos inferior a LLaMA-7B y alrededor de 1.3 puntos inferior a Falcon-7B/MPT-7B
    • Solo muestra menor rendimiento en tareas que calculan la diferencia de probabilidad entre respuestas correctas e incorrectas usando logprob
    • En tareas donde genera respuestas directamente y se mide la calidad, muestra un rendimiento similar
    • Como los resultados de LM Harness también usan logprob, muestran un rendimiento bajo de forma similar

Planes a futuro (RedPajama2)

  • Están desarrollando un nuevo dataset de 2~3T tokens, RedPajama2, con planes como los siguientes:
    • Planean equilibrar la mezcla de datos usando técnicas como DoReMi
    • Usarán datos como Pile v1 de Eleuther.ai y Pile v2 de CarperAI para complementar diversidad y tamaño
    • Procesamiento de una mayor cantidad de datos de CommonCrawl
    • Explorar distintas estrategias de deduplicación de datos más allá del enfoque del paper de LLaMA
    • Agregar más de 150B tokens de código para mejorar la calidad en tareas de programación y razonamiento