StableLM presentado: el modelo de lenguaje abierto de Stability AI

xguru · 2023-04-20T11:22:02+09:00

Se presentaron los modelos 3B/7B, también está previsto publicar los modelos 15B/30B/65B y hay planes de llegar hasta 175B Los modelos usan la licencia CC BY-SA-4.0 y permiten uso comercial con atribución de la fuente Está basado en el dataset abierto The Pile, pero fue entrenado con un nuevo dataset 3 veces más grande, con 1.5T tokens La longitud de contexto es de 4096 tokens También se presentó como PoC el modelo StableLM-Tuned-Alpha-7B, ajustado siguiendo el procedimiento de Alpaca Usa 5 datasets conversacionales: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH La demo del chatbot está disponible en Hugging Face

(github.com/Stability-AI)

24 puntos por xguru 2023-04-20 | 2 comentarios | Compartir por WhatsApp

Se presentaron los modelos 3B/7B, también está previsto publicar los modelos 15B/30B/65B y hay planes de llegar hasta 175B
Los modelos usan la licencia CC BY-SA-4.0 y permiten uso comercial con atribución de la fuente
Está basado en el dataset abierto The Pile, pero fue entrenado con un nuevo dataset 3 veces más grande, con 1.5T tokens
La longitud de contexto es de 4096 tokens
También se presentó como PoC el modelo StableLM-Tuned-Alpha-7B, ajustado siguiendo el procedimiento de Alpaca
- Usa 5 datasets conversacionales: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
- La demo del chatbot está disponible en Hugging Face

2 comentarios

laeyoung 2023-04-20

¡Está buenísimo!

xguru 2023-04-20

Así como la publicación de Stable Diffusion aceleró el mercado, parece que ahora también veremos una avalancha de datos y casos de uso disponibles públicamente para los modelos de lenguaje.

StableLM presentado: el modelo de lenguaje abierto de Stability AI

Lecturas relacionadas

2 comentarios