- Se presentaron los modelos 3B/7B, también está previsto publicar los modelos 15B/30B/65B y hay planes de llegar hasta 175B
- Los modelos usan la licencia CC BY-SA-4.0 y permiten uso comercial con atribución de la fuente
- Está basado en el dataset abierto The Pile, pero fue entrenado con un nuevo dataset 3 veces más grande, con 1.5T tokens
- La longitud de contexto es de 4096 tokens
- También se presentó como PoC el modelo StableLM-Tuned-Alpha-7B, ajustado siguiendo el procedimiento de Alpaca
- Usa 5 datasets conversacionales: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
- La demo del chatbot está disponible en Hugging Face
2 comentarios
¡Está buenísimo!
Así como la publicación de Stable Diffusion aceleró el mercado, parece que ahora también veremos una avalancha de datos y casos de uso disponibles públicamente para los modelos de lenguaje.