- Publicado en 4 tamaños: 7B, 13B, 33B y 65B
- Aunque es de una escala mucho menor, al reforzar el entrenamiento de datos y hacer fine-tuning se convierte en un modelo eficiente comparable con modelos mucho más grandes
- 33B/65B fueron entrenados con 1.4 billones de tokens (7B con 1 billón)
- "El modelo de 13B supera a GPT-3 de 175B, y 65B puede competir con Chinchilla70B y PaLM-540B, mucho más grandes"
- Solo puede usarse para fines no comerciales, como investigación en inteligencia artificial (se requiere solicitud y aprobación)
Aún no hay comentarios.