7 puntos por xguru 2023-02-28 | Aún no hay comentarios. | Compartir por WhatsApp
  • Publicado en 4 tamaños: 7B, 13B, 33B y 65B
  • Aunque es de una escala mucho menor, al reforzar el entrenamiento de datos y hacer fine-tuning se convierte en un modelo eficiente comparable con modelos mucho más grandes
  • 33B/65B fueron entrenados con 1.4 billones de tokens (7B con 1 billón)
  • "El modelo de 13B supera a GPT-3 de 175B, y 65B puede competir con Chinchilla70B y PaLM-540B, mucho más grandes"
  • Solo puede usarse para fines no comerciales, como investigación en inteligencia artificial (se requiere solicitud y aprobación)

Aún no hay comentarios.

Aún no hay comentarios.