LLaMA - El LLM de 65 mil millones de parámetros publicado por Meta

xguru · 2023-02-28T10:49:01+09:00

Publicado en 4 tamaños: 7B, 13B, 33B y 65B Aunque es de una escala mucho menor, al reforzar el entrenamiento de datos y hacer fine-tuning se convierte en un modelo eficiente comparable con modelos mucho más grandes 33B/65B fueron entrenados con 1.4 billones de tokens (7B con 1 billón) "El modelo de 13B supera a GPT-3 de 175B, y 65B puede competir con Chinchilla70B y PaLM-540B, mucho más grandes" Solo puede usarse para fines no comerciales, como investigación en inteligencia artificial (se requiere solicitud y aprobación)

(ai.facebook.com)

7 puntos por xguru 2023-02-28 | Aún no hay comentarios. | Compartir por WhatsApp

Publicado en 4 tamaños: 7B, 13B, 33B y 65B
Aunque es de una escala mucho menor, al reforzar el entrenamiento de datos y hacer fine-tuning se convierte en un modelo eficiente comparable con modelos mucho más grandes
33B/65B fueron entrenados con 1.4 billones de tokens (7B con 1 billón)
"El modelo de 13B supera a GPT-3 de 175B, y 65B puede competir con Chinchilla70B y PaLM-540B, mucho más grandes"
Solo puede usarse para fines no comerciales, como investigación en inteligencia artificial (se requiere solicitud y aprobación)

LLaMA - El LLM de 65 mil millones de parámetros publicado por Meta

Lecturas relacionadas

Aún no hay comentarios.