El estado actual de los modelos de lenguaje de código abierto

xguru · 2023-08-09T11:03:01+09:00

Se volvió aún más intenso tras el lanzamiento de LLaMA 2 Casi todos los grupos de modelos de código abierto actualizaron sus modelos usando una nueva base WizardLM, Airoboros, Hermes, etc. El modelo más potente actualmente es Stable Beluga 2 de StabilityAI Ajustado finamente a partir del modelo Llama2 70B con un dataset estilo Orca Comparable con ChatGPT Modelos largos LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K Modelos pequeños pero potentes Modelos de 3B parámetros tan potentes como los de 7B Aún no se ha llegado al límite y todavía hay mucho por avanzar SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP) Un modelo abierto supera a ChatGPT en MMLU: llama-2-70b-guanaco-qlora Chat multi-turno: llama2-13b-orca-8k-3319 Los modelos chinos están compitiendo: CodeGeex2 ¿Los modelos abiertos ya alcanzaron el nivel de ChatGPT? Todavía no, pero podrían alcanzarlo pronto

(twitter.com/Yampeleg)

22 puntos por xguru 2023-08-09 | 3 comentarios | Compartir por WhatsApp

Se volvió aún más intenso tras el lanzamiento de LLaMA 2
- Casi todos los grupos de modelos de código abierto actualizaron sus modelos usando una nueva base
  - WizardLM, Airoboros, Hermes, etc.
- El modelo más potente actualmente es Stable Beluga 2 de StabilityAI
  - Ajustado finamente a partir del modelo Llama2 70B con un dataset estilo Orca
  - Comparable con ChatGPT
Modelos largos
- LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
Modelos pequeños pero potentes
- Modelos de 3B parámetros tan potentes como los de 7B
- Aún no se ha llegado al límite y todavía hay mucho por avanzar
- SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
Un modelo abierto supera a ChatGPT en MMLU: llama-2-70b-guanaco-qlora
Chat multi-turno: llama2-13b-orca-8k-3319
Los modelos chinos están compitiendo: CodeGeex2
¿Los modelos abiertos ya alcanzaron el nivel de ChatGPT?
- Todavía no, pero podrían alcanzarlo pronto

3 comentarios

botplaysdice 2023-08-10

Parece que cada quien va a tener que pensar bastante en cómo ganar dinero desde su propio rol, en términos de monetización.

geekbini 2023-08-09

Como ahora hay tantos servicios de IA, me está dando parálisis por análisis al elegir, desde servicios de IA de uso general hasta servicios de IA especializados para desarrolladores~

kuroneko 2023-08-09

Ojalá que los modelos en coreano también siguieran mejorando.

El estado actual de los modelos de lenguaje de código abierto

Lecturas relacionadas

3 comentarios