- Se volvió aún más intenso tras el lanzamiento de LLaMA 2
- Casi todos los grupos de modelos de código abierto actualizaron sus modelos usando una nueva base
- WizardLM, Airoboros, Hermes, etc.
- El modelo más potente actualmente es Stable Beluga 2 de StabilityAI
- Ajustado finamente a partir del modelo Llama2 70B con un dataset estilo Orca
- Comparable con ChatGPT
- Modelos largos
- LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
- Modelos pequeños pero potentes
- Modelos de 3B parámetros tan potentes como los de 7B
- Aún no se ha llegado al límite y todavía hay mucho por avanzar
- SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
- Un modelo abierto supera a ChatGPT en MMLU: llama-2-70b-guanaco-qlora
- Chat multi-turno: llama2-13b-orca-8k-3319
- Los modelos chinos están compitiendo: CodeGeex2
- ¿Los modelos abiertos ya alcanzaron el nivel de ChatGPT?
- Todavía no, pero podrían alcanzarlo pronto
3 comentarios
Parece que cada quien va a tener que pensar bastante en cómo ganar dinero desde su propio rol, en términos de monetización.
Como ahora hay tantos servicios de IA, me está dando parálisis por análisis al elegir, desde servicios de IA de uso general hasta servicios de IA especializados para desarrolladores~
Ojalá que los modelos en coreano también siguieran mejorando.