22 puntos por xguru 2023-08-09 | 3 comentarios | Compartir por WhatsApp
  • Se volvió aún más intenso tras el lanzamiento de LLaMA 2
    • Casi todos los grupos de modelos de código abierto actualizaron sus modelos usando una nueva base
      • WizardLM, Airoboros, Hermes, etc.
    • El modelo más potente actualmente es Stable Beluga 2 de StabilityAI
      • Ajustado finamente a partir del modelo Llama2 70B con un dataset estilo Orca
      • Comparable con ChatGPT
  • Modelos largos
    • LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
  • Modelos pequeños pero potentes
    • Modelos de 3B parámetros tan potentes como los de 7B
    • Aún no se ha llegado al límite y todavía hay mucho por avanzar
    • SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
  • Un modelo abierto supera a ChatGPT en MMLU: llama-2-70b-guanaco-qlora
  • Chat multi-turno: llama2-13b-orca-8k-3319
  • Los modelos chinos están compitiendo: CodeGeex2
  • ¿Los modelos abiertos ya alcanzaron el nivel de ChatGPT?
    • Todavía no, pero podrían alcanzarlo pronto

3 comentarios

 
botplaysdice 2023-08-10

Parece que cada quien va a tener que pensar bastante en cómo ganar dinero desde su propio rol, en términos de monetización.

 
geekbini 2023-08-09

Como ahora hay tantos servicios de IA, me está dando parálisis por análisis al elegir, desde servicios de IA de uso general hasta servicios de IA especializados para desarrolladores~

 
kuroneko 2023-08-09

Ojalá que los modelos en coreano también siguieran mejorando.