Mistral AI lanza el nuevo modelo MOE 8x22B

(twitter.com/MistralAI)

1 puntos por GN⁺ 2024-04-12 | 1 comentarios | Compartir por WhatsApp

1 comentarios

GN⁺ 2024-04-12

Opiniones en Hacker News

Me pregunto cuál es la forma más fácil de correr este modelo cuando se tienen los pesos y el hardware
Quisiera saber con qué herramienta habría que cargarlo, aunque se descargue la mitad del modelo a la RAM: si Ollama, Llama.cpp, o si basta con importarlo desde una biblioteca de Python
También me pregunto cuál sería una buena forma de hacer benchmarks para compararlo con otro modelo, y si hay herramientas listas para usar
- El enfoque de llamafile parece el mejor
  El binario funciona desde la línea de comandos o levanta un pequeño servidor web
  llamafile ofrece una build de Mixtral-8x7B-Instruct, así que este modelo probablemente también podría empaquetarse, y tal vez en un formato cuantizado
  Habría que confirmarlo con alguien que conozca mejor el ecosistema, pero parece que el nuevo modelo también podría ejecutarse tal cual con llamafile
  https://github.com/Mozilla-Ocho/llamafile
- La forma más fácil es correrlo con vllm(https://github.com/vllm-project/vllm) en algo como dos A100, y los benchmarks se pueden hacer con lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
- Para probar LLMs en una MacBook, LM Studio es excelente: https://lmstudio.ai/
  Es muy fácil buscar modelos nuevos de Hugging Face dentro de la app y probarlos de inmediato
- En Hugging Face hay un usuario llamado The Bloke, que sube modelos ya cuantizados poco después de que aparece el modelo de tamaño completo
  Solo hay que vigilar esa página y rezar para que el modelo de 4 bits entre en la GPU
  Me imagino que ya debe estar trabajando en eso
- Se puede probar en Together aquí:
  https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
La publicación duplicada está aquí: https://news.ycombinator.com/item?id=39986047
Es una publicación que trae el enlace al tuit en vez del perfil:
https://twitter.com/MistralAI/status/1777869263778291896
8x22B, vaya; si esto es tan bueno como Mixtral 8x7B, se vienen tiempos muy interesantes
- Escuché que Command R fue el primer open source en superar a GPT-4 en benchmarks
- Ya tenemos 8x7B, así que no habría razón para querer otro 8x7B; supongo que eso significa que es mejor, ¿no?
Un poco fuera de tema, pero me pregunto si ya volvimos al nivel de rendimiento de ChatGPT 4 de la época en que la gente decía que parecía magia
Me refiero al estándar de antes de que su rendimiento cayera mucho al hacerlo más políticamente correcto
- He probado varios LLMs en una MacBook y creo que todavía todos están bastante lejos de cualquier momento de GPT-4
  Eso sí, hay muchos modelos al nivel de GPT-3, y también bastantes modelos ajustados finamente para tareas específicas
  Lo que más falta en los modelos abiertos es soporte de idiomas
  Solo he visto un modelo que dé resultados aceptables en noruego, y con GPT-4 eso nunca fue un problema
- Para estándares de modelos abiertos, creo que al menos ya se llegó al rendimiento del lanzamiento inicial de ChatGPT 4
¿Es una carrera por sacar el mejor modelo pequeño de cada quien antes de que salga Llama 3?
- 262GB no es precisamente pequeño
  Aun así, parece que todos los están sacando ahora porque, si después resultan peores que Llama 3, podría dar vergüenza publicarlos más tarde
- Con los rumores de que Llama 3 saldrá en las próximas dos semanas, suena bastante plausible
Mixtral 8x7B fue agradable de usar, y tengo ganas de probar este modelo también
Hay benchmarks no oficiales aquí:
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
- Ojalá estuviera GPT-4 ahí
  Ese sigue siendo el modelo a superar
La cuantización a 4 bits probablemente requiera 85GB de VRAM, así que debería caber bien en 4 GPUs de consumo de 24GB, con algo de margen para optimizaciones de la caché KV
- Si es de 4 bits, podría usar menos que eso
  Porque hay bastantes parámetros compartidos entre los modelos expertos
  Eso sí, si no se corre con tamaño de batch 1, podría ser más doloroso que una configuración de 8 GPUs
  Es casi seguro que en el batch se activen la mayoría o todos los expertos
- La cuantización a 2 bits de Mixtral 8x7B era usable en una GPU de 8GB para algunos usos
  Me da curiosidad cómo funcionará este nuevo modelo en configuraciones de GPUs baratas de 8 a 16GB
Es muy importante notar que este es un modelo base, no un modelo instruct
Lo útil para chat son los modelos con fine-tuning de instrucciones
- Me da curiosidad cómo se siente usar directamente un modelo base potente
  ¿Simplemente completará el texto del prompt como si siguiera escribiendo?
Salió justo a tiempo para el lanzamiento de Llama 3
- Ese mismo día Google Gemini Pro presentó un acceso multimodal abierto de contexto largo casi completo, y OpenAI también actualizó GPT-4-Turbo; fue un gran día con un montón de noticias

Mistral AI lanza el nuevo modelo MOE 8x22B

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News