Me pregunto cuál es la forma más fácil de correr este modelo cuando se tienen los pesos y el hardware
Quisiera saber con qué herramienta habría que cargarlo, aunque se descargue la mitad del modelo a la RAM: si Ollama, Llama.cpp, o si basta con importarlo desde una biblioteca de Python
También me pregunto cuál sería una buena forma de hacer benchmarks para compararlo con otro modelo, y si hay herramientas listas para usar
El enfoque de llamafile parece el mejor
El binario funciona desde la línea de comandos o levanta un pequeño servidor web
llamafile ofrece una build de Mixtral-8x7B-Instruct, así que este modelo probablemente también podría empaquetarse, y tal vez en un formato cuantizado
Habría que confirmarlo con alguien que conozca mejor el ecosistema, pero parece que el nuevo modelo también podría ejecutarse tal cual con llamafile https://github.com/Mozilla-Ocho/llamafile
Para probar LLMs en una MacBook, LM Studio es excelente: https://lmstudio.ai/
Es muy fácil buscar modelos nuevos de Hugging Face dentro de la app y probarlos de inmediato
En Hugging Face hay un usuario llamado The Bloke, que sube modelos ya cuantizados poco después de que aparece el modelo de tamaño completo
Solo hay que vigilar esa página y rezar para que el modelo de 4 bits entre en la GPU
Me imagino que ya debe estar trabajando en eso
8x22B, vaya; si esto es tan bueno como Mixtral 8x7B, se vienen tiempos muy interesantes
Escuché que Command R fue el primer open source en superar a GPT-4 en benchmarks
Ya tenemos 8x7B, así que no habría razón para querer otro 8x7B; supongo que eso significa que es mejor, ¿no?
Un poco fuera de tema, pero me pregunto si ya volvimos al nivel de rendimiento de ChatGPT 4 de la época en que la gente decía que parecía magia
Me refiero al estándar de antes de que su rendimiento cayera mucho al hacerlo más políticamente correcto
He probado varios LLMs en una MacBook y creo que todavía todos están bastante lejos de cualquier momento de GPT-4
Eso sí, hay muchos modelos al nivel de GPT-3, y también bastantes modelos ajustados finamente para tareas específicas
Lo que más falta en los modelos abiertos es soporte de idiomas
Solo he visto un modelo que dé resultados aceptables en noruego, y con GPT-4 eso nunca fue un problema
Para estándares de modelos abiertos, creo que al menos ya se llegó al rendimiento del lanzamiento inicial de ChatGPT 4
¿Es una carrera por sacar el mejor modelo pequeño de cada quien antes de que salga Llama 3?
262GB no es precisamente pequeño
Aun así, parece que todos los están sacando ahora porque, si después resultan peores que Llama 3, podría dar vergüenza publicarlos más tarde
Con los rumores de que Llama 3 saldrá en las próximas dos semanas, suena bastante plausible
Mixtral 8x7B fue agradable de usar, y tengo ganas de probar este modelo también
Ojalá estuviera GPT-4 ahí
Ese sigue siendo el modelo a superar
La cuantización a 4 bits probablemente requiera 85GB de VRAM, así que debería caber bien en 4 GPUs de consumo de 24GB, con algo de margen para optimizaciones de la caché KV
Si es de 4 bits, podría usar menos que eso
Porque hay bastantes parámetros compartidos entre los modelos expertos
Eso sí, si no se corre con tamaño de batch 1, podría ser más doloroso que una configuración de 8 GPUs
Es casi seguro que en el batch se activen la mayoría o todos los expertos
La cuantización a 2 bits de Mixtral 8x7B era usable en una GPU de 8GB para algunos usos
Me da curiosidad cómo funcionará este nuevo modelo en configuraciones de GPUs baratas de 8 a 16GB
Es muy importante notar que este es un modelo base, no un modelo instruct
Lo útil para chat son los modelos con fine-tuning de instrucciones
Me da curiosidad cómo se siente usar directamente un modelo base potente
¿Simplemente completará el texto del prompt como si siguiera escribiendo?
Salió justo a tiempo para el lanzamiento de Llama 3
Ese mismo día Google Gemini Pro presentó un acceso multimodal abierto de contexto largo casi completo, y OpenAI también actualizó GPT-4-Turbo; fue un gran día con un montón de noticias
1 comentarios
Opiniones en Hacker News
Quisiera saber con qué herramienta habría que cargarlo, aunque se descargue la mitad del modelo a la RAM: si Ollama, Llama.cpp, o si basta con importarlo desde una biblioteca de Python
También me pregunto cuál sería una buena forma de hacer benchmarks para compararlo con otro modelo, y si hay herramientas listas para usar
El binario funciona desde la línea de comandos o levanta un pequeño servidor web
llamafile ofrece una build de Mixtral-8x7B-Instruct, así que este modelo probablemente también podría empaquetarse, y tal vez en un formato cuantizado
Habría que confirmarlo con alguien que conozca mejor el ecosistema, pero parece que el nuevo modelo también podría ejecutarse tal cual con llamafile
https://github.com/Mozilla-Ocho/llamafile
Es muy fácil buscar modelos nuevos de Hugging Face dentro de la app y probarlos de inmediato
Solo hay que vigilar esa página y rezar para que el modelo de 4 bits entre en la GPU
Me imagino que ya debe estar trabajando en eso
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Es una publicación que trae el enlace al tuit en vez del perfil:
https://twitter.com/MistralAI/status/1777869263778291896
Me refiero al estándar de antes de que su rendimiento cayera mucho al hacerlo más políticamente correcto
Eso sí, hay muchos modelos al nivel de GPT-3, y también bastantes modelos ajustados finamente para tareas específicas
Lo que más falta en los modelos abiertos es soporte de idiomas
Solo he visto un modelo que dé resultados aceptables en noruego, y con GPT-4 eso nunca fue un problema
Aun así, parece que todos los están sacando ahora porque, si después resultan peores que Llama 3, podría dar vergüenza publicarlos más tarde
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
Ese sigue siendo el modelo a superar
Porque hay bastantes parámetros compartidos entre los modelos expertos
Eso sí, si no se corre con tamaño de batch 1, podría ser más doloroso que una configuración de 8 GPUs
Es casi seguro que en el batch se activen la mayoría o todos los expertos
Me da curiosidad cómo funcionará este nuevo modelo en configuraciones de GPUs baratas de 8 a 16GB
Lo útil para chat son los modelos con fine-tuning de instrucciones
¿Simplemente completará el texto del prompt como si siguiera escribiendo?