Para ejecutar el modelo, se pueden usar herramientas como Ollama, Llama.cpp o bibliotecas de Python. También es posible cargar aproximadamente la mitad del modelo en la RAM.
Para comparar el rendimiento del modelo, se puede usar el benchmark no oficial que ofrece Hugging Face. Sin embargo, hay que tener en cuenta que esto corresponde al modelo base y que difiere del modelo instruct ajustado mediante fine-tuning que se usa en chats reales.
Si el modelo Mixtral-8x22B-v0.1 muestra un rendimiento tan bueno como el anterior Mixtral 8x7b, será un modelo muy prometedor.
Hay interés en saber si podrá volver al nivel de rendimiento por el que ChatGPT 4 fue evaluado al principio como "funciona como por arte de magia". También hay decepción porque se percibe que su rendimiento bajó por la corrección política.
Parece que todos están compitiendo por lanzar el mejor modelo pequeño antes de la salida de Llama3.
Con cuantización de 4 bits, se requieren 85 GB de VRAM, por lo que puede ejecutarse sin problema con 4 GPU de consumo de 24 GB. También queda margen para optimizar la caché KV.
Es extraño que, aun habiendo pasado más de un día desde que se publicaron los pesos del modelo, Mistral no haya hecho un anuncio oficial ni proporcionado una model card, y que tampoco se pueda usar en la propia plataforma de Mistral.
1 comentarios
Comentarios en Hacker News
instructajustado mediante fine-tuning que se usa en chats reales.