1 puntos por GN⁺ 2024-04-12 | 1 comentarios | Compartir por WhatsApp

1 comentarios

 
GN⁺ 2024-04-12
Comentarios en Hacker News
  • Para ejecutar el modelo, se pueden usar herramientas como Ollama, Llama.cpp o bibliotecas de Python. También es posible cargar aproximadamente la mitad del modelo en la RAM.
  • Para comparar el rendimiento del modelo, se puede usar el benchmark no oficial que ofrece Hugging Face. Sin embargo, hay que tener en cuenta que esto corresponde al modelo base y que difiere del modelo instruct ajustado mediante fine-tuning que se usa en chats reales.
  • Si el modelo Mixtral-8x22B-v0.1 muestra un rendimiento tan bueno como el anterior Mixtral 8x7b, será un modelo muy prometedor.
  • Hay interés en saber si podrá volver al nivel de rendimiento por el que ChatGPT 4 fue evaluado al principio como "funciona como por arte de magia". También hay decepción porque se percibe que su rendimiento bajó por la corrección política.
  • Parece que todos están compitiendo por lanzar el mejor modelo pequeño antes de la salida de Llama3.
  • Con cuantización de 4 bits, se requieren 85 GB de VRAM, por lo que puede ejecutarse sin problema con 4 GPU de consumo de 24 GB. También queda margen para optimizar la caché KV.
  • Es extraño que, aun habiendo pasado más de un día desde que se publicaron los pesos del modelo, Mistral no haya hecho un anuncio oficial ni proporcionado una model card, y que tampoco se pueda usar en la propia plataforma de Mistral.