Mistral “Mixtral” 8x7B modelo 32k [imanes]

(twitter.com/MistralAI)

2 puntos por GN⁺ 2023-12-09 | 1 comentarios | Compartir por WhatsApp

1 comentarios

GN⁺ 2023-12-09

Opiniones en Hacker News

En otras noticias sobre LLM, modelos fine-tuned de Mistral/Yi entrenados con una nueva técnica aún no documentada llamada neural alignment están superando por mucho a otros modelos en el leaderboard de Hugging Face
El 7B está “venciendo” a la mayoría de los modelos 70B, y el 34B en pruebas también se ve muy bueno
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
En teoría, esta técnica también podría aplicarse a Mistral MoE, así que si se obtiene el mismo salto que con el Mistral 7B normal y Mistral MoE en sí también es bueno, el resultado podría ser un modelo bastante intimidante
Quizá sea el punto de inflexión en el que los modelos open source que pueden ejecutarse en una desktop realmente empiezan a pisarle los talones a GPT-4
- Probé la versión 7B y definitivamente se siente distinta de las que había probado antes
  Pudo explicar un archivo Docker Compose y también generar un componente sencillo de una aplicación Vue
  Cuando le pregunté un poco más sobre el ejemplo, se mantuvo de una forma sorprendentemente coherente y enfocada durante toda la conversación, y aun sin borrar el contexto distinguía bien si estaba cambiando a un tema nuevo o haciendo referencia a lo anterior
  En particular, cuando pregunté “What does following mean [contenido de docker compose]”, cybertron-7b respondió citando literalmente mi formulación, algo como “en la configuración YAML proporcionada, ‘following’ significa especificación de dependencias”; es la primera vez que veo un modelo que cite con tanta precisión una expresión de la conversación
- Me dio curiosidad, así que para la variante más pequeña hice un ollama modelfile usando la versión GGUF de TheBloke[1], y para ser un modelo tan pequeño de verdad conserva bastante esa sensación tipo GPT-4
  Se siente más coherente que openhermes2.5-mistral, que era el LLM local que usaba principalmente antes
  Si tienes ollama instalado, puedes probarlo con ollama run nollama/una-cybertron-7b-v2
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- Así es. UNA parece poder alinear MoE en múltiples capas, expertos y casi cualquier parte de una red neuronal
  Xaberius 34B v1 “BETA” es el rey, pero literalmente todavía es solo una beta
  Ahora me voy a enfocar en Mixtral, y al ser tan modular se siente como un regalo de Navidad. Gracias a @mistral por abrir el laboratorio
- ¿No será que los benchmarks de LLM, en el mejor de los casos, ya no tienen sentido, y en el peor se acercan a una mentira?
- Correcto. A Mistral no parece importarle mucho debilitar sus modelos casi como si los castrara con “entrenamiento de seguridad”
  Por eso puede tener mucho mejor rendimiento por parámetro que Anthropic/Google/OpenAI y, aun así, ser más controlable
Interpretación de Andrej Karpathy:
Nuevo LLM de pesos abiertos de @MistralAI
Según params.json: hidden_dim / dim = 14336/4096 => 3.5X MLP 확장, n_heads / n_kv_heads = 32/8 => 4X multiquery, "moe" => mezcla de expertos 8X top 2
Código que parece relacionado:
https://github.com/mistralai/megablocks-public
Curiosamente, no hay un video de lanzamiento profesional y demasiado ensayado hablando de “la revolución de la IA”
Si te preguntas por qué hay tanta actividad de IA en estos días, es porque NeurIPS, la conferencia de deep learning más grande, es la próxima semana
https://twitter.com/karpathy/status/1733181701361451130
- Si NeurIPS es la próxima semana, ¿podemos esperar grandes anuncios de varias empresas, como nuevas arquitecturas o modelos? No estoy familiarizado con la cultura de las conferencias de investigación y me da curiosidad
- hidden_dim / dim = 14336/4096 => 3.5X MLP 확장 y n_heads / n_kv_heads = 32/8 => 4X son ambos exactamente iguales que en el Mistral-7B existente
- EMNLP 2023 también se está celebrando ahora, por eso se están acumulando los anuncios
Mistral no parece esforzarse mucho en explicarlo, pero este enfoque inspira mucha más confianza en el producto que el anuncio de Gemini pulido, corporativo y sin alma de Google
- Mejor publicar los pesos que documentación
  Me recuerda a cuando un empleado de Google presumía que habían publicado los pesos de Gemini, y además solo los del Gemini móvil pequeño, como si fuera una medida más generosa que la de otras empresas
¿Hace falta un anuncio grandilocuente? Basta hacerlo al estilo de los 90: https://twitter.com/erhartford/status/1733159666417545641/ph...
- Parece un enfoque mucho más audaz y seguro que publicar una página o video de marketing claramente manipulado e irrealista
Parece ser una mezcla de expertos (MoE), y params.json es el siguiente
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- En este contexto, ¿qué significa exactamente experto?
- No veo código ahí; ¿qué runtime puede cargar estos pesos?
Aunque no son empresas exactamente con objetivos similares, es bastante gracioso contrastar este lanzamiento de modelo con el anuncio de Gemini de Google de hace dos días
Contrasta claramente con el enfoque de Google de principios de esta semana: “solo demos, sin modelo”
Parece haber sido entrenado con Megablocks de Stanford: https://github.com/mistralai/megablocks-public
Puede ser polémico, pero creo que Mistral 7B es el verdadero estado del arte en LLM
ChatGPT 4 es increíble, sí, y estoy suscrito desde el primer día, pero corre en una enorme granja de servidores lejana y es casi una caja negra
Mistral es pequeño, sorprendentemente consistente y útil para su tamaño tanto en preguntas generales como en código, no tiene censura, y es un salto que cuesta creer que fuera posible en solo un año
Puede correr en una MacBook Air a 12 tok/s, y tengo ganas de probarlo en una desktop
- Dentro de lo que puede ejecutarse en una MacBook Air es estado del arte, pero no lo es para todos los LLM ni para todo el open source
  Yi 34B y Llama2 70B todavía son mejores
- Si el 50% de la información que se consume en internet se creó en las últimas 24 horas, los modelos pequeños podrían tener una ventaja bastante grande sobre los modelos grandes
  Si se pudiera seguir reentrenando o haciendo fine-tuning de un LLM o SmallLM cada semana o cada día para reflejar la información más reciente, a un modelo viejo entrenado hace 1 o 2 años le costaría seguir el ritmo
  No sé cómo esté la licencia, pero OpenAI podría meter un modelo pequeño como Mistral7B en el stack de GPT, reentrenarlo desde cero cada semana y cobrar lo mismo que por GPT-4
  Aunque su rendimiento sea más débil, seguramente habrá usuarios que prefieran un modelo con información más actualizada
- De acuerdo. Mistral 7B es realmente sorprendentemente bueno
  Modelos con fine-tuning como la versión de Intel o Berkeley Starling, aunque apenas son 7B, se sienten bastante cerca de gpt3.5T
  Tenía muchas ganas de ver Mistral 13B, pero no sé si este MoE podrá correr en una 3090 de 24 GB
  Espero que se vuelva ejecutable con cuantización, offloading y técnicas que vengan más adelante
- 12 tok/s en una MacBook Air suena un poco bajo
  ¿Estás usando aceleración de GPU con Metal en llama.cpp? No tengo una MacBook, pero viendo los benchmarks de llama.cpp parecía que con aceleración por GPU se podía llegar casi a 30 tok/s
- Totalmente. Al menos se siente a la par de llama2 13b
  Si existiera mistral 70b y superara a llama2 70b por el mismo margen de mejora que mostró frente a llama2 en el tamaño 7b, sin duda estaría a un nivel similar a gpt3.5
Ya hay una versión de Hugging Face que funciona de forma experimental: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google hizo una demo falsa; Mistral lo resolvió con un solo enlace magnet

Mistral “Mixtral” 8x7B modelo 32k [imanes]

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News