Introducción al nuevo LLM (Large Language Model) de código abierto de MistralAI
Configuraciones destacables en el archivo params.json:
hidden_dim / dim = 14336/4096 => expansión MLP de 3.5x
n_heads / n_kv_heads = 32/8 => 4x de multi-query
"moe" => 8x top-2 mixture of experts
El código relacionado se puede revisar en GitHub
No hay un video promocional exagerado sobre la revolución de la IA
Se está dando mucha actividad de IA porque se acerca NeurIPS, una gran conferencia de deep learning
Otras noticias de LLM:
Mistral/Yi está aplastando a otros modelos en el leaderboard de Hugging Face usando modelos ajustados finamente con una nueva técnica llamada "neural alignment"
El modelo 7B "vence" a la mayoría de los modelos 70B
El modelo 34B que están probando se ve muy bien
Si esta técnica se aplica a Mistral Moe, podría convertirse en un modelo sobresaliente
Podría ser un punto de inflexión importante en el que OSS que corre en escritorio desafíe a GPT-4
El enfoque de Mistral:
Mistral no se preocupa mucho por dar explicaciones, pero este estilo genera más confianza que los anuncios corporativos pulidos de Google
Forma de anuncio simple:
Se prefiere una presentación simple al estilo de los 90
Especificaciones del modelo de Mistral:
Publicación del archivo params.json con una estructura Mixture of Experts
Comparación entre la forma de anunciar de Mistral y Google:
La forma en que Mistral presentó su modelo contrasta con el anuncio de Gemini de Google
Parece que Mistral fue entrenado con base en Megablocks de Stanford
Estrategia de marketing de Mistral:
Mientras otras empresas se enfocan en landing pages y videos promocionales, Mistral simplemente publica el modelo
Información pública de Mistral:
Usa una arquitectura de mixture of experts
8 expertos con 7B parámetros
96GB de pesos en total, por lo que no puede ejecutarse en una GPU casera típica
1 comentarios
Opiniones de Hacker News
Opinión de Andrej Karpathy:
params.json:hidden_dim / dim = 14336/4096=> expansión MLP de 3.5xn_heads / n_kv_heads = 32/8=> 4x de multi-query"moe"=> 8x top-2 mixture of expertsOtras noticias de LLM:
El enfoque de Mistral:
Forma de anuncio simple:
Especificaciones del modelo de Mistral:
params.jsoncon una estructura Mixture of ExpertsComparación entre la forma de anunciar de Mistral y Google:
Estrategia de marketing de Mistral:
Información pública de Mistral: