5 puntos por GN⁺ 2025-01-31 | 1 comentarios | Compartir por WhatsApp
  • El equipo de Mistral AI lanzó un modelo de 24B parámetros llamado Mistral Small 3 bajo licencia Apache 2.0.
  • Este modelo puede competir con modelos más grandes como Llama 3.3 70B o Qwen 32B, y es una alternativa adecuada a modelos propietarios como GPT4o-mini.
  • Mistral Small 3 fue diseñado con un tamaño adecuado para despliegue local, y al tener menos capas reduce el tiempo de procesamiento.
  • Muestra una precisión superior al 81% en MMLU y tiene una latencia de 150 tokens/s.

Rendimiento

Evaluación humana

  • Se evaluaron más de 1,000 conjuntos de prompts de programación y de uso general junto con una empresa externa de evaluación.
  • Se compararon las respuestas de Mistral Small 3 con las de otros modelos para medir la preferencia.
  • Se puso especial cuidado en garantizar una evaluación justa y se confía en la validez de los benchmarks.

Rendimiento en instrucciones

  • El modelo ajustado para instrucciones mostró un rendimiento competitivo frente a modelos abiertos tres veces más grandes y al modelo GPT4o-mini.
  • Registró alta precisión en benchmarks de código, matemáticas, conocimiento general y seguimiento de instrucciones.

Rendimiento de preentrenamiento

  • Mistral Small 3 es un modelo de 24B que ofrece el mejor rendimiento para su tamaño y compite con modelos tres veces más grandes como Llama 3.3 70B.

Casos de uso de Mistral Small 3

  • Asistencia conversacional de respuesta rápida: ofrece un excelente desempeño en escenarios donde la velocidad y la precisión de respuesta son clave.
  • Llamadas de funciones de baja latencia: puede manejar ejecuciones rápidas de funciones en flujos de trabajo automatizados.
  • Creación de expertos especializados: puede ajustarse finamente para dominios específicos y crear expertos de alta precisión.
  • Inferencia local: es útil para personas u organizaciones que manejan información sensible.

Usar Mistral Small 3 en tu stack tecnológico preferido

  • Mistral Small 3 está disponible en la Plateforme como mistral-small-latest o mistral-small-2501.
  • El modelo se ofrece en distintas plataformas en colaboración con Hugging Face, Ollama, Kaggle, Together AI y Fireworks AI.

Próximos planes

  • Mistral Small 3 complementa modelos de razonamiento open source a gran escala como DeepSeek y puede servir como una sólida base para reforzar capacidades de razonamiento.
  • Está previsto lanzar más adelante modelos más pequeños y también modelos grandes.

Modelos open source de Mistral

  • La empresa planea ofrecer modelos de propósito general bajo licencia Apache 2.0.
  • Los pesos del modelo pueden descargarse y desplegarse localmente, además de modificarse y usarse libremente.
  • También estará disponible mediante API serverless, despliegues on-premise y en VPC, así como a través de plataformas de personalización y orquestación.

1 comentarios

 
GN⁺ 2025-01-31
Comentarios en Hacker News
  • El modelo Mistral Small apunta a ser el modelo óptimo que puede ejecutarse en una laptop de rendimiento moderado, y se lo compara con Llama 3.3 70B y Qwen 2.5 32B

    • Se está ejecutando mediante Ollama en una MacBook Pro M2 de 64 GB, y es rápido y ofrece muy buen rendimiento
    • Requiere descargar 14 GB de pesos del modelo
  • Tom de Epoch AI está construyendo infraestructura para realizar evaluaciones de LLM de manera sistemática y a gran escala

    • Realiza las evaluaciones usando la biblioteca Inspect del gobierno del Reino Unido
    • Evaluó Mistral Small 3 en MATH nivel 5 y obtuvo una precisión de 0.45
    • Midió la precisión promedio muestreando 8 veces cada una de las 1,324 preguntas
  • Está cambiando a la licencia Apache 2.0, dejando atrás la licencia no comercial

  • Tras probarlo con prompts de generación de código, muestra un rendimiento similar a qwen2.5-coder-32b

    • Resulta impresionante que los modelos pequeños produzcan salidas más refinadas
    • Hay expectativa por una nueva versión del modelo mixtral 8x7B
  • Los puntos principales de este lanzamiento son los siguientes

    • Aplicación de la licencia Apache 2.0
    • Baja latencia (11 ms/token)
    • El rendimiento queda entre Qwen 2.5 32B y Llama 3.3 70B
    • El modelo Mistral Small corre a una velocidad de 9 tokens/segundo
  • Debido a los lanzamientos recientes de modelos MoE, 24 GB de VRAM empiezan a sentirse insuficientes

    • Mistral Small 3 no usa RL ni datos sintéticos
  • El modelo Mistral Small respondió correctamente a una pregunta sobre el primer álbum de Mary J Blige

  • Hay curiosidad sobre por qué usar modelos pequeños

  • Hay una opinión de que sería bueno incluir la cantidad de parámetros en el nombre del modelo