- Mistral Large 2 admite una ventana de contexto de 128k y varios idiomas, incluidos francés, alemán, español, italiano, chino, japonés y coreano
- También admite más de 80 lenguajes de programación, incluidos Python, Java, C, C++, JavaScript y Bash
- Fue diseñado para inferencia en un solo nodo y, con 123 mil millones de parámetros, puede ofrecer alto rendimiento en un solo nodo
- Se distribuye bajo la Mistral Research License, que permite su uso y modificación para investigación y fines no comerciales. Para uso comercial, es necesario obtener la Mistral Commercial License
Rendimiento general
- Mistral Large 2 establece un nuevo estándar en la métrica de evaluación de rendimiento/costo
- En particular, la versión preentrenada alcanza una precisión de 84.0% en MMLU y marca un nuevo punto en el frente de Pareto de rendimiento/costo
Código y razonamiento
- Basado en la experiencia de Codestral 22B y Codestral Mamba, Mistral Large 2 fue entrenado con una gran cantidad de código
- Mistral Large 2 supera ampliamente al Mistral Large anterior y muestra un rendimiento comparable al de modelos líderes como GPT-4o, Claude 3 Opus y Llama 3 405B
- Se dedicó un gran esfuerzo a mejorar la capacidad de razonamiento del modelo, y se ajustó finamente para minimizar la tendencia a generar información incorrecta
- Fue entrenado para reconocer cuando no puede encontrar una solución o cuando no cuenta con suficiente información
Seguimiento de instrucciones y alineación
- Mistral Large 2 mejora de forma notable en seguimiento de instrucciones y habilidades conversacionales
- Dado que la concisión es importante en muchas aplicaciones empresariales, se puso mucho esfuerzo en que genere respuestas lo más breves y esenciales posible
Diversidad lingüística
- Mistral Large 2 fue entrenado con una gran cantidad de datos multilingües y muestra un excelente rendimiento en inglés, francés, alemán, español, italiano, portugués, neerlandés, ruso, chino, japonés, coreano, árabe e hindi
Uso de herramientas y llamada de funciones
- Mistral Large 2 cuenta con capacidades mejoradas de llamada de funciones y recuperación, y fue entrenado para poder actuar como motor de aplicaciones empresariales complejas
Acceso a los modelos de Mistral a través de proveedores de servicios en la nube
- Amplía su asociación con Google Cloud Platform para ofrecer los modelos de Mistral AI en Vertex AI
- Los modelos de Mistral AI también pueden usarse en Azure AI Studio, Amazon Bedrock e IBM watsonx.ai
Resumen de GN⁺
- Mistral Large 2 admite varios idiomas y lenguajes de programación, y ofrece alto rendimiento en un solo nodo.
- Sus capacidades de generación de código y razonamiento mejoraron significativamente, y minimiza la tendencia a generar información incorrecta.
- Fue entrenado con una gran cantidad de datos multilingües y muestra un excelente rendimiento en múltiples idiomas.
- Está disponible para usuarios globales mediante asociaciones con Google Cloud Platform, Azure AI Studio, Amazon Bedrock e IBM watsonx.ai.
- Fue diseñado para generar respuestas concisas y centradas en lo esencial en aplicaciones empresariales.
1 comentarios
Opiniones en Hacker News