Presentan el modelo Mistral Large 2

(mistral.ai)

6 puntos por GN⁺ 2024-07-25 | 1 comentarios | Compartir por WhatsApp

Mistral Large 2 admite una ventana de contexto de 128k y varios idiomas, incluidos francés, alemán, español, italiano, chino, japonés y coreano
- También admite más de 80 lenguajes de programación, incluidos Python, Java, C, C++, JavaScript y Bash
Fue diseñado para inferencia en un solo nodo y, con 123 mil millones de parámetros, puede ofrecer alto rendimiento en un solo nodo
Se distribuye bajo la Mistral Research License, que permite su uso y modificación para investigación y fines no comerciales. Para uso comercial, es necesario obtener la Mistral Commercial License

Rendimiento general

Mistral Large 2 establece un nuevo estándar en la métrica de evaluación de rendimiento/costo
En particular, la versión preentrenada alcanza una precisión de 84.0% en MMLU y marca un nuevo punto en el frente de Pareto de rendimiento/costo

Código y razonamiento

Basado en la experiencia de Codestral 22B y Codestral Mamba, Mistral Large 2 fue entrenado con una gran cantidad de código
Mistral Large 2 supera ampliamente al Mistral Large anterior y muestra un rendimiento comparable al de modelos líderes como GPT-4o, Claude 3 Opus y Llama 3 405B
Se dedicó un gran esfuerzo a mejorar la capacidad de razonamiento del modelo, y se ajustó finamente para minimizar la tendencia a generar información incorrecta
Fue entrenado para reconocer cuando no puede encontrar una solución o cuando no cuenta con suficiente información

Seguimiento de instrucciones y alineación

Mistral Large 2 mejora de forma notable en seguimiento de instrucciones y habilidades conversacionales
Dado que la concisión es importante en muchas aplicaciones empresariales, se puso mucho esfuerzo en que genere respuestas lo más breves y esenciales posible

Diversidad lingüística

Mistral Large 2 fue entrenado con una gran cantidad de datos multilingües y muestra un excelente rendimiento en inglés, francés, alemán, español, italiano, portugués, neerlandés, ruso, chino, japonés, coreano, árabe e hindi

Uso de herramientas y llamada de funciones

Mistral Large 2 cuenta con capacidades mejoradas de llamada de funciones y recuperación, y fue entrenado para poder actuar como motor de aplicaciones empresariales complejas

Acceso a los modelos de Mistral a través de proveedores de servicios en la nube

Amplía su asociación con Google Cloud Platform para ofrecer los modelos de Mistral AI en Vertex AI
Los modelos de Mistral AI también pueden usarse en Azure AI Studio, Amazon Bedrock e IBM watsonx.ai

Resumen de GN⁺

Mistral Large 2 admite varios idiomas y lenguajes de programación, y ofrece alto rendimiento en un solo nodo.
Sus capacidades de generación de código y razonamiento mejoraron significativamente, y minimiza la tendencia a generar información incorrecta.
Fue entrenado con una gran cantidad de datos multilingües y muestra un excelente rendimiento en múltiples idiomas.
Está disponible para usuarios globales mediante asociaciones con Google Cloud Platform, Azure AI Studio, Amazon Bedrock e IBM watsonx.ai.
Fue diseñado para generar respuestas concisas y centradas en lo esencial en aplicaciones empresariales.

1 comentarios

GN⁺ 2024-07-25

Opiniones en Hacker News

Tras probar los modelos Mistral Large 2 y Llama 3.1 405b, es difícil determinar una superioridad clara entre ambos
Si ya usas Claude, conviene seguir usándolo
Lo que se espera de Claude:
- Que sea más inteligente
- Una ventana de contexto más larga (1M+)
- Entrada de audio nativa y comprensión del tono
- Que reduzca los juicios morales al negarse
- Que sea más rápido
- Más tokens de salida
La competencia entre modelos se está intensificando
Claude 3.5 Sonnet supera ampliamente a todos los demás modelos
No queda claro cómo usar Mistral o Llama de forma cotidiana
Se está desarrollando un asistente de programación con IA y, tras probar varios modelos, Mistral Large 2 fue el más decepcionante
La licencia no comercial es decepcionante
Puede competir con Llama 3.1 405b, pero la licencia es más restrictiva
Las diferencias entre modelos se están reduciendo, así que podría ser mejor ajustar finamente Llama 405B para casos de uso específicos
A menos que haya un gran salto en calidad, no habrá grandes diferencias en el estado actual
Da gusto ver una competencia tan intensa
Se están gastando muchos recursos para crear modelos SOTA, pero siguen estancados en el nivel de GPT-4o y Claude Opus
Solo meter más datos y más GPU está llegando a su límite
La experiencia de usuario y la "personalidad" pasarán a ser más importantes
Claude Sonnet resulta agradable de usar y se siente más agudo que otros modelos
No hay que olvidar que cada avance requiere más energía y recursos
Se comparten los resultados recientes de benchmarks de modelos de PyLLMs
- Sorprenden la velocidad y la calidad de Nemo
- Mistral Large es bueno, pero muy lento
Hay confusión sobre si Opus o Sonnet 3.5 es más capaz entre los modelos Claude
Mistral Large 2 cuenta con funciones mejoradas de function calling y búsqueda
Surge la duda de si una precisión de function calling de alrededor del 50% significa que la mitad de las tareas complejas fallan
Se prefiere ChatGPT-4o y, cuando hay problemas, se usa Claude, pero no se obtienen mejores resultados

Presentan el modelo Mistral Large 2

Rendimiento general

Código y razonamiento

Seguimiento de instrucciones y alineación

Diversidad lingüística

Uso de herramientas y llamada de funciones

Acceso a los modelos de Mistral a través de proveedores de servicios en la nube

Resumen de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News