Mistral 7B

(mistral.ai)

11 puntos por GN⁺ 2023-09-28 | 1 comentarios | Compartir por WhatsApp

El modelo de lenguaje más potente hasta ahora
Un modelo de 7.3B parámetros que supera a Llama 2 13B en todos los benchmarks y a Llama 1 34B en muchos benchmarks
Usa Grouped-query attention (GQA) para una inferencia más rápida y Sliding Window Attention (SWA) para procesar secuencias más largas con menor costo
Con licencia Apache 2.0, puede usarse sin restricciones
Puede desplegarse en cualquier nube (AWS/GCP/Azure) usando el servidor de inferencia vLLM y skypilot, y también puede usarse en HuggingFace
Se puede ajustar finamente con facilidad, y el modelo ajustado para chat supera a Llama 2 13B Chat

1 comentarios

GN⁺ 2023-09-28

Mistral es la primera empresa, a diferencia de Meta y DeciLM, en otorgar una licencia Apache a un modelo de esta clase.
Este modelo funciona bien en una MacBook Air M1 y es comparable con GPT3.5.
Hay preguntas sobre la posibilidad de usar una "API de llamadas a funciones" para manejar datos estructurados como JSON.
Se plantearon preocupaciones sobre el conjunto de datos usado para entrenar el modelo y la posibilidad de que filtraciones de benchmarks hayan inflado los resultados.
El anuncio del modelo se hizo a través del URI de un rastreador torrent en Twitter.
En pruebas de herramientas de asistencia de programación para LLMs, Mistral no rindió tan bien como CodeLlama y GPT4.
El modelo funciona en FreeChat de macOS porque es compatible con llama.cpp.
Hay preguntas sobre por qué el proyecto parece estandarizarse en tamaños de parámetros específicos dentro de categorías amplias como los modelos 7B.
Se solicitan detalles sobre el entrenamiento del modelo, los datos en los que se basó y dónde fue entrenado.
También se pide que se hagan pruebas sobre contaminación de benchmarks en el conjunto de entrenamiento.