CEO de Mistral admite la filtración de un nuevo modelo de IA open source con rendimiento cercano a GPT-4

(venturebeat.com)

10 puntos por GN⁺ 2024-02-01 | 1 comentarios | Compartir por WhatsApp

El 28 de enero aproximadamente, un usuario llamado "Miqu Dev" publicó en HuggingFace, una plataforma para compartir modelos de IA open source y código, un nuevo conjunto de archivos de un modelo de lenguaje grande (LLM) open source llamado "miqu-1-70b"
Este modelo usa el mismo "Prompt format" que Mixtral 8x7b, creado por Mistral, actualmente considerada una de las empresas de IA open source con mejor rendimiento
Ese mismo día, un usuario anónimo publicó en 4chan un enlace a los archivos de miqu-1-70b
Algunos usuarios encontraron que este modelo muestra un rendimiento sobresaliente en tareas generales de LLM y se acerca a GPT-4 de OpenAI

¿Cuantización de Mistral?

Investigadores de machine learning (ML) mostraron interés en LinkedIn sobre si "miqu" significa "MIstral QUantized"
La cuantización es una técnica que reemplaza largas secuencias numéricas de la arquitectura de un modelo por otras más cortas para poder ejecutar modelos de IA en computadoras y chips menos potentes
Arthur Mensch, cofundador y CEO de Mistral, reveló que el modelo "Miqu" fue filtrado por un empleado demasiado entusiasta de uno de los clientes con acceso anticipado de Mistral
- Mistral volvió a entrenar este modelo sobre Llama 2 y completó el pretraining el mismo día del lanzamiento de Mistral 7B; desde entonces, ha seguido mostrando buenos avances
Curiosamente, en lugar de pedir que se eliminara la publicación ilegal en HuggingFace, Mensch dejó un comentario diciendo que "podría considerarse la atribución"

¿Un momento decisivo para la IA open source y más allá?

El lanzamiento de un modelo open source con rendimiento a nivel de GPT-4 podría ser un momento decisivo no solo para la IA generativa open source, sino también para todo el campo de la IA y las ciencias de la computación
OpenAI podría mantener su ventaja competitiva con GPT-4 Turbo y GPT-4V (visión), pero la comunidad de IA open source se está acercando rápidamente

Opinión de GN⁺

La aparición del modelo "Miqu" muestra nuevas posibilidades en el campo de la IA open source para competir con productos comerciales de IA
Este incidente subraya la capacidad innovadora de la comunidad open source y el rápido avance de la tecnología
El avance de los modelos open source podría cambiar la forma en que las empresas aprovechan la IA, con implicaciones importantes para toda la industria tecnológica

1 comentarios

GN⁺ 2024-02-01

Opiniones de Hacker News

Un usuario está siguiendo la página de TheBloke y espera poder ejecutar el modelo cuantizado Miqu Q5 en su MacBook. Usa Mixtral todos los días, y si este modelo (o una nueva versión oficial) se acerca a GPT-4, cancelará su suscripción a OpenAI. Cree que el pequeño equipo de Mistral está superando a sus competidores y que es lo que "Open"AI debería ser.

Tuit del CEO de Mistral: un empleado demasiado entusiasta de uno de los clientes con acceso temprano filtró una versión cuantizada (y con marca de agua) de un modelo antiguo. Informa que reentrenaron este modelo a partir de Llama 2 tan pronto como tuvieron acceso a todo el clúster el día del lanzamiento de Mistral 7B, y que desde entonces han logrado buenos avances.
Un usuario menciona que, aunque ya pasó un año desde el lanzamiento de GPT-4, el esfuerzo colectivo por seguir intentando alcanzarlo sigue siendo muy agotador y sin ningún secreto especial. Y eso sabiendo que OpenAI podría sacar algo mucho mejor en cualquier momento.
Otro usuario señala, sobre la afirmación de que se acerca a GPT-4, que el leaderboard muestra una gran brecha entre GPT4-0314 y GPT4-Turbo, y que si apenas se acerca a GPT4-0314, entonces todavía está un año detrás del estado del arte.
Otro usuario comenta que el modelo filtrado dejará de ser importante en unos meses. Después de que salga el modelo oficial, se lanzarán modelos mejores, y dice que le emociona más la velocidad del progreso que el modelo en sí.
Un usuario cuestiona por qué a este modelo se le llama open source. Dice que es un modelo propietario filtrado en internet, y que seguirá siéndolo hasta que Mistral lo lance oficialmente. En cuanto al uso personal, no le importaría, como pasó con Llama 1, pero menciona que ninguna empresa usará este modelo.
Otro usuario dice que Mistral le recuerda a las buenas viejas empresas de tecnología de antes de 2015.
Un usuario se pregunta cómo podemos imaginar volver a un mundo donde GPT sea como la versión más reciente de Apache o MySQL, con millones de web hosts (perdón, hosts de IA) por todos lados.
Por último, un usuario menciona que GPT-4 salió hace casi un año y que parece haberse frenado el ritmo rápido con el que OpenAI lanzaba nuevas tecnologías revolucionarias cada mes. Se pregunta qué está pasando con OpenAI, si el caos reciente causó retrasos en la empresa o si están desarrollando alguna especie de "superarma".

CEO de Mistral admite la filtración de un nuevo modelo de IA open source con rendimiento cercano a GPT-4

¿Cuantización de Mistral?

¿Un momento decisivo para la IA open source y más allá?

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News