- El 28 de enero aproximadamente, un usuario llamado "Miqu Dev" publicó en HuggingFace, una plataforma para compartir modelos de IA open source y código, un nuevo conjunto de archivos de un modelo de lenguaje grande (LLM) open source llamado "miqu-1-70b"
- Este modelo usa el mismo "Prompt format" que Mixtral 8x7b, creado por Mistral, actualmente considerada una de las empresas de IA open source con mejor rendimiento
- Ese mismo día, un usuario anónimo publicó en 4chan un enlace a los archivos de miqu-1-70b
- Algunos usuarios encontraron que este modelo muestra un rendimiento sobresaliente en tareas generales de LLM y se acerca a GPT-4 de OpenAI
¿Cuantización de Mistral?
- Investigadores de machine learning (ML) mostraron interés en LinkedIn sobre si "miqu" significa "MIstral QUantized"
- La cuantización es una técnica que reemplaza largas secuencias numéricas de la arquitectura de un modelo por otras más cortas para poder ejecutar modelos de IA en computadoras y chips menos potentes
- Arthur Mensch, cofundador y CEO de Mistral, reveló que el modelo "Miqu" fue filtrado por un empleado demasiado entusiasta de uno de los clientes con acceso anticipado de Mistral
- Mistral volvió a entrenar este modelo sobre Llama 2 y completó el pretraining el mismo día del lanzamiento de Mistral 7B; desde entonces, ha seguido mostrando buenos avances
- Curiosamente, en lugar de pedir que se eliminara la publicación ilegal en HuggingFace, Mensch dejó un comentario diciendo que "podría considerarse la atribución"
¿Un momento decisivo para la IA open source y más allá?
- El lanzamiento de un modelo open source con rendimiento a nivel de GPT-4 podría ser un momento decisivo no solo para la IA generativa open source, sino también para todo el campo de la IA y las ciencias de la computación
- OpenAI podría mantener su ventaja competitiva con GPT-4 Turbo y GPT-4V (visión), pero la comunidad de IA open source se está acercando rápidamente
Opinión de GN⁺
- La aparición del modelo "Miqu" muestra nuevas posibilidades en el campo de la IA open source para competir con productos comerciales de IA
- Este incidente subraya la capacidad innovadora de la comunidad open source y el rápido avance de la tecnología
- El avance de los modelos open source podría cambiar la forma en que las empresas aprovechan la IA, con implicaciones importantes para toda la industria tecnológica
1 comentarios
Opiniones de Hacker News
Un usuario está siguiendo la página de TheBloke y espera poder ejecutar el modelo cuantizado Miqu Q5 en su MacBook. Usa Mixtral todos los días, y si este modelo (o una nueva versión oficial) se acerca a GPT-4, cancelará su suscripción a OpenAI. Cree que el pequeño equipo de Mistral está superando a sus competidores y que es lo que "Open"AI debería ser.
Un usuario menciona que, aunque ya pasó un año desde el lanzamiento de GPT-4, el esfuerzo colectivo por seguir intentando alcanzarlo sigue siendo muy agotador y sin ningún secreto especial. Y eso sabiendo que OpenAI podría sacar algo mucho mejor en cualquier momento.
Otro usuario señala, sobre la afirmación de que se acerca a GPT-4, que el leaderboard muestra una gran brecha entre GPT4-0314 y GPT4-Turbo, y que si apenas se acerca a GPT4-0314, entonces todavía está un año detrás del estado del arte.
Otro usuario comenta que el modelo filtrado dejará de ser importante en unos meses. Después de que salga el modelo oficial, se lanzarán modelos mejores, y dice que le emociona más la velocidad del progreso que el modelo en sí.
Un usuario cuestiona por qué a este modelo se le llama open source. Dice que es un modelo propietario filtrado en internet, y que seguirá siéndolo hasta que Mistral lo lance oficialmente. En cuanto al uso personal, no le importaría, como pasó con Llama 1, pero menciona que ninguna empresa usará este modelo.
Otro usuario dice que Mistral le recuerda a las buenas viejas empresas de tecnología de antes de 2015.
Un usuario se pregunta cómo podemos imaginar volver a un mundo donde GPT sea como la versión más reciente de Apache o MySQL, con millones de web hosts (perdón, hosts de IA) por todos lados.
Por último, un usuario menciona que GPT-4 salió hace casi un año y que parece haberse frenado el ritmo rápido con el que OpenAI lanzaba nuevas tecnologías revolucionarias cada mes. Se pregunta qué está pasando con OpenAI, si el caos reciente causó retrasos en la empresa o si están desarrollando alguna especie de "superarma".