- EuroLLM es un modelo de lenguaje grande (LLM) compatible con los 24 idiomas oficiales de la UE, desarrollado conjuntamente por instituciones de investigación europeas, con el objetivo de impulsar la soberanía en IA y la autonomía tecnológica de Europa
- Es un modelo de 9B parámetros entrenado con más de 4 billones de tokens en 35 idiomas, y muestra fortalezas en tareas lingüísticas como preguntas y respuestas, resúmenes y traducción
- EuroLLM 9B Base fue publicado para fine-tuning, mientras que EuroLLM 9B Instruct es una versión con capacidad para seguir instrucciones conversacionales y está disponible en Hugging Face
- En el proyecto participan importantes instituciones europeas como Unbabel, University of Edinburgh, Técnico Lisboa y Naver Labs Europe, y el entrenamiento se realizó en la supercomputadora MareNostrum 5
- Se anticipa una expansión multimodal (imagen y voz) y una política de apertura completamente open source, con el objetivo de convertirse en una infraestructura clave del ecosistema de innovación en IA de Europa
Resumen de EuroLLM
- EuroLLM es un modelo de lenguaje grande (LLM local) desarrollado en Europa, que admite los 24 idiomas oficiales de la UE
- Fue diseñado como un modelo de IA de infraestructura pública para que ciudadanos, empresas e investigadores europeos puedan usarlo sin barreras lingüísticas
- Fue desarrollado con apoyo de Horizon Europe, European Research Council y EuroHPC de la Unión Europea
- El entrenamiento se llevó a cabo en la supercomputadora MareNostrum 5
Características técnicas
- EuroLLM 9B: modelo de 9 mil millones de parámetros, entrenado con datos de 4 billones de tokens en 35 idiomas
- El modelo Base está pensado para fine-tuning por parte de los usuarios, y el modelo Instruct cuenta con capacidad para seguir instrucciones en modo conversacional
- Funciones principales:
- Optimizado para rendimiento en procesamiento multilingüe del lenguaje natural, incluyendo preguntas y respuestas, resúmenes y traducción
- Expansión multimodal prevista — en el futuro se añadirán capacidades de comprensión de imágenes y voz
- Distribución open source para que investigadores, instituciones y ciudadanos en general puedan utilizarlo libremente
Instituciones participantes y red de colaboración
- Instituciones participantes:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
- Principales investigadores:
- André Martins (Unbabel, profesor del Instituto Técnico de Lisboa) — especialista en machine learning y procesamiento de lenguaje natural
- Alexandra Birch (Aveni.ai, profesora en Edimburgo) — líder en investigación sobre traducción multilingüe e IA ética
- Pierre Colombo (Université Paris-Saclay) — investigador en seguridad de IA y aplicaciones legales de IA
Misión y visión
- El objetivo de EuroLLM es asegurar la soberanía europea en IA y promover el avance de la tecnología multilingüe
- A través de un LLM desarrollado de forma independiente en Europa, busca crear un círculo virtuoso de innovación (flywheel for innovation)
- Apoya a investigadores y empresas para que puedan ampliar nuevos servicios e investigaciones basados en modelos de IA europeos
- La iniciativa apunta a que Europa refuerce su liderazgo tecnológico basado en la diversidad lingüística y construya un modelo de innovación autosuficiente dentro del ecosistema global de IA
1 comentarios
Comentarios de Hacker News
La Unión Europea tiene un total de 24 idiomas oficiales: búlgaro, croata, checo, danés, neerlandés, inglés, estonio, finés, francés, alemán, griego, húngaro, irlandés, italiano, letón, lituano, maltés, polaco, portugués, rumano, eslovaco, esloveno, español y sueco.
El maltés es el único idioma afroasiático, y el húngaro, el finés y el estonio pertenecen a la familia urálica. El resto son indoeuropeos; el griego pertenece al grupo helénico y el irlandés a la familia celta.
Tal vez haya que reentrenar el modelo.
Parece que una de las principales contribuciones de este trabajo es el tratamiento detallado de las fuentes de los datos de entrenamiento.
Parece que los responsables de políticas públicas en Europa no tienen idea de cómo impulsar industrias intensivas en tecnología. El esquema de subsidios de “elegir ganadores” está condenado al fracaso. También es interesante la discusión sobre el acceso a las supercomputadoras europeas. Tuit relacionado
Pero en la práctica, la mayor limitación que enfrentan las empresas europeas no es la regulación, sino el acceso al capital.
China, de hecho, tiene regulaciones más estrictas y aun así su industria de software ha prosperado. Corea también se benefició del proteccionismo.
Lo que Europa debería aprender es más proteccionismo tecnológico. Al final, Pieter Levels no deja de ser un influencer, no un fundador serio.
En EE. UU. hay muchos fundadores que vienen de FAANG, pero en Europa falta ese ecosistema.
Incluso si el proyecto de supercomputación fracasa, puede que el objetivo sean los efectos económicos indirectos.
Falta “(2024)” en el título. El modelo 9B se publicó en diciembre del año pasado. Página oficial
En el equipo de EuroLLM participan instituciones europeas importantes como Unbabel, Instituto Tecnico Lisbon, University of Edinburgh y Naver Labs.
Europa ya opera una red pública de supercomputadoras a través de EuroHPC JU, y dicen que comenzaron a desarrollar el modelo apenas obtuvieron acceso. Historia oficial
En otras palabras, reutilizaron recursos de cómputo pensados para simulaciones físicas.
¿No soportan ya varios idiomas la mayoría de los modelos frontier? No creo que haga falta incluir soporte por idioma por separado.
Es una pena que no se haya publicado el corpus realmente usado. En idiomas minoritarios como el irlandés, probablemente la mayor parte esté basada en documentos legales, y casi no haya datos coloquiales.
Sería interesante hacer evaluaciones por idioma usando criterios de hablantes nativos.
Los LLM podrían tener un impacto positivo en estos idiomas en peligro de desaparición, pero antes de eso también existen riesgos (por ejemplo, el caso de la Wikipedia en gaélico escocés).
Aun así, en general me parece un buen intento.
EuroLLM-9B es un modelo publicado en diciembre de 2024 y, según MMLU-Pro, obtuvo 17.6%, un nivel apenas por encima del azar.
Aquí hay una tabla comparativa con otros modelos de la UE: aquí
Me pregunto por qué solo EE. UU. y China producen modelos realmente destacados. Fuera de Mistral en Francia, casi no hay modelos europeos. India, Japón y Corea están en una situación similar.
Tiene 1.3 veces la población de EE. UU. y el 75% de su PIB, pero el tamaño de su industria tecnológica es apenas una fracción de la de EE. UU.
Las 7 grandes tecnológicas de EE. UU. son 20 veces más grandes que las 7 mayores empresas europeas, y generan 10 veces más ingresos. Enlace de referencia
Por eso depende de financiamiento académico como Horizon, pero este tipo de colaboración difícilmente termina en productos.
Para descargar el modelo EuroLLM-9B desde Hugging Face hay que aceptar proporcionar datos de contacto. Me pregunto si este tipo de requisito es común.
Es interesante que el modelo 9B esté recibiendo atención. Pero el modelo TildeOpen-30B, publicado hace dos meses y con soporte para 19 idiomas europeos, casi no fue mencionado. Página del modelo
Su rendimiento base es bajo, pero es un modelo abierto con gran potencial para fine-tuning.