EuroLLM: un LLM desarrollado en Europa que admite los 24 idiomas oficiales de la UE

(eurollm.io)

3 puntos por GN⁺ 2025-10-29 | 1 comentarios | Compartir por WhatsApp

EuroLLM es un modelo de lenguaje grande (LLM) compatible con los 24 idiomas oficiales de la UE, desarrollado conjuntamente por instituciones de investigación europeas, con el objetivo de impulsar la soberanía en IA y la autonomía tecnológica de Europa
Es un modelo de 9B parámetros entrenado con más de 4 billones de tokens en 35 idiomas, y muestra fortalezas en tareas lingüísticas como preguntas y respuestas, resúmenes y traducción
EuroLLM 9B Base fue publicado para fine-tuning, mientras que EuroLLM 9B Instruct es una versión con capacidad para seguir instrucciones conversacionales y está disponible en Hugging Face
En el proyecto participan importantes instituciones europeas como Unbabel, University of Edinburgh, Técnico Lisboa y Naver Labs Europe, y el entrenamiento se realizó en la supercomputadora MareNostrum 5
Se anticipa una expansión multimodal (imagen y voz) y una política de apertura completamente open source, con el objetivo de convertirse en una infraestructura clave del ecosistema de innovación en IA de Europa

Resumen de EuroLLM

EuroLLM es un modelo de lenguaje grande (LLM local) desarrollado en Europa, que admite los 24 idiomas oficiales de la UE
- Fue diseñado como un modelo de IA de infraestructura pública para que ciudadanos, empresas e investigadores europeos puedan usarlo sin barreras lingüísticas
Fue desarrollado con apoyo de Horizon Europe, European Research Council y EuroHPC de la Unión Europea
- El entrenamiento se llevó a cabo en la supercomputadora MareNostrum 5

Características técnicas

EuroLLM 9B: modelo de 9 mil millones de parámetros, entrenado con datos de 4 billones de tokens en 35 idiomas
- El modelo Base está pensado para fine-tuning por parte de los usuarios, y el modelo Instruct cuenta con capacidad para seguir instrucciones en modo conversacional
Funciones principales:
- Optimizado para rendimiento en procesamiento multilingüe del lenguaje natural, incluyendo preguntas y respuestas, resúmenes y traducción
- Expansión multimodal prevista — en el futuro se añadirán capacidades de comprensión de imágenes y voz
- Distribución open source para que investigadores, instituciones y ciudadanos en general puedan utilizarlo libremente

Instituciones participantes y red de colaboración

Instituciones participantes:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
Principales investigadores:
- André Martins (Unbabel, profesor del Instituto Técnico de Lisboa) — especialista en machine learning y procesamiento de lenguaje natural
- Alexandra Birch (Aveni.ai, profesora en Edimburgo) — líder en investigación sobre traducción multilingüe e IA ética
- Pierre Colombo (Université Paris-Saclay) — investigador en seguridad de IA y aplicaciones legales de IA

Misión y visión

El objetivo de EuroLLM es asegurar la soberanía europea en IA y promover el avance de la tecnología multilingüe
- A través de un LLM desarrollado de forma independiente en Europa, busca crear un círculo virtuoso de innovación (flywheel for innovation)
- Apoya a investigadores y empresas para que puedan ampliar nuevos servicios e investigaciones basados en modelos de IA europeos
La iniciativa apunta a que Europa refuerce su liderazgo tecnológico basado en la diversidad lingüística y construya un modelo de innovación autosuficiente dentro del ecosistema global de IA

1 comentarios

GN⁺ 2025-10-29

Comentarios de Hacker News

La Unión Europea tiene un total de 24 idiomas oficiales: búlgaro, croata, checo, danés, neerlandés, inglés, estonio, finés, francés, alemán, griego, húngaro, irlandés, italiano, letón, lituano, maltés, polaco, portugués, rumano, eslovaco, esloveno, español y sueco.
El maltés es el único idioma afroasiático, y el húngaro, el finés y el estonio pertenecen a la familia urálica. El resto son indoeuropeos; el griego pertenece al grupo helénico y el irlandés a la familia celta.
- Para ser precisos, el maltés es una lengua semítica. Ver Wikipedia
- Mañana, en las elecciones generales de los Países Bajos, dos partidos propusieron agregar el frisón a la lista de idiomas oficiales. Artículo relacionado
  Tal vez haya que reentrenar el modelo.
- Puedo leer, escribir y hablar maltés. Si tienen cualquier duda sobre el idioma, pregunten lo que quieran.
- El lituano y el letón son lenguas bálticas. No están relacionadas con las lenguas eslavas.
- Si uno revisa el paper, el modelo no se limita solo a estos 24 idiomas. También incluye árabe, catalán, chino, hindi, japonés, coreano, noruego, ruso, turco, ucraniano y otros. PDF del paper
  Parece que una de las principales contribuciones de este trabajo es el tratamiento detallado de las fuentes de los datos de entrenamiento.
Parece que los responsables de políticas públicas en Europa no tienen idea de cómo impulsar industrias intensivas en tecnología. El esquema de subsidios de “elegir ganadores” está condenado al fracaso. También es interesante la discusión sobre el acceso a las supercomputadoras europeas. Tuit relacionado
- Los procesos de subsidios de la UE no son precisamente divertidos, pero Levels parece tener un poco de exceso de confianza. Monetiza bien como influencer, pero no me parece adecuado usar una supercomputadora financiada por el Estado para correr un juego de navegador basado en publicidad.
- Lo realmente importante es que Europa cree un entorno amigable para las startups de IA. Primero hay que flexibilizar la regulación y dar beneficios fiscales.
  Pero en la práctica, la mayor limitación que enfrentan las empresas europeas no es la regulación, sino el acceso al capital.
  China, de hecho, tiene regulaciones más estrictas y aun así su industria de software ha prosperado. Corea también se benefició del proteccionismo.
  Lo que Europa debería aprender es más proteccionismo tecnológico. Al final, Pieter Levels no deja de ser un influencer, no un fundador serio.
- Me pregunto qué resultados produce realmente esta estrategia de “elegir ganadores”.
- Dudo que el objetivo real de estas políticas sea de verdad “elegir ganadores”, o si más bien buscan fortalecer las capacidades de los emprendedores y estimular la economía.
  En EE. UU. hay muchos fundadores que vienen de FAANG, pero en Europa falta ese ecosistema.
  Incluso si el proyecto de supercomputación fracasa, puede que el objetivo sean los efectos económicos indirectos.
- La gente es demasiado indulgente con él. Mucha gente ni siquiera sabe quién es ‘levelsio’, así que me pregunto por qué todos actúan como si lo conocieran.
Falta “(2024)” en el título. El modelo 9B se publicó en diciembre del año pasado. Página oficial
En el equipo de EuroLLM participan instituciones europeas importantes como Unbabel, Instituto Tecnico Lisbon, University of Edinburgh y Naver Labs.
Europa ya opera una red pública de supercomputadoras a través de EuroHPC JU, y dicen que comenzaron a desarrollar el modelo apenas obtuvieron acceso. Historia oficial
En otras palabras, reutilizaron recursos de cómputo pensados para simulaciones físicas.
¿No soportan ya varios idiomas la mayoría de los modelos frontier? No creo que haga falta incluir soporte por idioma por separado.
- Pero lo clave de este modelo es que fue entrenado con datos oficiales de la UE.
- No se trata solo de tener ejemplos del idioma; importa la proporción de datos de cada lengua. Como los datos en inglés son abrumadoramente más numerosos, el rendimiento en otros idiomas cae.
- El método de entrenamiento es diferente. En el caso del japonés, por ejemplo, muchas veces el rendimiento baja por problemas de tokenización.
- En idiomas distintos del inglés, a menudo el tono suena como una traducción poco natural. Los usuarios de francés suelen señalar frases mal construidas.
- Los gobiernos europeos tienen enormes cantidades de material digital y datos culturales. Estas diferencias culturales también pueden influir en los valores del modelo.
Es una pena que no se haya publicado el corpus realmente usado. En idiomas minoritarios como el irlandés, probablemente la mayor parte esté basada en documentos legales, y casi no haya datos coloquiales.
Sería interesante hacer evaluaciones por idioma usando criterios de hablantes nativos.
Los LLM podrían tener un impacto positivo en estos idiomas en peligro de desaparición, pero antes de eso también existen riesgos (por ejemplo, el caso de la Wikipedia en gaélico escocés).
Aun así, en general me parece un buen intento.
EuroLLM-9B es un modelo publicado en diciembre de 2024 y, según MMLU-Pro, obtuvo 17.6%, un nivel apenas por encima del azar.
Aquí hay una tabla comparativa con otros modelos de la UE: aquí
Me pregunto por qué solo EE. UU. y China producen modelos realmente destacados. Fuera de Mistral en Francia, casi no hay modelos europeos. India, Japón y Corea están en una situación similar.
- No sorprende. Europa viene quedándose atrás de forma constante en competitividad tecnológica.
  Tiene 1.3 veces la población de EE. UU. y el 75% de su PIB, pero el tamaño de su industria tecnológica es apenas una fracción de la de EE. UU.
  Las 7 grandes tecnológicas de EE. UU. son 20 veces más grandes que las 7 mayores empresas europeas, y generan 10 veces más ingresos. Enlace de referencia
- Europa tiene poco acceso al capital y un mercado fragmentado.
  Por eso depende de financiamiento académico como Horizon, pero este tipo de colaboración difícilmente termina en productos.
- Entrenar modelos frontier requiere una enorme estructura de capital. Solo EE. UU. y China pueden reunir decenas de miles de millones de dólares.
- La UE elaboró una ley de IA de 900 páginas y se felicitó por ello, mientras que China ya había puesto en marcha antes una ley de dos páginas.
- En realidad, el valor comercial de estos modelos todavía no está demostrado. La mayoría sigue funcionando gracias a contratos gubernamentales o dinero de inversionistas.
Para descargar el modelo EuroLLM-9B desde Hugging Face hay que aceptar proporcionar datos de contacto. Me pregunto si este tipo de requisito es común.
- Yo también lo he visto en algunos modelos. Por ejemplo, Llama 3.1-8B-Instruct tiene un proceso parecido.
- Sí, es un procedimiento bastante común.
Es interesante que el modelo 9B esté recibiendo atención. Pero el modelo TildeOpen-30B, publicado hace dos meses y con soporte para 19 idiomas europeos, casi no fue mencionado. Página del modelo
Su rendimiento base es bajo, pero es un modelo abierto con gran potencial para fine-tuning.

EuroLLM: un LLM desarrollado en Europa que admite los 24 idiomas oficiales de la UE

Resumen de EuroLLM

Características técnicas

Instituciones participantes y red de colaboración

Misión y visión

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News