- Omnilingual Machine Translation (OMT), desarrollado por Meta AI, es el primer sistema de traducción automática que admite más de 1,600 idiomas, superando el límite de 200 idiomas del proyecto NLLB anterior
- Combina corpus abiertos, retrotraducción y minería de datos para construir un dataset multilingüe a gran escala que abarca incluso idiomas de bajos recursos y minoritarios
- Integra diversas herramientas de evaluación de calidad y toxicidad como BLASER 3, OmniTOX, BOUQuET y Met-BOUQuET para medir con alta confiabilidad el rendimiento de traducción
- Utiliza en paralelo un modelo decoder-only basado en LLaMA3 y OMT-NLLB con arquitectura encoder-decoder para lograr traducción de alta calidad incluso en entornos con pocos recursos de cómputo
- Logra generación consistente de oraciones y una mejor transferencia entre idiomas en los 1,600 idiomas, y es considerado un avance importante para ampliar la inclusión lingüística global
Panorama general de Omnilingual MT
- Omnilingual Machine Translation (OMT) es el primer sistema de traducción automática compatible con más de 1,600 idiomas, desarrollado por Meta AI
- Basándose en los logros del proyecto No Language Left Behind (NLLB), que había ampliado el alcance hasta 200 idiomas, cubre una cantidad mucho mayor de lenguas
- La traducción basada en grandes modelos de lenguaje (LLM) existentes ofrecía alta calidad, pero tenía un alcance lingüístico limitado, y en particular se señalaba como problema la falta de capacidad de generación en idiomas de bajos recursos y minoritarios
- Para superar esas limitaciones, OMT amplía de forma integral la estrategia de datos, la arquitectura del modelo y el sistema de evaluación
Estrategia de datos y expansión de la cobertura lingüística
- OMT amplía considerablemente el alcance lingüístico al integrar corpus multilingües abiertos y datasets nuevos generados
- Combina MeDLEY bitext (datos paralelos depurados manualmente), retrotraducción sintética (synthetic backtranslation) y técnicas de minería de datos (mining)
- Con ello, abarca idiomas minoritarios (long-tail languages) y también diversos dominios y registros
- Esta estrategia de datos sienta la base para asegurar la capacidad de expresión de una parte significativa de los más de 7,000 idiomas que los sistemas anteriores no podían manejar
Sistema de evaluación y medición de calidad
- Para garantizar confiabilidad y escalabilidad, combina métricas estándar con varias herramientas de evaluación
-
BLASER 3
modelo de evaluación sin referencia que estima la calidad sin oraciones de referencia
- OmniTOX: clasificador que detecta la toxicidad en los resultados de traducción
- BOUQuET: dataset de evaluación multilingüe a gran escala construido manualmente, que incluye diversos grupos lingüísticos
- Met-BOUQuET: dataset ampliado para la estimación de calidad multilingüe a gran escala
- Estos datasets se ofrecen junto con un leaderboard público actualizado continuamente, para que los investigadores puedan utilizarlos libremente
Arquitectura del modelo y enfoque de entrenamiento
- OMT especializa los LLM para traducción de dos maneras
-
OMT-LLaMA
- modelo decoder-only basado en LLaMA3
- Refuerza la adaptabilidad en inferencia mediante preentrenamiento continuo multilingüe (multilingual continual pretraining) y traducción aumentada por recuperación (retrieval-augmented translation)
-
OMT-NLLB
- Con arquitectura encoder-decoder, construido sobre un espacio de alineación multilingüe llamado OmniSONAR
- Introduce un método de entrenamiento que puede aprovechar datos no paralelos (non-parallel data)
- Permite integrar datos de preentrenamiento decoder-only en el entrenamiento encoder-decoder
- Los modelos de 1B a 8B parámetros lograron un rendimiento de traducción igual o superior al modelo base LLM de 70B, demostrando la posibilidad de traducción de alta calidad incluso en entornos con bajo cómputo
Rendimiento y capacidad de generación lingüística
- En la evaluación de traducción del inglés hacia 1,600 idiomas, los modelos anteriores a menudo entendían los idiomas de bajos recursos, pero fallaban al generar oraciones con sentido
- El modelo OMT-LLaMA amplió significativamente la generación coherente (coherent generation) para esos idiomas
- También mejoró el rendimiento de la transferencia entre idiomas (cross-lingual transfer), resolviendo casi por completo los problemas en el aspecto de comprensión (understanding) para los 1,600 idiomas
- Mediante ajuste fino (finetuning) y generación aumentada por recuperación (RAG), es posible mejorar aún más la calidad en idiomas o dominios específicos
Recursos públicos y expansión de la investigación
- Los datasets BOUQuET y Met-BOUQuET están disponibles gratuitamente y siguen ampliándose hacia la omnilinguality
- El equipo de investigación busca mejorar la accesibilidad para idiomas de bajos recursos y establecer una base para la investigación de IA multilingüe
- OMT es considerado el primer sistema de traducción verdaderamente práctico que abarca una diversidad lingüística a gran escala, y un avance importante para la inclusión lingüística global
1 comentarios
Comentarios de Hacker News
He sentido que la calidad de traducción de Meta es considerablemente inferior a la de otros servicios
Esto es aún peor en idiomas poco conocidos
Google Translate está bien como opción por defecto, pero la traducción basada en LLM es mucho mejor para entender el contexto y transmitir matices culturales
Vivo en Camboya, así que comparo con frecuencia la calidad de traducción del jemer
Según mi experiencia, la traducción de Facebook es más natural en oraciones largas que la de Google
El jemer es un idioma dependiente del contexto y verboso, así que parece que un LLM podría ayudar bastante
En cambio, cuando se traduce del inglés al jemer, los locales dicen que el resultado suena formal y robótico, lo cual es interesante
Creo que el soporte multilingüe es una de las ventajas más geniales de los LLM
Me pregunto por qué Google no usa Gemini internamente, quizá sea por el problema de las alucinaciones
Me gustaría ver una prueba cuantitativa que compare varios LLM y APIs de traducción
Dicen que puede traducir 1600 idiomas, pero ni siquiera logra la concordancia sujeto-verbo en la primera oración del resumen en inglés
Afirman que, a través del proyecto NLLB (No Language Left Behind), lograron traducción de alta calidad ampliada a 200 idiomas
Inicié una empresa que hace algo parecido — 6k.ai
Estamos enfocados en la recolección de datos para idiomas de bajos recursos
Si ves datasets como Common Crawl, finepdfs o fineweb, (1) casi no hay datos de buena calidad y (2) la forma de procesarlos es demasiado burda
Por ejemplo, finepdfs clasifica cada página PDF como un solo idioma, pero en realidad hay muchos datos de pares de idiomas
He publicado materiales en wikilangs.org, omneitylabs.com y este blog relacionado
El mayor cuello de botella no es recolectar texto, sino la precisión de la identificación de idioma
En datasets como Common Crawl o Fineweb, la distinción entre idiomas es ambigua
Trabajé en mejoras relacionadas con mi lengua materna en Fineweb 2, y quizá podría servirte de inspiración
Como problemas similares se repiten en varias regiones, me gustaría colaborar más adelante
Me pregunto si has revisado esos datasets públicos y qué idiomas estás priorizando
Me tomó bastante tiempo encontrar el enlace de descarga de los pesos del modelo
Si es open-weight, me pregunto por qué no hay un enlace de acceso directo
En cambio, sí están abiertos el leaderboard y el dataset de evaluación
En el paper solo mencionan que “nuestro modelo de traducción se construyó sobre modelos disponibles libremente”
Estamos en 2026 y no entiendo por qué todavía no existe una función de transcripción automática de mensajes de voz
Dicen que puede traducir 1600 idiomas, pero ni siquiera hace una separación básica de párrafos
1600 idiomas son muchos, pero todavía falta bastante para llamarlo “Omni”
Normalmente se estima que hay entre 4 mil y 8 mil idiomas, y conseguir los primeros 1,000 idiomas es lo más difícil
En investigaciones anteriores (Lauscher 2020) se decía que, a medida que aumenta el número de idiomas, la calidad de traducción cae: la maldición del multilingüismo
Pero parece que Meta logró superarlo
Según el resumen del paper, introdujeron mejoras en la calidad de los datos de entrenamiento y nuevas herramientas de evaluación
También afirman que OMT-LLaMA tiene mejor calidad de generación de texto que los modelos anteriores
Como dato interesante, está el benchmark BOUQuET presentado por Meta
Es una iniciativa abierta para evaluar la calidad de traducción de forma panlingüística
huggingface.co/spaces/facebook/bouquet
Desde el boom de la IA, la traducción de la documentación de MS se volvió un desastre
Por ejemplo, traduce try/catch al alemán como “versuchen/fangen”
Especialmente en entornos corporativos, es más molesto porque cambiar la configuración regional no suele ser fácil
También hay muchos errores básicos, como traducir “shortly” como “short”