El OMT omnilingüe de Meta para 1,600 idiomas

(ai.meta.com)

4 puntos por GN⁺ 2026-03-22 | 1 comentarios | Compartir por WhatsApp

Omnilingual Machine Translation (OMT), desarrollado por Meta AI, es el primer sistema de traducción automática que admite más de 1,600 idiomas, superando el límite de 200 idiomas del proyecto NLLB anterior
Combina corpus abiertos, retrotraducción y minería de datos para construir un dataset multilingüe a gran escala que abarca incluso idiomas de bajos recursos y minoritarios
Integra diversas herramientas de evaluación de calidad y toxicidad como BLASER 3, OmniTOX, BOUQuET y Met-BOUQuET para medir con alta confiabilidad el rendimiento de traducción
Utiliza en paralelo un modelo decoder-only basado en LLaMA3 y OMT-NLLB con arquitectura encoder-decoder para lograr traducción de alta calidad incluso en entornos con pocos recursos de cómputo
Logra generación consistente de oraciones y una mejor transferencia entre idiomas en los 1,600 idiomas, y es considerado un avance importante para ampliar la inclusión lingüística global

Panorama general de Omnilingual MT

Omnilingual Machine Translation (OMT) es el primer sistema de traducción automática compatible con más de 1,600 idiomas, desarrollado por Meta AI
Basándose en los logros del proyecto No Language Left Behind (NLLB), que había ampliado el alcance hasta 200 idiomas, cubre una cantidad mucho mayor de lenguas
La traducción basada en grandes modelos de lenguaje (LLM) existentes ofrecía alta calidad, pero tenía un alcance lingüístico limitado, y en particular se señalaba como problema la falta de capacidad de generación en idiomas de bajos recursos y minoritarios
Para superar esas limitaciones, OMT amplía de forma integral la estrategia de datos, la arquitectura del modelo y el sistema de evaluación

Estrategia de datos y expansión de la cobertura lingüística

OMT amplía considerablemente el alcance lingüístico al integrar corpus multilingües abiertos y datasets nuevos generados
- Combina MeDLEY bitext (datos paralelos depurados manualmente), retrotraducción sintética (synthetic backtranslation) y técnicas de minería de datos (mining)
- Con ello, abarca idiomas minoritarios (long-tail languages) y también diversos dominios y registros
Esta estrategia de datos sienta la base para asegurar la capacidad de expresión de una parte significativa de los más de 7,000 idiomas que los sistemas anteriores no podían manejar

Sistema de evaluación y medición de calidad

Para garantizar confiabilidad y escalabilidad, combina métricas estándar con varias herramientas de evaluación
- BLASER 3
  modelo de evaluación sin referencia que estima la calidad sin oraciones de referencia
  - OmniTOX: clasificador que detecta la toxicidad en los resultados de traducción
  - BOUQuET: dataset de evaluación multilingüe a gran escala construido manualmente, que incluye diversos grupos lingüísticos
  - Met-BOUQuET: dataset ampliado para la estimación de calidad multilingüe a gran escala
  - Estos datasets se ofrecen junto con un leaderboard público actualizado continuamente, para que los investigadores puedan utilizarlos libremente

Arquitectura del modelo y enfoque de entrenamiento

OMT especializa los LLM para traducción de dos maneras
- OMT-LLaMA
  - modelo decoder-only basado en LLaMA3
  - Refuerza la adaptabilidad en inferencia mediante preentrenamiento continuo multilingüe (multilingual continual pretraining) y traducción aumentada por recuperación (retrieval-augmented translation)
- OMT-NLLB
  - Con arquitectura encoder-decoder, construido sobre un espacio de alineación multilingüe llamado OmniSONAR
  - Introduce un método de entrenamiento que puede aprovechar datos no paralelos (non-parallel data)
  - Permite integrar datos de preentrenamiento decoder-only en el entrenamiento encoder-decoder
  - Los modelos de 1B a 8B parámetros lograron un rendimiento de traducción igual o superior al modelo base LLM de 70B, demostrando la posibilidad de traducción de alta calidad incluso en entornos con bajo cómputo

Rendimiento y capacidad de generación lingüística

En la evaluación de traducción del inglés hacia 1,600 idiomas, los modelos anteriores a menudo entendían los idiomas de bajos recursos, pero fallaban al generar oraciones con sentido
El modelo OMT-LLaMA amplió significativamente la generación coherente (coherent generation) para esos idiomas
También mejoró el rendimiento de la transferencia entre idiomas (cross-lingual transfer), resolviendo casi por completo los problemas en el aspecto de comprensión (understanding) para los 1,600 idiomas
Mediante ajuste fino (finetuning) y generación aumentada por recuperación (RAG), es posible mejorar aún más la calidad en idiomas o dominios específicos

Recursos públicos y expansión de la investigación

Los datasets BOUQuET y Met-BOUQuET están disponibles gratuitamente y siguen ampliándose hacia la omnilinguality
El equipo de investigación busca mejorar la accesibilidad para idiomas de bajos recursos y establecer una base para la investigación de IA multilingüe
OMT es considerado el primer sistema de traducción verdaderamente práctico que abarca una diversidad lingüística a gran escala, y un avance importante para la inclusión lingüística global

1 comentarios

GN⁺ 2026-03-22

Comentarios de Hacker News

He sentido que la calidad de traducción de Meta es considerablemente inferior a la de otros servicios
Esto es aún peor en idiomas poco conocidos
Google Translate está bien como opción por defecto, pero la traducción basada en LLM es mucho mejor para entender el contexto y transmitir matices culturales
Vivo en Camboya, así que comparo con frecuencia la calidad de traducción del jemer
- ¡Saludos desde Siem Reap! Da gusto encontrar a otro entusiasta de la tecnología en Camboya
  Según mi experiencia, la traducción de Facebook es más natural en oraciones largas que la de Google
  El jemer es un idioma dependiente del contexto y verboso, así que parece que un LLM podría ayudar bastante
  En cambio, cuando se traduce del inglés al jemer, los locales dicen que el resultado suena formal y robótico, lo cual es interesante
- Kagi Translate es realmente excelente
  Creo que el soporte multilingüe es una de las ventajas más geniales de los LLM
- Es interesante que los LLM sean mejores que Google para traducir jemer
  Me pregunto por qué Google no usa Gemini internamente, quizá sea por el problema de las alucinaciones
  Me gustaría ver una prueba cuantitativa que compare varios LLM y APIs de traducción
- La traducción al chino también es mala
- Corrección de typo (they're)
Dicen que puede traducir 1600 idiomas, pero ni siquiera logra la concordancia sujeto-verbo en la primera oración del resumen en inglés
Afirman que, a través del proyecto NLLB (No Language Left Behind), lograron traducción de alta calidad ampliada a 200 idiomas
Inicié una empresa que hace algo parecido — 6k.ai
Estamos enfocados en la recolección de datos para idiomas de bajos recursos
Si ves datasets como Common Crawl, finepdfs o fineweb, (1) casi no hay datos de buena calidad y (2) la forma de procesarlos es demasiado burda
Por ejemplo, finepdfs clasifica cada página PDF como un solo idioma, pero en realidad hay muchos datos de pares de idiomas
- Yo también estoy investigando con el mismo enfoque en idiomas de bajos recursos, especialmente los idiomas mayas
  He publicado materiales en wikilangs.org, omneitylabs.com y este blog relacionado
  El mayor cuello de botella no es recolectar texto, sino la precisión de la identificación de idioma
  En datasets como Common Crawl o Fineweb, la distinción entre idiomas es ambigua
  Trabajé en mejoras relacionadas con mi lengua materna en Fineweb 2, y quizá podría servirte de inspiración
  Como problemas similares se repiten en varias regiones, me gustaría colaborar más adelante
- Common Crawl también lleva un año y medio trabajando en un proyecto de idiomas de bajos recursos; de verdad es un problema difícil
- Varias agencias gubernamentales de distintos países también están investigando este problema
  Me pregunto si has revisado esos datasets públicos y qué idiomas estás priorizando
Me tomó bastante tiempo encontrar el enlace de descarga de los pesos del modelo
Si es open-weight, me pregunto por qué no hay un enlace de acceso directo
- No se menciona que este modelo sea open-weight (el NLLB anterior sí era público)
  En cambio, sí están abiertos el leaderboard y el dataset de evaluación
  En el paper solo mencionan que “nuestro modelo de traducción se construyó sobre modelos disponibles libremente”
Estamos en 2026 y no entiendo por qué todavía no existe una función de transcripción automática de mensajes de voz
Dicen que puede traducir 1600 idiomas, pero ni siquiera hace una separación básica de párrafos
- Por regla general, el resumen de un paper se escribe originalmente en un solo párrafo
1600 idiomas son muchos, pero todavía falta bastante para llamarlo “Omni”
Normalmente se estima que hay entre 4 mil y 8 mil idiomas, y conseguir los primeros 1,000 idiomas es lo más difícil
- En marketing hay que usar palabras como “frontier” o “edge” para que se sienta pro
En investigaciones anteriores (Lauscher 2020) se decía que, a medida que aumenta el número de idiomas, la calidad de traducción cae: la maldición del multilingüismo
Pero parece que Meta logró superarlo
Según el resumen del paper, introdujeron mejoras en la calidad de los datos de entrenamiento y nuevas herramientas de evaluación
También afirman que OMT-LLaMA tiene mejor calidad de generación de texto que los modelos anteriores
Como dato interesante, está el benchmark BOUQuET presentado por Meta
Es una iniciativa abierta para evaluar la calidad de traducción de forma panlingüística
huggingface.co/spaces/facebook/bouquet
Desde el boom de la IA, la traducción de la documentación de MS se volvió un desastre
Por ejemplo, traduce try/catch al alemán como “versuchen/fangen”
- Ese tipo de traducciones incluso tienen valor negativo
  Especialmente en entornos corporativos, es más molesto porque cambiar la configuración regional no suele ser fácil
  También hay muchos errores básicos, como traducir “shortly” como “short”

El OMT omnilingüe de Meta para 1,600 idiomas

Panorama general de Omnilingual MT

Estrategia de datos y expansión de la cobertura lingüística

Sistema de evaluación y medición de calidad

BLASER 3

Arquitectura del modelo y enfoque de entrenamiento

OMT-LLaMA

OMT-NLLB

Rendimiento y capacidad de generación lingüística

Recursos públicos y expansión de la investigación

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News