4 puntos por GN⁺ 2026-03-22 | 1 comentarios | Compartir por WhatsApp
  • Omnilingual Machine Translation (OMT), desarrollado por Meta AI, es el primer sistema de traducción automática que admite más de 1,600 idiomas, superando el límite de 200 idiomas del proyecto NLLB anterior
  • Combina corpus abiertos, retrotraducción y minería de datos para construir un dataset multilingüe a gran escala que abarca incluso idiomas de bajos recursos y minoritarios
  • Integra diversas herramientas de evaluación de calidad y toxicidad como BLASER 3, OmniTOX, BOUQuET y Met-BOUQuET para medir con alta confiabilidad el rendimiento de traducción
  • Utiliza en paralelo un modelo decoder-only basado en LLaMA3 y OMT-NLLB con arquitectura encoder-decoder para lograr traducción de alta calidad incluso en entornos con pocos recursos de cómputo
  • Logra generación consistente de oraciones y una mejor transferencia entre idiomas en los 1,600 idiomas, y es considerado un avance importante para ampliar la inclusión lingüística global

Panorama general de Omnilingual MT

  • Omnilingual Machine Translation (OMT) es el primer sistema de traducción automática compatible con más de 1,600 idiomas, desarrollado por Meta AI
  • Basándose en los logros del proyecto No Language Left Behind (NLLB), que había ampliado el alcance hasta 200 idiomas, cubre una cantidad mucho mayor de lenguas
  • La traducción basada en grandes modelos de lenguaje (LLM) existentes ofrecía alta calidad, pero tenía un alcance lingüístico limitado, y en particular se señalaba como problema la falta de capacidad de generación en idiomas de bajos recursos y minoritarios
  • Para superar esas limitaciones, OMT amplía de forma integral la estrategia de datos, la arquitectura del modelo y el sistema de evaluación

Estrategia de datos y expansión de la cobertura lingüística

  • OMT amplía considerablemente el alcance lingüístico al integrar corpus multilingües abiertos y datasets nuevos generados
    • Combina MeDLEY bitext (datos paralelos depurados manualmente), retrotraducción sintética (synthetic backtranslation) y técnicas de minería de datos (mining)
    • Con ello, abarca idiomas minoritarios (long-tail languages) y también diversos dominios y registros
  • Esta estrategia de datos sienta la base para asegurar la capacidad de expresión de una parte significativa de los más de 7,000 idiomas que los sistemas anteriores no podían manejar

Sistema de evaluación y medición de calidad

  • Para garantizar confiabilidad y escalabilidad, combina métricas estándar con varias herramientas de evaluación
    • BLASER 3

      modelo de evaluación sin referencia que estima la calidad sin oraciones de referencia
      • OmniTOX: clasificador que detecta la toxicidad en los resultados de traducción
      • BOUQuET: dataset de evaluación multilingüe a gran escala construido manualmente, que incluye diversos grupos lingüísticos
      • Met-BOUQuET: dataset ampliado para la estimación de calidad multilingüe a gran escala
      • Estos datasets se ofrecen junto con un leaderboard público actualizado continuamente, para que los investigadores puedan utilizarlos libremente

Arquitectura del modelo y enfoque de entrenamiento

  • OMT especializa los LLM para traducción de dos maneras
    • OMT-LLaMA

      • modelo decoder-only basado en LLaMA3
      • Refuerza la adaptabilidad en inferencia mediante preentrenamiento continuo multilingüe (multilingual continual pretraining) y traducción aumentada por recuperación (retrieval-augmented translation)
    • OMT-NLLB

      • Con arquitectura encoder-decoder, construido sobre un espacio de alineación multilingüe llamado OmniSONAR
      • Introduce un método de entrenamiento que puede aprovechar datos no paralelos (non-parallel data)
      • Permite integrar datos de preentrenamiento decoder-only en el entrenamiento encoder-decoder
      • Los modelos de 1B a 8B parámetros lograron un rendimiento de traducción igual o superior al modelo base LLM de 70B, demostrando la posibilidad de traducción de alta calidad incluso en entornos con bajo cómputo

Rendimiento y capacidad de generación lingüística

  • En la evaluación de traducción del inglés hacia 1,600 idiomas, los modelos anteriores a menudo entendían los idiomas de bajos recursos, pero fallaban al generar oraciones con sentido
  • El modelo OMT-LLaMA amplió significativamente la generación coherente (coherent generation) para esos idiomas
  • También mejoró el rendimiento de la transferencia entre idiomas (cross-lingual transfer), resolviendo casi por completo los problemas en el aspecto de comprensión (understanding) para los 1,600 idiomas
  • Mediante ajuste fino (finetuning) y generación aumentada por recuperación (RAG), es posible mejorar aún más la calidad en idiomas o dominios específicos

Recursos públicos y expansión de la investigación

  • Los datasets BOUQuET y Met-BOUQuET están disponibles gratuitamente y siguen ampliándose hacia la omnilinguality
  • El equipo de investigación busca mejorar la accesibilidad para idiomas de bajos recursos y establecer una base para la investigación de IA multilingüe
  • OMT es considerado el primer sistema de traducción verdaderamente práctico que abarca una diversidad lingüística a gran escala, y un avance importante para la inclusión lingüística global

1 comentarios

 
GN⁺ 2026-03-22
Comentarios de Hacker News
  • He sentido que la calidad de traducción de Meta es considerablemente inferior a la de otros servicios
    Esto es aún peor en idiomas poco conocidos
    Google Translate está bien como opción por defecto, pero la traducción basada en LLM es mucho mejor para entender el contexto y transmitir matices culturales
    Vivo en Camboya, así que comparo con frecuencia la calidad de traducción del jemer

    • ¡Saludos desde Siem Reap! Da gusto encontrar a otro entusiasta de la tecnología en Camboya
      Según mi experiencia, la traducción de Facebook es más natural en oraciones largas que la de Google
      El jemer es un idioma dependiente del contexto y verboso, así que parece que un LLM podría ayudar bastante
      En cambio, cuando se traduce del inglés al jemer, los locales dicen que el resultado suena formal y robótico, lo cual es interesante
    • Kagi Translate es realmente excelente
      Creo que el soporte multilingüe es una de las ventajas más geniales de los LLM
    • Es interesante que los LLM sean mejores que Google para traducir jemer
      Me pregunto por qué Google no usa Gemini internamente, quizá sea por el problema de las alucinaciones
      Me gustaría ver una prueba cuantitativa que compare varios LLM y APIs de traducción
    • La traducción al chino también es mala
    • Corrección de typo (they're)
  • Dicen que puede traducir 1600 idiomas, pero ni siquiera logra la concordancia sujeto-verbo en la primera oración del resumen en inglés
    Afirman que, a través del proyecto NLLB (No Language Left Behind), lograron traducción de alta calidad ampliada a 200 idiomas

  • Inicié una empresa que hace algo parecido — 6k.ai
    Estamos enfocados en la recolección de datos para idiomas de bajos recursos
    Si ves datasets como Common Crawl, finepdfs o fineweb, (1) casi no hay datos de buena calidad y (2) la forma de procesarlos es demasiado burda
    Por ejemplo, finepdfs clasifica cada página PDF como un solo idioma, pero en realidad hay muchos datos de pares de idiomas

    • Yo también estoy investigando con el mismo enfoque en idiomas de bajos recursos, especialmente los idiomas mayas
      He publicado materiales en wikilangs.org, omneitylabs.com y este blog relacionado
      El mayor cuello de botella no es recolectar texto, sino la precisión de la identificación de idioma
      En datasets como Common Crawl o Fineweb, la distinción entre idiomas es ambigua
      Trabajé en mejoras relacionadas con mi lengua materna en Fineweb 2, y quizá podría servirte de inspiración
      Como problemas similares se repiten en varias regiones, me gustaría colaborar más adelante
    • Common Crawl también lleva un año y medio trabajando en un proyecto de idiomas de bajos recursos; de verdad es un problema difícil
    • Varias agencias gubernamentales de distintos países también están investigando este problema
      Me pregunto si has revisado esos datasets públicos y qué idiomas estás priorizando
  • Me tomó bastante tiempo encontrar el enlace de descarga de los pesos del modelo
    Si es open-weight, me pregunto por qué no hay un enlace de acceso directo

    • No se menciona que este modelo sea open-weight (el NLLB anterior sí era público)
      En cambio, sí están abiertos el leaderboard y el dataset de evaluación
      En el paper solo mencionan que “nuestro modelo de traducción se construyó sobre modelos disponibles libremente”
  • Estamos en 2026 y no entiendo por qué todavía no existe una función de transcripción automática de mensajes de voz

  • Dicen que puede traducir 1600 idiomas, pero ni siquiera hace una separación básica de párrafos

    • Por regla general, el resumen de un paper se escribe originalmente en un solo párrafo
  • 1600 idiomas son muchos, pero todavía falta bastante para llamarlo “Omni”
    Normalmente se estima que hay entre 4 mil y 8 mil idiomas, y conseguir los primeros 1,000 idiomas es lo más difícil

    • En marketing hay que usar palabras como “frontier” o “edge” para que se sienta pro
  • En investigaciones anteriores (Lauscher 2020) se decía que, a medida que aumenta el número de idiomas, la calidad de traducción cae: la maldición del multilingüismo
    Pero parece que Meta logró superarlo
    Según el resumen del paper, introdujeron mejoras en la calidad de los datos de entrenamiento y nuevas herramientas de evaluación
    También afirman que OMT-LLaMA tiene mejor calidad de generación de texto que los modelos anteriores

  • Como dato interesante, está el benchmark BOUQuET presentado por Meta
    Es una iniciativa abierta para evaluar la calidad de traducción de forma panlingüística
    huggingface.co/spaces/facebook/bouquet

  • Desde el boom de la IA, la traducción de la documentación de MS se volvió un desastre
    Por ejemplo, traduce try/catch al alemán como “versuchen/fangen”

    • Ese tipo de traducciones incluso tienen valor negativo
      Especialmente en entornos corporativos, es más molesto porque cambiar la configuración regional no suele ser fácil
      También hay muchos errores básicos, como traducir “shortly” como “short”