4 puntos por GN⁺ 2023-12-02 | 1 comentarios | Compartir por WhatsApp
  • Una familia de modelos de investigación en IA diseñada para eliminar las barreras entre idiomas y permitir una comunicación más natural entre múltiples lenguas
    • SeamlessExpressive: preserva la expresividad y los matices del lenguaje entre distintos idiomas
    • SeamlessStreaming: ofrece traducción de voz y texto con una latencia de alrededor de 2 segundos
    • SeamlessM4T v2: modelo fundacional multilingüe y multitarea que permite la comunicación mediante voz y texto
    • Seamless: integra en uno solo las capacidades de SeamlessExpressive, SeamlessStreaming y SeamlessM4T v2

Preservar los matices de la expresión

  • SeamlessExpressive busca lograr traducciones que capturen los matices de la expresión humana
  • Las herramientas de traducción existentes son buenas para captar el contenido de una conversación, pero por lo general producen una voz monótona y robótica
  • SeamlessExpressive intenta conservar no solo el estilo de voz y la carga emocional, sino también matices del habla como la velocidad al hablar y las pausas

Traducción casi en tiempo real

  • SeamlessStreaming es el primer modelo multilingüe de gran escala que ofrece traducción con una latencia de alrededor de 2 segundos
  • Está basado en SeamlessM4T v2 y admite reconocimiento automático de voz y traducción de voz a texto para casi 100 idiomas de entrada y salida
  • También admite traducción de voz a voz para casi 100 idiomas de entrada y 36 idiomas de salida

Modelo base para traducción universal

  • En agosto de 2023, Meta presentó la primera versión de SeamlessM4T, que ofrecía resultados de vanguardia en traducción y transcripción tanto de voz como de texto
  • Sobre esa base, SeamlessM4T v2, un modelo mejorado, se convierte en la base de los nuevos modelos SeamlessExpressive y SeamlessStreaming
  • Incorpora una nueva arquitectura y un decodificador de texto a unidades no autorregresivo para mejorar la consistencia entre las salidas de texto y voz

Enfoque de investigación

  • Con la convicción en el poder de la colaboración y la investigación abierta, Meta publica toda la familia de modelos Seamless Communication para que los investigadores puedan seguir desarrollando este trabajo
  • Para promover un ecosistema de IA seguro y responsable, reduce de forma significativa el impacto de la toxicidad alucinada en la traducción e implementa un enfoque personalizado de marca de agua para la salida de audio del modelo expresivo

Opinión de GN⁺

Lo más importante de este artículo es la presentación por parte de Meta de los modelos de IA Seamless Communication, desarrollados para derribar las barreras del idioma. Estos modelos ofrecen traducción casi en tiempo real mientras mantienen los matices de la expresión y cuentan con potentes capacidades para admitir una amplia variedad de idiomas. Este avance tecnológico está abriendo el camino para que personas de todo el mundo puedan comunicarse de una manera más natural y auténtica, por lo que será una noticia interesante y atractiva para mucha gente.

1 comentarios

 
GN⁺ 2023-12-02
Opiniones de Hacker News
  • Esperanza por una tecnología futura prometedora

    Espera con ilusión el día en que pueda usar audífonos en el extranjero y escuchar las conversaciones a su alrededor en su propio idioma. De niño quedó fascinado por el “traductor universal” que veía en la ciencia ficción, y al ver a su padre trabajar arduamente como intérprete simultáneo de francés e inglés, intentó crear un traductor por su cuenta. Espera que la traducción, como labor importante, pueda ayudar a muchas personas.

  • Expectativa por herramientas de aprendizaje de idiomas que aprovechen esta tecnología

    Espera que se desarrollen profesores de idiomas basados en esta tecnología. Todo el mundo podría tener un tutor personal durante varias horas al día. Le resulta muy atractivo trabajar en China o México y aprender un idioma a través de juegos de VR.

  • Posibilidades de la tecnología de streaming en tiempo real

    Para un nuevo empleado con discapacidad auditiva, la empresa propuso soluciones como Dragon, que no funcionaban en tiempo real, pero el propio empleado desarrolló una solución de conversión de voz a texto casi en tiempo real usando Whisper. Tiene curiosidad por ver qué podrá hacer él con este nuevo modelo.

  • Preocupación por la precisión de la traducción

    Le preocupa más una traducción que cause malentendidos que un traductor que a veces use palabras imprecisas. Por ejemplo, al traducir "what the fuck" al español, que salga como "qué diablos", una versión suavizada del significado, puede ser problemático para quienes quieren conocer con precisión la intención original.

  • Percepción del cambio industrial provocado por la IA

    Cuando su esposa intentó convertirse en actriz de doblaje profesional en varios idiomas, previó los cambios que la IA traería a la industria y cambió de rumbo. Considera impresionantes los avances de la IA.

  • Avances en la tecnología de texto a voz y expectativas a futuro

    La tecnología de texto a voz ha avanzado mucho en los últimos años, pero se pregunta cuándo se integrará en motores TTS incorporados en los sistemas operativos, por ejemplo para lectores de pantalla.

  • Molestia por la falta de soporte para ciertos idiomas

    Le decepciona que un idioma importante como el hindi no esté incluido en los ejemplos. India es la mayor base de usuarios de Facebook, pero Facebook no está contribuyendo lo suficiente al país.

  • Cuestionamiento por la falta de datos lingüísticos

    Los resultados al intentar traducir de inglés a suajili no fueron buenos. Usó Huggingface M4T V2, pero en la mayoría de los casos no funcionaba correctamente y solo devolvía inglés con otra voz. Hace falta una explicación clara sobre qué datos faltan para que el idioma funcione bien. Tal vez podría ayudar aportando datos.

  • Una forma de describir los errores del traductor

    La expresión "toxic word hallucinations" le parece muy cyberpunk.

  • Admiración por el avance de la traducción por inteligencia artificial

    Le conmueve el progreso logrado en los últimos 30 años. A mediados de los 90, cuando era estudiante, trabajó en el sistema Verbmobil del Centro Alemán de Investigación en Inteligencia Artificial, que realizaba traducción de voz a voz entre inglés, alemán y japonés dentro de un alcance muy limitado. En ese tiempo se usaban enfoques de NLP “tradicionales”, como modelado de dominio, análisis sintáctico, motores semánticos y conversión de voz a texto personalizada para los tres idiomas, pero llegó a reconocer que ese enfoque finalmente no tenía salida.