Meta presenta la familia de modelos Seamless Communication

(ai.meta.com)

4 puntos por GN⁺ 2023-12-02 | 1 comentarios | Compartir por WhatsApp

Una familia de modelos de investigación en IA diseñada para eliminar las barreras entre idiomas y permitir una comunicación más natural entre múltiples lenguas
- SeamlessExpressive: preserva la expresividad y los matices del lenguaje entre distintos idiomas
- SeamlessStreaming: ofrece traducción de voz y texto con una latencia de alrededor de 2 segundos
- SeamlessM4T v2: modelo fundacional multilingüe y multitarea que permite la comunicación mediante voz y texto
- Seamless: integra en uno solo las capacidades de SeamlessExpressive, SeamlessStreaming y SeamlessM4T v2

Preservar los matices de la expresión

SeamlessExpressive busca lograr traducciones que capturen los matices de la expresión humana
Las herramientas de traducción existentes son buenas para captar el contenido de una conversación, pero por lo general producen una voz monótona y robótica
SeamlessExpressive intenta conservar no solo el estilo de voz y la carga emocional, sino también matices del habla como la velocidad al hablar y las pausas

Traducción casi en tiempo real

SeamlessStreaming es el primer modelo multilingüe de gran escala que ofrece traducción con una latencia de alrededor de 2 segundos
Está basado en SeamlessM4T v2 y admite reconocimiento automático de voz y traducción de voz a texto para casi 100 idiomas de entrada y salida
También admite traducción de voz a voz para casi 100 idiomas de entrada y 36 idiomas de salida

Modelo base para traducción universal

En agosto de 2023, Meta presentó la primera versión de SeamlessM4T, que ofrecía resultados de vanguardia en traducción y transcripción tanto de voz como de texto
Sobre esa base, SeamlessM4T v2, un modelo mejorado, se convierte en la base de los nuevos modelos SeamlessExpressive y SeamlessStreaming
Incorpora una nueva arquitectura y un decodificador de texto a unidades no autorregresivo para mejorar la consistencia entre las salidas de texto y voz

Enfoque de investigación

Con la convicción en el poder de la colaboración y la investigación abierta, Meta publica toda la familia de modelos Seamless Communication para que los investigadores puedan seguir desarrollando este trabajo
Para promover un ecosistema de IA seguro y responsable, reduce de forma significativa el impacto de la toxicidad alucinada en la traducción e implementa un enfoque personalizado de marca de agua para la salida de audio del modelo expresivo

Opinión de GN⁺

Lo más importante de este artículo es la presentación por parte de Meta de los modelos de IA Seamless Communication, desarrollados para derribar las barreras del idioma. Estos modelos ofrecen traducción casi en tiempo real mientras mantienen los matices de la expresión y cuentan con potentes capacidades para admitir una amplia variedad de idiomas. Este avance tecnológico está abriendo el camino para que personas de todo el mundo puedan comunicarse de una manera más natural y auténtica, por lo que será una noticia interesante y atractiva para mucha gente.

1 comentarios

GN⁺ 2023-12-02

Opiniones de Hacker News

Esperanza por una tecnología futura prometedora

Espera con ilusión el día en que pueda usar audífonos en el extranjero y escuchar las conversaciones a su alrededor en su propio idioma. De niño quedó fascinado por el “traductor universal” que veía en la ciencia ficción, y al ver a su padre trabajar arduamente como intérprete simultáneo de francés e inglés, intentó crear un traductor por su cuenta. Espera que la traducción, como labor importante, pueda ayudar a muchas personas.
Expectativa por herramientas de aprendizaje de idiomas que aprovechen esta tecnología

Espera que se desarrollen profesores de idiomas basados en esta tecnología. Todo el mundo podría tener un tutor personal durante varias horas al día. Le resulta muy atractivo trabajar en China o México y aprender un idioma a través de juegos de VR.
Posibilidades de la tecnología de streaming en tiempo real

Para un nuevo empleado con discapacidad auditiva, la empresa propuso soluciones como Dragon, que no funcionaban en tiempo real, pero el propio empleado desarrolló una solución de conversión de voz a texto casi en tiempo real usando Whisper. Tiene curiosidad por ver qué podrá hacer él con este nuevo modelo.
Preocupación por la precisión de la traducción

Le preocupa más una traducción que cause malentendidos que un traductor que a veces use palabras imprecisas. Por ejemplo, al traducir "what the fuck" al español, que salga como "qué diablos", una versión suavizada del significado, puede ser problemático para quienes quieren conocer con precisión la intención original.
Percepción del cambio industrial provocado por la IA

Cuando su esposa intentó convertirse en actriz de doblaje profesional en varios idiomas, previó los cambios que la IA traería a la industria y cambió de rumbo. Considera impresionantes los avances de la IA.
Avances en la tecnología de texto a voz y expectativas a futuro

La tecnología de texto a voz ha avanzado mucho en los últimos años, pero se pregunta cuándo se integrará en motores TTS incorporados en los sistemas operativos, por ejemplo para lectores de pantalla.
Molestia por la falta de soporte para ciertos idiomas

Le decepciona que un idioma importante como el hindi no esté incluido en los ejemplos. India es la mayor base de usuarios de Facebook, pero Facebook no está contribuyendo lo suficiente al país.
Cuestionamiento por la falta de datos lingüísticos

Los resultados al intentar traducir de inglés a suajili no fueron buenos. Usó Huggingface M4T V2, pero en la mayoría de los casos no funcionaba correctamente y solo devolvía inglés con otra voz. Hace falta una explicación clara sobre qué datos faltan para que el idioma funcione bien. Tal vez podría ayudar aportando datos.
Una forma de describir los errores del traductor

La expresión "toxic word hallucinations" le parece muy cyberpunk.
Admiración por el avance de la traducción por inteligencia artificial

Le conmueve el progreso logrado en los últimos 30 años. A mediados de los 90, cuando era estudiante, trabajó en el sistema Verbmobil del Centro Alemán de Investigación en Inteligencia Artificial, que realizaba traducción de voz a voz entre inglés, alemán y japonés dentro de un alcance muy limitado. En ese tiempo se usaban enfoques de NLP “tradicionales”, como modelado de dominio, análisis sintáctico, motores semánticos y conversión de voz a texto personalizada para los tres idiomas, pero llegó a reconocer que ese enfoque finalmente no tenía salida.