- Una familia de modelos de investigación en IA diseñada para eliminar las barreras entre idiomas y permitir una comunicación más natural entre múltiples lenguas
- SeamlessExpressive: preserva la expresividad y los matices del lenguaje entre distintos idiomas
- SeamlessStreaming: ofrece traducción de voz y texto con una latencia de alrededor de 2 segundos
- SeamlessM4T v2: modelo fundacional multilingüe y multitarea que permite la comunicación mediante voz y texto
- Seamless: integra en uno solo las capacidades de SeamlessExpressive, SeamlessStreaming y SeamlessM4T v2
Preservar los matices de la expresión
- SeamlessExpressive busca lograr traducciones que capturen los matices de la expresión humana
- Las herramientas de traducción existentes son buenas para captar el contenido de una conversación, pero por lo general producen una voz monótona y robótica
- SeamlessExpressive intenta conservar no solo el estilo de voz y la carga emocional, sino también matices del habla como la velocidad al hablar y las pausas
Traducción casi en tiempo real
- SeamlessStreaming es el primer modelo multilingüe de gran escala que ofrece traducción con una latencia de alrededor de 2 segundos
- Está basado en SeamlessM4T v2 y admite reconocimiento automático de voz y traducción de voz a texto para casi 100 idiomas de entrada y salida
- También admite traducción de voz a voz para casi 100 idiomas de entrada y 36 idiomas de salida
Modelo base para traducción universal
- En agosto de 2023, Meta presentó la primera versión de SeamlessM4T, que ofrecía resultados de vanguardia en traducción y transcripción tanto de voz como de texto
- Sobre esa base, SeamlessM4T v2, un modelo mejorado, se convierte en la base de los nuevos modelos SeamlessExpressive y SeamlessStreaming
- Incorpora una nueva arquitectura y un decodificador de texto a unidades no autorregresivo para mejorar la consistencia entre las salidas de texto y voz
Enfoque de investigación
- Con la convicción en el poder de la colaboración y la investigación abierta, Meta publica toda la familia de modelos Seamless Communication para que los investigadores puedan seguir desarrollando este trabajo
- Para promover un ecosistema de IA seguro y responsable, reduce de forma significativa el impacto de la toxicidad alucinada en la traducción e implementa un enfoque personalizado de marca de agua para la salida de audio del modelo expresivo
Opinión de GN⁺
Lo más importante de este artículo es la presentación por parte de Meta de los modelos de IA Seamless Communication, desarrollados para derribar las barreras del idioma. Estos modelos ofrecen traducción casi en tiempo real mientras mantienen los matices de la expresión y cuentan con potentes capacidades para admitir una amplia variedad de idiomas. Este avance tecnológico está abriendo el camino para que personas de todo el mundo puedan comunicarse de una manera más natural y auténtica, por lo que será una noticia interesante y atractiva para mucha gente.
1 comentarios
Opiniones de Hacker News
Esperanza por una tecnología futura prometedora
Expectativa por herramientas de aprendizaje de idiomas que aprovechen esta tecnología
Posibilidades de la tecnología de streaming en tiempo real
Preocupación por la precisión de la traducción
Percepción del cambio industrial provocado por la IA
Avances en la tecnología de texto a voz y expectativas a futuro
Molestia por la falta de soporte para ciertos idiomas
Cuestionamiento por la falta de datos lingüísticos
Una forma de describir los errores del traductor
Admiración por el avance de la traducción por inteligencia artificial