Hibiki - modelo de traducción simultánea de voz a voz de alta calidad

xguru · 2025-02-11T09:53:55+09:00

Modelo de traducción de voz a voz (Speech-to-Speech Translation) en streaming en tiempo real y de alta fidelidad A diferencia de la traducción offline convencional, genera "voz traducida en tiempo real" mientras la persona está hablando También ofrece traducción de texto e incluye una función de conversión de voz que mantiene el estilo del audio original Arquitectura Es un "modelo solo decodificador" diseñado para traducción simultánea de voz Aprovecha la arquitectura multistream de Moshi para modelar simultáneamente la voz original y la traducida Genera un flujo de salida continuo a una tasa de cuadros constante de 12.5 Hz por segundo, y también proporciona traducción de texto con marcas de tiempo Método de entrenamiento Se requieren datos alineados de voz y texto originales y traducidos, pero en la práctica hay muy pocos datos de este tipo Por eso, el entrenamiento se realiza generando datos sintéticos Usa el sistema de traducción automática MADLAD para alinear el texto original y el traducido mediante aprendizaje débilmente supervisado Se aplican reglas de alineación para que las palabras aparezcan solo cuando la traducción se vuelve predecible a partir del original Método 1: inserción de silencios (silence insertion) Método 2: síntesis de voz consciente de la alineación (alignment-aware TTS) Inferencia Hibiki codifica la voz original en tiempo real y genera la voz traducida Sin usar métodos de inferencia complejos, emplea temperature sampling, lo que lo hace compatible con procesamiento por lotes Es posible ajustar la similitud de la voz modificando el coeficiente de Classifier-Free Guidance Cuanto más alto sea el coeficiente, más parecida será la voz a la original, pero si es demasiado alto puede degradar la calidad de la traducción Actualmente, Hibiki solo admite traducción de francés a inglés El modelo ligero Hibiki-M puede ejecutarse incluso en smartphones Cómo ejecutar el modelo Puede ejecutarse en PyTorch, Rust, MLX (macOS) y MLX-Swift (iOS) El código de Hibiki es casi idéntico al del proyecto Moshi y la implementación real puede revisarse en el repositorio kyutai-labs/moshi Actualmente solo se ofrecen dos modelos con soporte para traducción de francés a inglés (FR → EN) Hibiki 2B: estructura Transformer más profunda, 16 RVQ por flujo Hibiki 1B: versión ligera, 8 RVQ por flujo, con ejecución on-device

Modelo de traducción de voz a voz (Speech-to-Speech Translation) en streaming en tiempo real y de alta fidelidad
A diferencia de la traducción offline convencional, genera "voz traducida en tiempo real" mientras la persona está hablando
También ofrece traducción de texto e incluye una función de conversión de voz que mantiene el estilo del audio original

Arquitectura

Es un "modelo solo decodificador" diseñado para traducción simultánea de voz
Aprovecha la arquitectura multistream de Moshi para modelar simultáneamente la voz original y la traducida
Genera un flujo de salida continuo a una tasa de cuadros constante de 12.5 Hz por segundo, y también proporciona traducción de texto con marcas de tiempo

Método de entrenamiento

Se requieren datos alineados de voz y texto originales y traducidos, pero en la práctica hay muy pocos datos de este tipo
Por eso, el entrenamiento se realiza generando datos sintéticos
Usa el sistema de traducción automática MADLAD para alinear el texto original y el traducido mediante aprendizaje débilmente supervisado
Se aplican reglas de alineación para que las palabras aparezcan solo cuando la traducción se vuelve predecible a partir del original
- Método 1: inserción de silencios (silence insertion)
- Método 2: síntesis de voz consciente de la alineación (alignment-aware TTS)

Inferencia

Hibiki codifica la voz original en tiempo real y genera la voz traducida
Sin usar métodos de inferencia complejos, emplea temperature sampling, lo que lo hace compatible con procesamiento por lotes
Es posible ajustar la similitud de la voz modificando el coeficiente de Classifier-Free Guidance
- Cuanto más alto sea el coeficiente, más parecida será la voz a la original, pero si es demasiado alto puede degradar la calidad de la traducción
Actualmente, Hibiki solo admite traducción de francés a inglés
El modelo ligero Hibiki-M puede ejecutarse incluso en smartphones

Cómo ejecutar el modelo

Puede ejecutarse en PyTorch, Rust, MLX (macOS) y MLX-Swift (iOS)
El código de Hibiki es casi idéntico al del proyecto Moshi y la implementación real puede revisarse en el repositorio kyutai-labs/moshi
Actualmente solo se ofrecen dos modelos con soporte para traducción de francés a inglés (FR → EN)
- Hibiki 2B: estructura Transformer más profunda, 16 RVQ por flujo
- Hibiki 1B: versión ligera, 8 RVQ por flujo, con ejecución on-device