- Modelo de traducción de voz a voz (Speech-to-Speech Translation) en streaming en tiempo real y de alta fidelidad
- A diferencia de la traducción offline convencional, genera "voz traducida en tiempo real" mientras la persona está hablando
- También ofrece traducción de texto e incluye una función de conversión de voz que mantiene el estilo del audio original
Arquitectura
- Es un "modelo solo decodificador" diseñado para traducción simultánea de voz
- Aprovecha la arquitectura multistream de Moshi para modelar simultáneamente la voz original y la traducida
- Genera un flujo de salida continuo a una tasa de cuadros constante de 12.5 Hz por segundo, y también proporciona traducción de texto con marcas de tiempo
Método de entrenamiento
- Se requieren datos alineados de voz y texto originales y traducidos, pero en la práctica hay muy pocos datos de este tipo
- Por eso, el entrenamiento se realiza generando datos sintéticos
- Usa el sistema de traducción automática MADLAD para alinear el texto original y el traducido mediante aprendizaje débilmente supervisado
- Se aplican reglas de alineación para que las palabras aparezcan solo cuando la traducción se vuelve predecible a partir del original
- Método 1: inserción de silencios (silence insertion)
- Método 2: síntesis de voz consciente de la alineación (alignment-aware TTS)
Inferencia
- Hibiki codifica la voz original en tiempo real y genera la voz traducida
- Sin usar métodos de inferencia complejos, emplea temperature sampling, lo que lo hace compatible con procesamiento por lotes
- Es posible ajustar la similitud de la voz modificando el coeficiente de Classifier-Free Guidance
- Cuanto más alto sea el coeficiente, más parecida será la voz a la original, pero si es demasiado alto puede degradar la calidad de la traducción
- Actualmente, Hibiki solo admite traducción de francés a inglés
- El modelo ligero Hibiki-M puede ejecutarse incluso en smartphones
Cómo ejecutar el modelo
- Puede ejecutarse en PyTorch, Rust, MLX (macOS) y MLX-Swift (iOS)
- El código de Hibiki es casi idéntico al del proyecto Moshi y la implementación real puede revisarse en el repositorio kyutai-labs/moshi
- Actualmente solo se ofrecen dos modelos con soporte para traducción de francés a inglés (FR → EN)
- Hibiki 2B: estructura Transformer más profunda, 16 RVQ por flujo
- Hibiki 1B: versión ligera, 8 RVQ por flujo, con ejecución on-device
2 comentarios
Parece que para el despliegue en Rust usan candle. (Cargo.toml)
Parece que la traducción en tiempo real sería algo difícil para idiomas con un orden de palabras completamente distinto, pero habrá que revisar el paper.