13 puntos por xguru 2025-02-11 | 2 comentarios | Compartir por WhatsApp
  • Modelo de traducción de voz a voz (Speech-to-Speech Translation) en streaming en tiempo real y de alta fidelidad
  • A diferencia de la traducción offline convencional, genera "voz traducida en tiempo real" mientras la persona está hablando
  • También ofrece traducción de texto e incluye una función de conversión de voz que mantiene el estilo del audio original

Arquitectura

  • Es un "modelo solo decodificador" diseñado para traducción simultánea de voz
  • Aprovecha la arquitectura multistream de Moshi para modelar simultáneamente la voz original y la traducida
  • Genera un flujo de salida continuo a una tasa de cuadros constante de 12.5 Hz por segundo, y también proporciona traducción de texto con marcas de tiempo

Método de entrenamiento

  • Se requieren datos alineados de voz y texto originales y traducidos, pero en la práctica hay muy pocos datos de este tipo
  • Por eso, el entrenamiento se realiza generando datos sintéticos
  • Usa el sistema de traducción automática MADLAD para alinear el texto original y el traducido mediante aprendizaje débilmente supervisado
  • Se aplican reglas de alineación para que las palabras aparezcan solo cuando la traducción se vuelve predecible a partir del original
    • Método 1: inserción de silencios (silence insertion)
    • Método 2: síntesis de voz consciente de la alineación (alignment-aware TTS)

Inferencia

  • Hibiki codifica la voz original en tiempo real y genera la voz traducida
  • Sin usar métodos de inferencia complejos, emplea temperature sampling, lo que lo hace compatible con procesamiento por lotes
  • Es posible ajustar la similitud de la voz modificando el coeficiente de Classifier-Free Guidance
    • Cuanto más alto sea el coeficiente, más parecida será la voz a la original, pero si es demasiado alto puede degradar la calidad de la traducción
  • Actualmente, Hibiki solo admite traducción de francés a inglés
  • El modelo ligero Hibiki-M puede ejecutarse incluso en smartphones

Cómo ejecutar el modelo

  • Puede ejecutarse en PyTorch, Rust, MLX (macOS) y MLX-Swift (iOS)
  • El código de Hibiki es casi idéntico al del proyecto Moshi y la implementación real puede revisarse en el repositorio kyutai-labs/moshi
  • Actualmente solo se ofrecen dos modelos con soporte para traducción de francés a inglés (FR → EN)
    • Hibiki 2B: estructura Transformer más profunda, 16 RVQ por flujo
    • Hibiki 1B: versión ligera, 8 RVQ por flujo, con ejecución on-device

2 comentarios

 
sftblw 2025-02-11

Parece que para el despliegue en Rust usan candle. (Cargo.toml)

 
dbs0829 2025-02-11

Parece que la traducción en tiempo real sería algo difícil para idiomas con un orden de palabras completamente distinto, pero habrá que revisar el paper.