3 puntos por GN⁺ 2023-11-20 | 1 comentarios | Compartir por WhatsApp

Modelo de texto a voz de nivel humano, StyleTTS 2

  • StyleTTS 2 logra síntesis de texto a voz (TTS) de nivel humano mediante aprendizaje adversarial con difusión de estilo y modelos de lenguaje de voz a gran escala.
  • Este modelo consigue una difusión latente eficiente al modelar el estilo como una variable aleatoria latente mediante un modelo de difusión para generar el estilo más adecuado para el texto sin necesidad de voz de referencia.
  • Mejora la naturalidad de la voz al usar un modelo de lenguaje de voz preentrenado a gran escala como discriminador y al entrenar de extremo a extremo con un nuevo modelado diferenciable de duración.

Requisitos previos

  • Se requiere Python versión 3.7 o superior.
  • Clonar el repositorio de StyleTTS 2 e instalar los requisitos necesarios de Python.
  • Descargar el dataset LJSpeech, remuestrearlo a 24 kHz y descomprimirlo en la carpeta de datos.
  • Si se usa el dataset LibriTTS, hay que combinar train-clean-360 y train-clean-100 y cambiar el nombre de la carpeta a train-clean-460.

Entrenamiento

  • Es posible ejecutar secuencialmente el entrenamiento de la primera y la segunda etapa, y el modelo se guarda en un formato específico.
  • El formato de la lista de datos debe ser filename.wav|transcription|speaker y, en el caso de modelos multihablante, se requiere muestreo de audio de referencia para entrenar el modelo de difusión de estilo.

Configuración importante

  • El archivo config.yml incluye configuraciones importantes como la ruta del texto OOD (out-of-distribution) para el aprendizaje adversarial con SLM, la longitud mínima y máxima para el entrenamiento, si se entrenará un modelo multihablante y el porcentaje de lote para evitar problemas de OOM (out-of-memory).

Módulos preentrenados

  • La carpeta ASR contiene un alineador de texto preentrenado, la carpeta JDC contiene un extractor de tono preentrenado y la carpeta PLBERT contiene un modelo PL-BERT preentrenado.

Problemas comunes

  • Se presentan soluciones para el problema de pérdida en NaN y para los problemas de memoria insuficiente, como ajustar el tamaño del lote o reducir el valor de max_len.

Fine-tuning

  • Se proporciona un script de fine-tuning que usa DP modificando el script train_second.py, y DDP actualmente no funciona.

Inferencia

  • Consultar los archivos de notebook para la inferencia con los datasets LJSpeech y LibriTTS; para LibriTTS se requiere un archivo de audio de referencia.
  • Se puede descargar un modelo StyleTTS 2 preentrenado y, antes de usarlo, se debe informar a quienes escuchen que las muestras de voz sintetizadas fueron generadas por el modelo StyleTTS 2, o usar una voz para la que se tenga autorización.

Opinión de GN⁺

Lo más importante de este texto es que StyleTTS 2 logró síntesis TTS de nivel humano, lo que muestra el potencial del aprendizaje adversarial con difusión de estilo y modelos de lenguaje de voz a gran escala. Esta tecnología puede tener un gran impacto en la evolución de las interfaces basadas en voz y los asistentes digitales al mejorar de forma significativa la naturalidad de la síntesis de voz y ofrecer la capacidad de generar diversos estilos incluso sin voz de referencia.

1 comentarios

 
GN⁺ 2023-11-20
Comentarios de Hacker News
  • Experiencia desarrollando un chatbot de voz 100% local con StyleTTS2

    • Un chatbot creado con software de código abierto como StyleTTS2, Whisper y OpenHermes2-Mistral-7B presume una velocidad de respuesta mucho mayor que ChatGPT.
    • A diferencia de los asistentes de voz tradicionales, permite conversaciones naturales y, en particular, se puede instalar y usar para conversar con un solo clic en una PC gamer con Windows equipada con una GPU Nvidia de 12 GB.
    • La demo es algo inestable (requiere audífonos, se ejecuta como app de consola, etc.), pero deja ver el potencial del futuro ejecutándose en una PC gamer con una combinación de herramientas open source.
  • Opinión personal sobre la calidad de voz de StyleTTS2

    • La voz es muy buena, pero antes de usarla quisiera clonarla con una voz agradable que yo prefiera.
  • Compartiendo experiencia de instalación y uso de StyleTTS2

    • Comparte su experiencia probando StyleTTS2 y notas paso a paso que podrían ser útiles para la configuración local.
    • En la comparación de velocidad/calidad con el modelo LJSpeech, StyleTTS2 es muy rápido y además ofrece buena calidad.
  • Experiencia con la instalación y funcionamiento de StyleTTS2

    • La documentación estaba algo incompleta, así que la instalación fue un poco complicada, pero después de unos 20 minutos funcionó bien en WSL Ubuntu 22.04.
    • La calidad de audio es muy buena y, especialmente al usar una GPU 4090, es muy rápido.
    • No alcanza la calidad de Eleven Labs, pero la fortaleza de Eleven está en su biblioteca variada de voces de alta calidad y en la clonación de voz instantánea, que funciona sorprendentemente bien con una muestra de solo 5 minutos.
    • Espera que estas funciones puedan estar disponibles por completo en proyectos de código abierto.
  • Comparación entre ejemplos de voz de StyleTTS2 y voces reales

    • Los ejemplos de voz de TTS2 suenan más naturales que las voces reales.
    • Le entusiasma usar esta tecnología para archivos ePub sin audiolibro, especialmente novelas ligeras japonesas.
  • Evaluación de la calidad de audio de StyleTTS2

    • La calidad de audio es sobresaliente, a un nivel inimaginable a inicios de los 2000.
    • Hay perspectivas interesantes para juegos donde un LLM interprete personajes y el TTS les dé voz a los NPC.
  • Opinión sobre el título y el contenido de StyleTTS2

    • Actualmente el título en Hacker News es "StyleTTS2 – texto a voz open source con calidad de Eleven Labs", pero ni el título real ni el paper de arXiv mencionan a Eleven Labs.
    • Expresa preocupación por este tipo de redacción editorial.
  • Pregunta sobre el tiempo de inferencia de StyleTTS2

    • Pregunta por una estimación aproximada del tiempo de inferencia en una CPU moderna.
  • Pregunta sobre la licencia de StyleTTS2

    • Pregunta si, como la licencia no es MIT, entonces no se puede usar con fines comerciales.
  • Perspectiva de marketplace para modelos de texto a voz

    • Tiene curiosidad por saber si también aparecerá un marketplace estilo Civitai para modelos de texto a voz.