WhisperSpeech – un sistema de síntesis de voz de código abierto construido como una versión inversa de Whisper

(github.com/collabora)

10 puntos por GN⁺ 2024-01-19 | 1 comentarios | Compartir por WhatsApp

Resumen de WhisperSpeech

WhisperSpeech es un sistema de texto a voz de código abierto creado al construir Whisper a la inversa.
Este modelo fue diseñado para ser potente y a la vez fácil de personalizar, y puede usarse de forma segura con fines comerciales.
Actualmente el modelo fue entrenado con base en el dataset en inglés LibreLight, y en la próxima versión se planea dar soporte a varios idiomas.

Actualización de progreso [2024-01-18]

Durante la última semana, el enfoque estuvo en optimizar el rendimiento de inferencia.
Con la integración de torch.compile, la adición de caché kv y el ajuste de algunas capas, ahora funciona a una velocidad 12 veces mayor que el tiempo real en una 4090 de consumo.
Se agregó la función de mezclar varios idiomas dentro de una sola oración.
También se añadió una forma de probar fácilmente la clonación de voz.

Actualización de progreso [2024-01-10]

Se lanzó un nuevo modelo SD S2A que genera voz más rápido y con alta calidad.
También se agregaron ejemplos de clonación de voz basados en archivos de audio de referencia.

Actualización de progreso [2023-12-10]

Se agregaron 3 nuevos modelos compatibles con inglés y polaco.
Se ofrecen nuevas muestras de voz y se pueden probar directamente en Colab.

Descarga

Se recomienda usar el enlace de Google Colab como punto de partida o ejecutar localmente el notebook proporcionado.
Si se desea hacer una descarga manual o entrenar el modelo desde cero, se pueden usar en HuggingFace los modelos preentrenados de WhisperSpeech y los datasets convertidos.

Hoja de ruta

Recolectar un dataset más grande de voces emocionales
Encontrar una forma de controlar la generación según la emoción y la entonación
Impulsar un esfuerzo comunitario para recolectar voces de libre uso en varios idiomas
Entrenar el modelo multilingüe final

Arquitectura

Tiene una arquitectura general similar a AudioLM, SPEAR TTS y MusicGen.
Está construido sobre modelos potentes de código abierto: Whisper de OpenAI para la generación de tokens semánticos y la transcripción, EnCodec de Meta para el modelado acústico y Vocos de Charactr Inc como vocoder de alta calidad.

Agradecimientos

Este trabajo fue posible gracias al patrocinio de Collabora, LAION y Jülich Supercomputing Centre, además de la ayuda de colaboradores individuales.

Consultoría

Se puede brindar ayuda en proyectos de IA de código abierto y propietarios.

Citas

Depende de varios proyectos destacados de código abierto y artículos de investigación.

Opinión de GN⁺

WhisperSpeech es un innovador proyecto de código abierto en el campo de la síntesis de voz que ofrece un potente modelo de texto a voz compatible con varios idiomas y seguro para uso comercial.
Aprovecha tecnología de punta para lograr un rendimiento muy superior al tiempo real y ofrece accesibilidad para probar fácilmente funciones avanzadas como la clonación de voz.
Este proyecto sigue evolucionando con base en la comunidad y apunta a expandirse a varios idiomas y a generar voz con elementos emocionales, por lo que se espera que juegue un papel importante en el futuro de la tecnología de voz.

1 comentarios

GN⁺ 2024-01-19

Opiniones de Hacker News

Proyecto del modelo ASR multilingüe Whisper
- El modelo ASR multilingüe Whisper fue entrenado con una gran cantidad de datos, por lo que su salida del codificador representa bien el contenido semántico del habla.
- Este codificador puede usarse como reemplazo open source del codificador semántico en arquitecturas de modelos como SPEAR-TTS/VALL-E.
- Los tokens acústicos predichos se sobremuestrean, desruidan y mejoran con el vocoder Vocos.
- Actualmente, el principal cuello de botella es la falta de personal necesario para conseguir y depurar un conjunto de datos adecuado.
Opinión del desarrollador de WhisperSpeech
- Ha trabajado duro durante varios meses para mejorar el modelo, pero todavía hay mucho margen de mejora.
- Gracias al patrocinio de Collabora, es un proyecto verdaderamente open source, y quiere brindar ayuda a quienes deseen mejorarlo o integrarlo.
- Si alguien quiere usarlo con fines comerciales, puede comprar soporte de ingeniería.
Interés en la síntesis de voz en chino
- Hay interés en el rendimiento de la síntesis de voz en chino, especialmente en la entonación y la expresión emocional.
- EmotiVoice es el modelo open source de mayor calidad que ha visto hasta ahora, y creó un wrapper de CLI para generar audio para tarjetas didácticas.
- Es posible clonar tu propia voz con GPU usando EmotiVoice, aunque todavía no lo ha probado.
Mención de Mimic 3 de Mycroft
- Mimic 3 de Mycroft no usa la tecnología más reciente, pero sigue siendo impresionante y es lo bastante pequeño como para generar voz en tiempo real en una Raspberry Pi.
- Algunas voces son mejores que otras, y están al nivel de los ejemplos de WhisperSpeech.
Pregunta sobre modelos basados en el Alfabeto Fonético Internacional (IPA)
- Pregunta sobre el desarrollo/estado de avance de modelos basados en IPA.
- Este enfoque podría ser útil para cambiar una voz a otro acento o para dar soporte multilingüe.
- En modelos como las voces de MBROLA, esto puede hacerse de forma limitada mapeando los fonemas de un idioma a los de otro.
- El enfoque IPA podría permitir aprender mejor la calidad de voz y las variaciones de timbre.
Observación sobre el entrenamiento de voces personalizadas con Piper
- Vio un video sobre cómo entrenar una voz personalizada con Piper y notó que los metadatos necesarios para el conjunto de datos corresponden al texto de los archivos de audio fuente.
- El método de entrenamiento de Collabora automatiza este proceso y solo requiere archivos de audio para entrenar.
Evaluación de una muestra en polaco
- La muestra en polaco es muy buena y suena como una grabación de audiolibro.
Pregunta sobre la posibilidad de controlar la voz
- Hay interés en qué tan controlable es la voz al aplicar TTS a un sistema de chat.
- Se necesitan tantas voces distintas como sea posible para que cada usuario pueda tener una voz única.
Duda sobre una demo entrenada con clips de baja calidad de Winston Churchill
- Se plantea la duda de si, para una demo entrenada con clips de audio de baja calidad, aplica el principio de “basura entra, basura sale”.
Evaluación positiva del TTS
- Es el mejor TTS que ha escuchado hasta ahora, con una modulación de voz parecida a la humana.

WhisperSpeech – un sistema de síntesis de voz de código abierto construido como una versión inversa de Whisper

Resumen de WhisperSpeech

Actualización de progreso [2024-01-18]

Actualización de progreso [2024-01-10]

Actualización de progreso [2023-12-10]

Descarga

Hoja de ruta

Arquitectura

Agradecimientos

Consultoría

Citas

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News