Resumen de WhisperSpeech
- WhisperSpeech es un sistema de texto a voz de código abierto creado al construir Whisper a la inversa.
- Este modelo fue diseñado para ser potente y a la vez fácil de personalizar, y puede usarse de forma segura con fines comerciales.
- Actualmente el modelo fue entrenado con base en el dataset en inglés LibreLight, y en la próxima versión se planea dar soporte a varios idiomas.
Actualización de progreso [2024-01-18]
- Durante la última semana, el enfoque estuvo en optimizar el rendimiento de inferencia.
- Con la integración de
torch.compile, la adición de caché kv y el ajuste de algunas capas, ahora funciona a una velocidad 12 veces mayor que el tiempo real en una 4090 de consumo.
- Se agregó la función de mezclar varios idiomas dentro de una sola oración.
- También se añadió una forma de probar fácilmente la clonación de voz.
Actualización de progreso [2024-01-10]
- Se lanzó un nuevo modelo SD S2A que genera voz más rápido y con alta calidad.
- También se agregaron ejemplos de clonación de voz basados en archivos de audio de referencia.
Actualización de progreso [2023-12-10]
- Se agregaron 3 nuevos modelos compatibles con inglés y polaco.
- Se ofrecen nuevas muestras de voz y se pueden probar directamente en Colab.
Descarga
- Se recomienda usar el enlace de Google Colab como punto de partida o ejecutar localmente el notebook proporcionado.
- Si se desea hacer una descarga manual o entrenar el modelo desde cero, se pueden usar en HuggingFace los modelos preentrenados de WhisperSpeech y los datasets convertidos.
Hoja de ruta
- Recolectar un dataset más grande de voces emocionales
- Encontrar una forma de controlar la generación según la emoción y la entonación
- Impulsar un esfuerzo comunitario para recolectar voces de libre uso en varios idiomas
- Entrenar el modelo multilingüe final
Arquitectura
- Tiene una arquitectura general similar a AudioLM, SPEAR TTS y MusicGen.
- Está construido sobre modelos potentes de código abierto: Whisper de OpenAI para la generación de tokens semánticos y la transcripción, EnCodec de Meta para el modelado acústico y Vocos de Charactr Inc como vocoder de alta calidad.
Agradecimientos
- Este trabajo fue posible gracias al patrocinio de Collabora, LAION y Jülich Supercomputing Centre, además de la ayuda de colaboradores individuales.
Consultoría
- Se puede brindar ayuda en proyectos de IA de código abierto y propietarios.
Citas
- Depende de varios proyectos destacados de código abierto y artículos de investigación.
Opinión de GN⁺
- WhisperSpeech es un innovador proyecto de código abierto en el campo de la síntesis de voz que ofrece un potente modelo de texto a voz compatible con varios idiomas y seguro para uso comercial.
- Aprovecha tecnología de punta para lograr un rendimiento muy superior al tiempo real y ofrece accesibilidad para probar fácilmente funciones avanzadas como la clonación de voz.
- Este proyecto sigue evolucionando con base en la comunidad y apunta a expandirse a varios idiomas y a generar voz con elementos emocionales, por lo que se espera que juegue un papel importante en el futuro de la tecnología de voz.
1 comentarios
Opiniones de Hacker News
Proyecto del modelo ASR multilingüe Whisper
Opinión del desarrollador de WhisperSpeech
Interés en la síntesis de voz en chino
Mención de Mimic 3 de Mycroft
Pregunta sobre modelos basados en el Alfabeto Fonético Internacional (IPA)
Observación sobre el entrenamiento de voces personalizadas con Piper
Evaluación de una muestra en polaco
Pregunta sobre la posibilidad de controlar la voz
Duda sobre una demo entrenada con clips de baja calidad de Winston Churchill
Evaluación positiva del TTS