10 puntos por GN⁺ 2024-01-19 | 1 comentarios | Compartir por WhatsApp

Resumen de WhisperSpeech

  • WhisperSpeech es un sistema de texto a voz de código abierto creado al construir Whisper a la inversa.
  • Este modelo fue diseñado para ser potente y a la vez fácil de personalizar, y puede usarse de forma segura con fines comerciales.
  • Actualmente el modelo fue entrenado con base en el dataset en inglés LibreLight, y en la próxima versión se planea dar soporte a varios idiomas.

Actualización de progreso [2024-01-18]

  • Durante la última semana, el enfoque estuvo en optimizar el rendimiento de inferencia.
  • Con la integración de torch.compile, la adición de caché kv y el ajuste de algunas capas, ahora funciona a una velocidad 12 veces mayor que el tiempo real en una 4090 de consumo.
  • Se agregó la función de mezclar varios idiomas dentro de una sola oración.
  • También se añadió una forma de probar fácilmente la clonación de voz.

Actualización de progreso [2024-01-10]

  • Se lanzó un nuevo modelo SD S2A que genera voz más rápido y con alta calidad.
  • También se agregaron ejemplos de clonación de voz basados en archivos de audio de referencia.

Actualización de progreso [2023-12-10]

  • Se agregaron 3 nuevos modelos compatibles con inglés y polaco.
  • Se ofrecen nuevas muestras de voz y se pueden probar directamente en Colab.

Descarga

  • Se recomienda usar el enlace de Google Colab como punto de partida o ejecutar localmente el notebook proporcionado.
  • Si se desea hacer una descarga manual o entrenar el modelo desde cero, se pueden usar en HuggingFace los modelos preentrenados de WhisperSpeech y los datasets convertidos.

Hoja de ruta

  • Recolectar un dataset más grande de voces emocionales
  • Encontrar una forma de controlar la generación según la emoción y la entonación
  • Impulsar un esfuerzo comunitario para recolectar voces de libre uso en varios idiomas
  • Entrenar el modelo multilingüe final

Arquitectura

  • Tiene una arquitectura general similar a AudioLM, SPEAR TTS y MusicGen.
  • Está construido sobre modelos potentes de código abierto: Whisper de OpenAI para la generación de tokens semánticos y la transcripción, EnCodec de Meta para el modelado acústico y Vocos de Charactr Inc como vocoder de alta calidad.

Agradecimientos

  • Este trabajo fue posible gracias al patrocinio de Collabora, LAION y Jülich Supercomputing Centre, además de la ayuda de colaboradores individuales.

Consultoría

  • Se puede brindar ayuda en proyectos de IA de código abierto y propietarios.

Citas

  • Depende de varios proyectos destacados de código abierto y artículos de investigación.

Opinión de GN⁺

  • WhisperSpeech es un innovador proyecto de código abierto en el campo de la síntesis de voz que ofrece un potente modelo de texto a voz compatible con varios idiomas y seguro para uso comercial.
  • Aprovecha tecnología de punta para lograr un rendimiento muy superior al tiempo real y ofrece accesibilidad para probar fácilmente funciones avanzadas como la clonación de voz.
  • Este proyecto sigue evolucionando con base en la comunidad y apunta a expandirse a varios idiomas y a generar voz con elementos emocionales, por lo que se espera que juegue un papel importante en el futuro de la tecnología de voz.

1 comentarios

 
GN⁺ 2024-01-19
Opiniones de Hacker News
  • Proyecto del modelo ASR multilingüe Whisper

    • El modelo ASR multilingüe Whisper fue entrenado con una gran cantidad de datos, por lo que su salida del codificador representa bien el contenido semántico del habla.
    • Este codificador puede usarse como reemplazo open source del codificador semántico en arquitecturas de modelos como SPEAR-TTS/VALL-E.
    • Los tokens acústicos predichos se sobremuestrean, desruidan y mejoran con el vocoder Vocos.
    • Actualmente, el principal cuello de botella es la falta de personal necesario para conseguir y depurar un conjunto de datos adecuado.
  • Opinión del desarrollador de WhisperSpeech

    • Ha trabajado duro durante varios meses para mejorar el modelo, pero todavía hay mucho margen de mejora.
    • Gracias al patrocinio de Collabora, es un proyecto verdaderamente open source, y quiere brindar ayuda a quienes deseen mejorarlo o integrarlo.
    • Si alguien quiere usarlo con fines comerciales, puede comprar soporte de ingeniería.
  • Interés en la síntesis de voz en chino

    • Hay interés en el rendimiento de la síntesis de voz en chino, especialmente en la entonación y la expresión emocional.
    • EmotiVoice es el modelo open source de mayor calidad que ha visto hasta ahora, y creó un wrapper de CLI para generar audio para tarjetas didácticas.
    • Es posible clonar tu propia voz con GPU usando EmotiVoice, aunque todavía no lo ha probado.
  • Mención de Mimic 3 de Mycroft

    • Mimic 3 de Mycroft no usa la tecnología más reciente, pero sigue siendo impresionante y es lo bastante pequeño como para generar voz en tiempo real en una Raspberry Pi.
    • Algunas voces son mejores que otras, y están al nivel de los ejemplos de WhisperSpeech.
  • Pregunta sobre modelos basados en el Alfabeto Fonético Internacional (IPA)

    • Pregunta sobre el desarrollo/estado de avance de modelos basados en IPA.
    • Este enfoque podría ser útil para cambiar una voz a otro acento o para dar soporte multilingüe.
    • En modelos como las voces de MBROLA, esto puede hacerse de forma limitada mapeando los fonemas de un idioma a los de otro.
    • El enfoque IPA podría permitir aprender mejor la calidad de voz y las variaciones de timbre.
  • Observación sobre el entrenamiento de voces personalizadas con Piper

    • Vio un video sobre cómo entrenar una voz personalizada con Piper y notó que los metadatos necesarios para el conjunto de datos corresponden al texto de los archivos de audio fuente.
    • El método de entrenamiento de Collabora automatiza este proceso y solo requiere archivos de audio para entrenar.
  • Evaluación de una muestra en polaco

    • La muestra en polaco es muy buena y suena como una grabación de audiolibro.
  • Pregunta sobre la posibilidad de controlar la voz

    • Hay interés en qué tan controlable es la voz al aplicar TTS a un sistema de chat.
    • Se necesitan tantas voces distintas como sea posible para que cada usuario pueda tener una voz única.
  • Duda sobre una demo entrenada con clips de baja calidad de Winston Churchill

    • Se plantea la duda de si, para una demo entrenada con clips de audio de baja calidad, aplica el principio de “basura entra, basura sale”.
  • Evaluación positiva del TTS

    • Es el mejor TTS que ha escuchado hasta ahora, con una modulación de voz parecida a la humana.