OpenVoice - tecnología versátil de clonación instantánea de voz

(research.myshell.ai)

13 puntos por GN⁺ 2024-03-30 | 1 comentarios | Compartir por WhatsApp

Un método versátil de clonación instantánea de voz que puede replicar la voz de un hablante y generar audio en varios idiomas usando solo un clip corto de audio del hablante de referencia
Permite un control fino sobre el estilo de la voz, y puede clonar no solo la emoción, la entonación, el ritmo, las pausas y la prosodia, sino también el timbre del hablante de referencia
Hace posible la clonación de voz multilingüe de zero-shot entre idiomas, incluso para lenguas no incluidas en el conjunto de entrenamiento a gran escala de hablantes
Ofrece un rendimiento superior con un costo computacional decenas de veces menor que el de APIs disponibles comercialmente
Puede replicar con precisión el timbre de referencia y generar voz en diversos idiomas y acentos
Permite un control detallado no solo de la emoción y la entonación, sino también de otros parámetros de estilo como el ritmo, las pausas y la prosodia

1 comentarios

GN⁺ 2024-03-30

Comentarios de Hacker News

Un usuario de Hacker News compartió su experiencia y explicó cómo ejecutar localmente la demo de Gradio de OpenVoice. Mencionó que, usando una RTX 3090, generó voz más rápido que con XTTS2 y utilizó alrededor de 1.5 GB de VRAM. Dijo que la demo está limitada a 200 caracteres por el uso de recursos, pero funciona a una velocidad 8 veces en tiempo real. También comentó que, al modificar la demo para probar textos más largos, renderizó aproximadamente 1 minuto de audio en solo unos 4 segundos. Evaluó que la claridad de la voz es mejor que la de XTTS2, aunque se siente un poco extraña y robótica.
Otro usuario cuestionó los casos de uso éticos de la tecnología de clonación de voz. Mencionó casos negativos como porno, robo de identidad, suplantación, reemplazo de actores de voz, apropiación de las voces de actores de voz y ocultar el uso de bots en atención al cliente. Sin embargo, sostuvo que podría haber casos de uso positivos, como dar una voz real a personas que la han perdido, aunque argumentó que ese mercado no es lo suficientemente grande como para justificar la inversión.
Un usuario compartió que OpenVoice ocupa el segundo lugar más bajo en la tabla de clasificación del concurso de TTS de Huggingface. Señaló que alternativas como styletts2 y xtts2 están mucho mejor posicionadas que OpenVoice.
Hay un usuario al que le parece extraño que imitar la voz de Elon Musk se use como prueba de calidad. Argumentó que, en realidad, la voz de Musk tiende a sonar rara y entrecortada, por lo que se podrían imitar voces mejores.
Un usuario informó que Voicecraft publicó los pesos de su modelo.
Hay un usuario que mencionó que no logró obtener localmente una clonación de voz de calidad similar a la de los clips ofrecidos en el sitio. Supuso que podría estar haciendo algo mal.
Un usuario confirmó en GitHub que se puede ejecutar localmente y evaluó que la calidad es buena.
Hay un usuario que explicó el proceso de codificar la voz en una representación similar al IPA y decodificar esa representación al idioma de destino. También mencionó el proceso de extraer el “timbre” y eliminarlo de la representación similar al IPA para luego volver a agregarlo en la capa de destino. Gracias a esto, dijo que puede escuchar su propia voz hablando otros idiomas con un timbre similar. El usuario se preguntó qué tan parecido sería el resultado si llegara a aprender chino con fluidez, y si haría falta un “traductor de timbre” que traduzca el timbre a otros idiomas.
Hay un usuario que preguntó si existe algún modelo “opuesto” que pueda identificar a los hablantes en múltiples grabaciones para hacer diarización de hablantes.
Un usuario evaluó que todas las herramientas de clonación de voz tienen una característica de vocal fry, y que eso se siente como un “valle inquietante” al no lograr igualar con precisión las partes más sutiles de la voz. Explicó que estas herramientas todavía no logran desprenderse por completo de una respiración similar a la de Microsoft Sam.

OpenVoice - tecnología versátil de clonación instantánea de voz

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News