OpenVoice: tecnología de clonación de voz instantánea
(github.com/myshell-ai)- OpenVoice es un proyecto de clonación de voz instantánea que replica un timbre de referencia para generar voz en varios idiomas y acentos, y ha publicado las funciones de V1 y V2
- V1 ofrece clonación precisa del timbre, control del estilo de voz como emoción, entonación, ritmo, pausas y variaciones de acento, y compatibilidad con clonación de voz cross-lingual zero-shot
- OpenVoice V2 se publicó en abril de 2024 e incluye las funciones de V1, además de ofrecer mejor calidad de audio con una estrategia de entrenamiento diferente
- V2 soporta de forma multilingüe nativa inglés, español, francés, chino, japonés y coreano, y tanto V1 como V2 pueden usarse gratis para fines comerciales y de investigación bajo licencia MIT
- OpenVoice se ha usado desde mayo de 2023 en la función de clonación de voz instantánea de myshell.ai, y hasta noviembre de 2023 fue utilizado decenas de millones de veces por usuarios de todo el mundo
Funciones de clonación de voz que ofrece OpenVoice
- OpenVoice es un proyecto para la clonación de voz instantánea
- El trabajo relacionado está disponible como artículo en arXiv
Funciones clave de OpenVoice V1
-
Clonación precisa del timbre
- Puede replicar con precisión un timbre de referencia
- Puede generar voz en múltiples idiomas y acentos
-
Control flexible del estilo de voz
- Permite controlar con detalle la emoción y la entonación
- También permite controlar parámetros de estilo como ritmo, pausas y cambios de entonación
-
Clonación de voz cross-lingual zero-shot
- No es necesario que el idioma de la voz generada ni el idioma de la voz de referencia estén incluidos en un gran dataset de entrenamiento multilingüe y multi-speaker
Cambios en OpenVoice V2
- OpenVoice V2 se publicó en abril de 2024
- V2 incluye todas las funciones de V1
- Adopta una estrategia de entrenamiento diferente para ofrecer mejor calidad de audio
- Soporta de forma nativa inglés, español, francés, chino, japonés y coreano
- Desde abril de 2024, tanto V2 como V1 se publican bajo MIT License, por lo que su uso comercial es gratuito
Uso real y alcance de la publicación
- OpenVoice ha impulsado la función de clonación de voz instantánea de myshell.ai desde mayo de 2023
- Hasta noviembre de 2023, el modelo de clonación de voz fue usado decenas de millones de veces por usuarios de todo el mundo
- El README incluye un demo en Video
Uso, licencia y proyectos base
- Las instrucciones detalladas de uso se explican en la documentación de usage del repositorio
- Las preguntas y respuestas generales se tratan en la documentación de QA del repositorio
- OpenVoice V1 y V2 tienen MIT License, y su uso tanto comercial como para investigación es gratuito
- La implementación se basa en TTS, VITS, VITS2
1 comentarios
Opiniones de Hacker News
Incluso en los últimos días pasó algo así: la policía dijo que el director deportivo creó con IA un clip de voz falso para hacer que el director de la escuela pareciera racista
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
aunque la mayoría seguramente seguirá sin hacer fact-checking
Entramos en una era en la que la ley y su aplicación tienen que ponerse al día muy rápido
Ahora ya son posibles pruebas históricas falsas, filtraciones falsas, respaldos falsos y anuncios falsos
Si ya a la gente le daba flojera verificar cualquier texto en Facetok, esto probablemente se va a poner mucho peor
Les he dicho a mis amigos que en 5 a 10 años casi solo se podrá creer al 100% en lo que pase justo frente a tus ojos
Uno puede elegir confiar en medios serios para que verifiquen las cosas, pero con la polarización una gran parte del mundo ya asumirá que fueron engañados y descartará todo como falso
Basta con ver Sora o los nuevos modelos de voz. Hace pocos días arrestaron a un entrenador deportivo de secundaria por clonar la voz del director y hacerle decir cosas horribles, y lo atraparon porque usó su propio correo electrónico
Si a eso le sumas que el nuevo modelo Phi-mini de Microsoft, con 3.8 mil millones de parámetros, se acerca al rendimiento de GPT-3.5, da más miedo. GPT-3.5 tenía 175 mil millones de parámetros, y esta optimización tecnológica apenas lleva unos 5 años
Quiero bajarme del loco paseo de Mr Bones
No se puede predecir cómo se desarrollará el riesgo de que la IA generativa destruya la confianza, pero soy optimista en que al final la creatividad humana ganará
Con práctica tampoco es difícil imitar la forma de hablar de otra persona, y tanto aficionados como actores profesionales lo hacen todo el tiempo
Lo único que cambia es que ahora es más fácil, y en realidad eso debería ayudar a que todos entiendan lo poco confiable que puede ser esa “evidencia”
Android e iOS deberían incluir cambiadores de voz en tiempo real como algo básico, con un botón rápido para apagarlos desde el marcador y la opción de desactivarlos para los contactos conocidos
Sí aparecerán usos realmente disruptivos, pero la diferencia entre lo que esta tecnología hace posible por primera vez y lo que ya era posible antes es mucho menor de lo que la gente dice
Esto no es clonación, se parece más a copiar el timbre de voz. El documento mismo lo dice, pero aun así le siguen llamando voice cloning
Lo probé yo mismo y sonaba estadounidense, no con mi acento suave habitual de Lancashire, y no se parecía en nada a mí
VoiceShopAi puede convertir una voz joven en una vieja, una masculina en femenina, o darle el acento del país que sea
Lo encontré en https://github.com/metame-ai/awesome-audio-plaza, que rastrea nuevas entradas en el campo del audio
¿Cuál sería un caso de uso legítimo para esta tecnología? Puedo pensar en cien formas de usarla para engañar a otros, pero no se me ocurre fácilmente una situación en la que alguien quisiera clonar o recrear su propia voz
Un desarrollador indie de videojuegos podría crear NPCs vivos con voces únicas, impulsados por un modelo de lenguaje grande para manejar el diálogo
Durante la producción de una película también se podrían ajustar ciertas líneas de un actor con su consentimiento
También puede ser necesario para alguien que está perdiendo la voz por problemas de salud pero quiere seguir comunicándose
Claramente hay casos de uso legítimos para esta tecnología. En lo personal creo que los usos indebidos superan a los legítimos, pero no sería justo decir que no existen aplicaciones válidas
Hay que criminalizar el abuso y regularlo con dureza, no prohibirlo por completo. Además, en el caso del software y los modelos pequeños, prohibirlo sería bastante difícil
Los audiolibros también podrían leerse con voces por personaje, en vez de que un solo narrador actúe todo a la fuerza
También serviría si estás resfriado pero quieres dar un discurso sin toser
En audio de bajo ancho de banda, se podría enviar solo texto y reproducirlo localmente con un modelo de voz
Incluso podría usarse para conversar con un ser querido fallecido
También se puede usar para hacer reír o para comedia
Suponiendo una traducción perfecta que no se use de forma maliciosa, me parece una aplicación siempre útil y para nada malvada
Le encantaría poder recuperar aunque sea en parte “su” voz a partir de grabaciones antiguas de cómo hablaba
Por desgracia, todavía no he visto una herramienta que cree un modelo de voz que pueda integrarse en el TTS de Android que usa o en Windows
¿Dónde conviene seguir este tema? Me interesa bastante porque quiero crear con herramientas así, pero mi voz no es muy buena para ese tipo de uso.
Para que suene más natural, me parece que la conversión de voz a voz sería mejor que la conversión de texto a voz. He probado un poco herramientas como RVC, pero siento que debe haber muchos flujos de trabajo excelentes que me estoy perdiendo entre todo el ruido de la IA.
Sobre todo, me interesan más los flujos de trabajo particularmente interesantes y la gente que hace cosas divertidas con IA.
Aquí hay bastante fatalismo y drama exagerado. En comparación con los métodos anteriores de clonación de voz con IA, que ya se podían usar públicamente desde hace como un año, ¿qué hace que esta publicación sea tan peor?
De verdad espero que la clonación de voz permita audiolibros leídos con la voz del autor.
Claro, no sería tan bueno como que el propio autor lo lea, pero en la voz del autor hay algo que un actor de voz no puede dar. Los actores de voz tienen una pronunciación demasiado genérica y exagerada, así que personalmente siento menos conexión.
La IA no podrá hacer eso. Por muy buena que se vuelva, no puede leer la mente del autor. El resultado será aún más genérico que el de un narrador humano.
Un actor de voz entrenado lo hace mucho mejor, y además puede ajustar la voz al ambiente.
Si es una autobiografía, lo entiendo, pero en esos casos normalmente el autor ya la lee.
Tal vez una herramienta como Descript, donde el autor ajuste la pronunciación después de narrar, pero no quiero la voz del autor.
Sí me interesaría entrenar un modelo con la voz de Allyson Johnson para narrar los libros de Honor Harrington y volver a grabar 1 o 2 de los spin-offs donde usaron a otro narrador. Ese narrador fue terrible.
También podría servir para corregir en la serie Wheel of Time las partes donde los mismos dos narradores cambian la pronunciación de varios nombres y palabras entre libros. En particular, “Moghedien”.
Lo pronuncian de al menos tres maneras: Mo-gid-e-on, Mo-ga-dean, Mog-a-din.
Además, sin IA hay decenas de miles de libros que nunca saldrían en formato de audio.
Relacionado: https://github.com/topics/voice-clone
Cada vez que lo he intentado hasta ahora, el resultado no sonaba ni como mi voz objetivo ni como la voz original, sino como una voz nueva aleatoria.
Veo varios notebooks de Python, pero habría sido mejor que el README tuviera código de ejemplo.