OpenVoice: tecnología de clonación de voz instantánea

(github.com/myshell-ai)

5 puntos por GN⁺ 2024-04-28 | 1 comentarios | Compartir por WhatsApp

OpenVoice es un proyecto de clonación de voz instantánea que replica un timbre de referencia para generar voz en varios idiomas y acentos, y ha publicado las funciones de V1 y V2
V1 ofrece clonación precisa del timbre, control del estilo de voz como emoción, entonación, ritmo, pausas y variaciones de acento, y compatibilidad con clonación de voz cross-lingual zero-shot
OpenVoice V2 se publicó en abril de 2024 e incluye las funciones de V1, además de ofrecer mejor calidad de audio con una estrategia de entrenamiento diferente
V2 soporta de forma multilingüe nativa inglés, español, francés, chino, japonés y coreano, y tanto V1 como V2 pueden usarse gratis para fines comerciales y de investigación bajo licencia MIT
OpenVoice se ha usado desde mayo de 2023 en la función de clonación de voz instantánea de myshell.ai, y hasta noviembre de 2023 fue utilizado decenas de millones de veces por usuarios de todo el mundo

Funciones de clonación de voz que ofrece OpenVoice

OpenVoice es un proyecto para la clonación de voz instantánea
El trabajo relacionado está disponible como artículo en arXiv

Funciones clave de OpenVoice V1

Clonación precisa del timbre
- Puede replicar con precisión un timbre de referencia
- Puede generar voz en múltiples idiomas y acentos
Control flexible del estilo de voz
- Permite controlar con detalle la emoción y la entonación
- También permite controlar parámetros de estilo como ritmo, pausas y cambios de entonación
Clonación de voz cross-lingual zero-shot
- No es necesario que el idioma de la voz generada ni el idioma de la voz de referencia estén incluidos en un gran dataset de entrenamiento multilingüe y multi-speaker

Cambios en OpenVoice V2

OpenVoice V2 se publicó en abril de 2024
V2 incluye todas las funciones de V1
Adopta una estrategia de entrenamiento diferente para ofrecer mejor calidad de audio
Soporta de forma nativa inglés, español, francés, chino, japonés y coreano
Desde abril de 2024, tanto V2 como V1 se publican bajo MIT License, por lo que su uso comercial es gratuito

Uso real y alcance de la publicación

OpenVoice ha impulsado la función de clonación de voz instantánea de myshell.ai desde mayo de 2023
Hasta noviembre de 2023, el modelo de clonación de voz fue usado decenas de millones de veces por usuarios de todo el mundo
El README incluye un demo en Video

Uso, licencia y proyectos base

Las instrucciones detalladas de uso se explican en la documentación de usage del repositorio
Las preguntas y respuestas generales se tratan en la documentación de QA del repositorio
OpenVoice V1 y V2 tienen MIT License, y su uso tanto comercial como para investigación es gratuito
La implementación se basa en TTS, VITS, VITS2

1 comentarios

GN⁺ 2024-04-28

Opiniones de Hacker News

Incluso en los últimos días pasó algo así: la policía dijo que el director deportivo creó con IA un clip de voz falso para hacer que el director de la escuela pareciera racista
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- Por eso esta tecnología debe usarse ampliamente y volverse bien conocida. Hay que hacer que la gente esté más alerta, no crea cualquier cosa y verifique la fuente
  aunque la mayoría seguramente seguirá sin hacer fact-checking
Entramos en una era en la que la ley y su aplicación tienen que ponerse al día muy rápido
Ahora ya son posibles pruebas históricas falsas, filtraciones falsas, respaldos falsos y anuncios falsos
Si ya a la gente le daba flojera verificar cualquier texto en Facetok, esto probablemente se va a poner mucho peor
- Parece una transición de la hipernormalización a lo hiperreal
  Les he dicho a mis amigos que en 5 a 10 años casi solo se podrá creer al 100% en lo que pase justo frente a tus ojos
  Uno puede elegir confiar en medios serios para que verifiquen las cosas, pero con la polarización una gran parte del mundo ya asumirá que fueron engañados y descartará todo como falso
  Basta con ver Sora o los nuevos modelos de voz. Hace pocos días arrestaron a un entrenador deportivo de secundaria por clonar la voz del director y hacerle decir cosas horribles, y lo atraparon porque usó su propio correo electrónico
  Si a eso le sumas que el nuevo modelo Phi-mini de Microsoft, con 3.8 mil millones de parámetros, se acerca al rendimiento de GPT-3.5, da más miedo. GPT-3.5 tenía 175 mil millones de parámetros, y esta optimización tecnológica apenas lleva unos 5 años
  Quiero bajarme del loco paseo de Mr Bones
- La confianza es una dependencia de la existencia humana. Se necesita no solo para la civilización, sino también para las comunidades más pequeñas y para el intercambio básico de ideas, bienes y servicios
  No se puede predecir cómo se desarrollará el riesgo de que la IA generativa destruya la confianza, pero soy optimista en que al final la creatividad humana ganará
- Un archivo de audio digital difícilmente puede considerarse prueba de algo. Incluso sin clonación de voz, se puede cortar, pegar y editar audio para fabricar casi cualquier cosa
  Con práctica tampoco es difícil imitar la forma de hablar de otra persona, y tanto aficionados como actores profesionales lo hacen todo el tiempo
  Lo único que cambia es que ahora es más fácil, y en realidad eso debería ayudar a que todos entiendan lo poco confiable que puede ser esa “evidencia”
- Esto también es un gran problema, pero uno todavía mayor es cuando una llamada de spam consigue unos 10 segundos de mi voz y luego llama a mi banco o a mi familia usando mi voz
  Android e iOS deberían incluir cambiadores de voz en tiempo real como algo básico, con un botón rápido para apagarlos desde el marcador y la opción de desactivarlos para los contactos conocidos
- He llegado a ver la exageración en torno al uso criminal y malicioso de la IA como algo parecido a otras exageraciones sobre usos de la IA
  Sí aparecerán usos realmente disruptivos, pero la diferencia entre lo que esta tecnología hace posible por primera vez y lo que ya era posible antes es mucho menor de lo que la gente dice
Esto no es clonación, se parece más a copiar el timbre de voz. El documento mismo lo dice, pero aun así le siguen llamando voice cloning
Lo probé yo mismo y sonaba estadounidense, no con mi acento suave habitual de Lancashire, y no se parecía en nada a mí
- Usando https://voiceshopai.github.io quizá se pueda acercar más al acento original
  VoiceShopAi puede convertir una voz joven en una vieja, una masculina en femenina, o darle el acento del país que sea
  Lo encontré en https://github.com/metame-ai/awesome-audio-plaza, que rastrea nuevas entradas en el campo del audio
- Yo también lo probé con mi voz y, por suerte, no sonaba en absoluto como yo
- El título o el nombre no son muy buenos. Viéndolo de forma más meta, a veces siento que los comentarios de HN últimamente se parecen cada vez más a reacciones al título al estilo Reddit, en lugar de examinar el original o la tecnología en sí
¿Cuál sería un caso de uso legítimo para esta tecnología? Puedo pensar en cien formas de usarla para engañar a otros, pero no se me ocurre fácilmente una situación en la que alguien quisiera clonar o recrear su propia voz
- Puede servir cuando grabaste un pódcast y solo quieres corregir algunas palabras sin la molestia de volver a grabar
  Un desarrollador indie de videojuegos podría crear NPCs vivos con voces únicas, impulsados por un modelo de lenguaje grande para manejar el diálogo
  Durante la producción de una película también se podrían ajustar ciertas líneas de un actor con su consentimiento
  También puede ser necesario para alguien que está perdiendo la voz por problemas de salud pero quiere seguir comunicándose
  Claramente hay casos de uso legítimos para esta tecnología. En lo personal creo que los usos indebidos superan a los legítimos, pero no sería justo decir que no existen aplicaciones válidas
  Hay que criminalizar el abuso y regularlo con dureza, no prohibirlo por completo. Además, en el caso del software y los modelos pequeños, prohibirlo sería bastante difícil
- Es cuestión de tiempo para que agentes como Alexa usen voces personalizadas mucho mejores
  Los audiolibros también podrían leerse con voces por personaje, en vez de que un solo narrador actúe todo a la fuerza
  También serviría si estás resfriado pero quieres dar un discurso sin toser
  En audio de bajo ancho de banda, se podría enviar solo texto y reproducirlo localmente con un modelo de voz
  Incluso podría usarse para conversar con un ser querido fallecido
  También se puede usar para hacer reír o para comedia
- Parece que no le pensaste mucho. Lo primero que se me ocurrió fue usar la clonación de tu propia voz para traducción en tiempo real
  Suponiendo una traducción perfecta que no se use de forma maliciosa, me parece una aplicación siempre útil y para nada malvada
- Tengo un amigo con la laringe paralizada, así que suele escribir en su teléfono o en una laptop pequeña para comunicarse
  Le encantaría poder recuperar aunque sea en parte “su” voz a partir de grabaciones antiguas de cómo hablaba
  Por desgracia, todavía no he visto una herramienta que cree un modelo de voz que pueda integrarse en el TTS de Android que usa o en Windows
- Juego mucho Counter-Strike, y es bastante gracioso cuando la gente insulta al otro equipo con la voz de Joe Biden
¿Dónde conviene seguir este tema? Me interesa bastante porque quiero crear con herramientas así, pero mi voz no es muy buena para ese tipo de uso.
Para que suene más natural, me parece que la conversión de voz a voz sería mejor que la conversión de texto a voz. He probado un poco herramientas como RVC, pero siento que debe haber muchos flujos de trabajo excelentes que me estoy perdiendo entre todo el ruido de la IA.
Sobre todo, me interesan más los flujos de trabajo particularmente interesantes y la gente que hace cosas divertidas con IA.
- Definitivamente Twitter. Ahí es donde se anuncia y se discute todo.
Aquí hay bastante fatalismo y drama exagerado. En comparación con los métodos anteriores de clonación de voz con IA, que ya se podían usar públicamente desde hace como un año, ¿qué hace que esta publicación sea tan peor?
De verdad espero que la clonación de voz permita audiolibros leídos con la voz del autor.
Claro, no sería tan bueno como que el propio autor lo lea, pero en la voz del autor hay algo que un actor de voz no puede dar. Los actores de voz tienen una pronunciación demasiado genérica y exagerada, así que personalmente siento menos conexión.
- Incluso si el autor no es un narrador entrenado, lo que aporta es que la entonación coincide exactamente con cómo se pretendía que se dijeran y entendieran las frases del libro.
  La IA no podrá hacer eso. Por muy buena que se vuelva, no puede leer la mente del autor. El resultado será aún más genérico que el de un narrador humano.
- Más bien, eso es lo que me preocupa. No entiendo por qué un libro tendría que ser leído por el autor.
  Un actor de voz entrenado lo hace mucho mejor, y además puede ajustar la voz al ambiente.
  Si es una autobiografía, lo entiendo, pero en esos casos normalmente el autor ya la lee.
- Si sientes que los narradores de audiolibros son demasiado genéricos, entonces tengo peores noticias sobre una narración con IA entrenada con la voz del autor.
- Casi nunca deseo que un libro me lo lea el autor. El autor es alguien que escribe bien, y un audiolibro no consiste simplemente en “leer” las palabras de la página.
  Tal vez una herramienta como Descript, donde el autor ajuste la pronunciación después de narrar, pero no quiero la voz del autor.
  Sí me interesaría entrenar un modelo con la voz de Allyson Johnson para narrar los libros de Honor Harrington y volver a grabar 1 o 2 de los spin-offs donde usaron a otro narrador. Ese narrador fue terrible.
  También podría servir para corregir en la serie Wheel of Time las partes donde los mismos dos narradores cambian la pronunciación de varios nombres y palabras entre libros. En particular, “Moghedien”.
  Lo pronuncian de al menos tres maneras: Mo-gid-e-on, Mo-ga-dean, Mog-a-din.
- Estaría bueno que cada audiolibro tuviera opciones de narrador. Hay narradores que me encantan y otros que simplemente no soporto escuchar.
  Además, sin IA hay decenas de miles de libros que nunca saldrían en formato de audio.
Relacionado: https://github.com/topics/voice-clone
- Me pregunto si alguien sabe cuáles de las cosas que están ahí realmente funcionan.
  Cada vez que lo he intentado hasta ahora, el resultado no sonaba ni como mi voz objetivo ni como la voz original, sino como una voz nueva aleatoria.
Veo varios notebooks de Python, pero habría sido mejor que el README tuviera código de ejemplo.

OpenVoice: tecnología de clonación de voz instantánea

Funciones de clonación de voz que ofrece OpenVoice

Funciones clave de OpenVoice V1

Clonación precisa del timbre

Control flexible del estilo de voz

Clonación de voz cross-lingual zero-shot

Cambios en OpenVoice V2

Uso real y alcance de la publicación

Uso, licencia y proyectos base

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News