5 puntos por GN⁺ 2024-04-28 | 1 comentarios | Compartir por WhatsApp
  • OpenVoice es un proyecto de clonación de voz instantánea que replica un timbre de referencia para generar voz en varios idiomas y acentos, y ha publicado las funciones de V1 y V2
  • V1 ofrece clonación precisa del timbre, control del estilo de voz como emoción, entonación, ritmo, pausas y variaciones de acento, y compatibilidad con clonación de voz cross-lingual zero-shot
  • OpenVoice V2 se publicó en abril de 2024 e incluye las funciones de V1, además de ofrecer mejor calidad de audio con una estrategia de entrenamiento diferente
  • V2 soporta de forma multilingüe nativa inglés, español, francés, chino, japonés y coreano, y tanto V1 como V2 pueden usarse gratis para fines comerciales y de investigación bajo licencia MIT
  • OpenVoice se ha usado desde mayo de 2023 en la función de clonación de voz instantánea de myshell.ai, y hasta noviembre de 2023 fue utilizado decenas de millones de veces por usuarios de todo el mundo

Funciones de clonación de voz que ofrece OpenVoice

Funciones clave de OpenVoice V1

  • Clonación precisa del timbre

    • Puede replicar con precisión un timbre de referencia
    • Puede generar voz en múltiples idiomas y acentos
  • Control flexible del estilo de voz

    • Permite controlar con detalle la emoción y la entonación
    • También permite controlar parámetros de estilo como ritmo, pausas y cambios de entonación
  • Clonación de voz cross-lingual zero-shot

    • No es necesario que el idioma de la voz generada ni el idioma de la voz de referencia estén incluidos en un gran dataset de entrenamiento multilingüe y multi-speaker

Cambios en OpenVoice V2

  • OpenVoice V2 se publicó en abril de 2024
  • V2 incluye todas las funciones de V1
  • Adopta una estrategia de entrenamiento diferente para ofrecer mejor calidad de audio
  • Soporta de forma nativa inglés, español, francés, chino, japonés y coreano
  • Desde abril de 2024, tanto V2 como V1 se publican bajo MIT License, por lo que su uso comercial es gratuito

Uso real y alcance de la publicación

  • OpenVoice ha impulsado la función de clonación de voz instantánea de myshell.ai desde mayo de 2023
  • Hasta noviembre de 2023, el modelo de clonación de voz fue usado decenas de millones de veces por usuarios de todo el mundo
  • El README incluye un demo en Video

Uso, licencia y proyectos base

  • Las instrucciones detalladas de uso se explican en la documentación de usage del repositorio
  • Las preguntas y respuestas generales se tratan en la documentación de QA del repositorio
  • OpenVoice V1 y V2 tienen MIT License, y su uso tanto comercial como para investigación es gratuito
  • La implementación se basa en TTS, VITS, VITS2

1 comentarios

 
GN⁺ 2024-04-28
Opiniones de Hacker News
  • Incluso en los últimos días pasó algo así: la policía dijo que el director deportivo creó con IA un clip de voz falso para hacer que el director de la escuela pareciera racista
    https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c

    • Por eso esta tecnología debe usarse ampliamente y volverse bien conocida. Hay que hacer que la gente esté más alerta, no crea cualquier cosa y verifique la fuente
      aunque la mayoría seguramente seguirá sin hacer fact-checking
  • Entramos en una era en la que la ley y su aplicación tienen que ponerse al día muy rápido
    Ahora ya son posibles pruebas históricas falsas, filtraciones falsas, respaldos falsos y anuncios falsos
    Si ya a la gente le daba flojera verificar cualquier texto en Facetok, esto probablemente se va a poner mucho peor

    • Parece una transición de la hipernormalización a lo hiperreal
      Les he dicho a mis amigos que en 5 a 10 años casi solo se podrá creer al 100% en lo que pase justo frente a tus ojos
      Uno puede elegir confiar en medios serios para que verifiquen las cosas, pero con la polarización una gran parte del mundo ya asumirá que fueron engañados y descartará todo como falso
      Basta con ver Sora o los nuevos modelos de voz. Hace pocos días arrestaron a un entrenador deportivo de secundaria por clonar la voz del director y hacerle decir cosas horribles, y lo atraparon porque usó su propio correo electrónico
      Si a eso le sumas que el nuevo modelo Phi-mini de Microsoft, con 3.8 mil millones de parámetros, se acerca al rendimiento de GPT-3.5, da más miedo. GPT-3.5 tenía 175 mil millones de parámetros, y esta optimización tecnológica apenas lleva unos 5 años
      Quiero bajarme del loco paseo de Mr Bones
    • La confianza es una dependencia de la existencia humana. Se necesita no solo para la civilización, sino también para las comunidades más pequeñas y para el intercambio básico de ideas, bienes y servicios
      No se puede predecir cómo se desarrollará el riesgo de que la IA generativa destruya la confianza, pero soy optimista en que al final la creatividad humana ganará
    • Un archivo de audio digital difícilmente puede considerarse prueba de algo. Incluso sin clonación de voz, se puede cortar, pegar y editar audio para fabricar casi cualquier cosa
      Con práctica tampoco es difícil imitar la forma de hablar de otra persona, y tanto aficionados como actores profesionales lo hacen todo el tiempo
      Lo único que cambia es que ahora es más fácil, y en realidad eso debería ayudar a que todos entiendan lo poco confiable que puede ser esa “evidencia”
    • Esto también es un gran problema, pero uno todavía mayor es cuando una llamada de spam consigue unos 10 segundos de mi voz y luego llama a mi banco o a mi familia usando mi voz
      Android e iOS deberían incluir cambiadores de voz en tiempo real como algo básico, con un botón rápido para apagarlos desde el marcador y la opción de desactivarlos para los contactos conocidos
    • He llegado a ver la exageración en torno al uso criminal y malicioso de la IA como algo parecido a otras exageraciones sobre usos de la IA
      Sí aparecerán usos realmente disruptivos, pero la diferencia entre lo que esta tecnología hace posible por primera vez y lo que ya era posible antes es mucho menor de lo que la gente dice
  • Esto no es clonación, se parece más a copiar el timbre de voz. El documento mismo lo dice, pero aun así le siguen llamando voice cloning
    Lo probé yo mismo y sonaba estadounidense, no con mi acento suave habitual de Lancashire, y no se parecía en nada a mí

    • Usando https://voiceshopai.github.io quizá se pueda acercar más al acento original
      VoiceShopAi puede convertir una voz joven en una vieja, una masculina en femenina, o darle el acento del país que sea
      Lo encontré en https://github.com/metame-ai/awesome-audio-plaza, que rastrea nuevas entradas en el campo del audio
    • Yo también lo probé con mi voz y, por suerte, no sonaba en absoluto como yo
    • El título o el nombre no son muy buenos. Viéndolo de forma más meta, a veces siento que los comentarios de HN últimamente se parecen cada vez más a reacciones al título al estilo Reddit, en lugar de examinar el original o la tecnología en sí
  • ¿Cuál sería un caso de uso legítimo para esta tecnología? Puedo pensar en cien formas de usarla para engañar a otros, pero no se me ocurre fácilmente una situación en la que alguien quisiera clonar o recrear su propia voz

    • Puede servir cuando grabaste un pódcast y solo quieres corregir algunas palabras sin la molestia de volver a grabar
      Un desarrollador indie de videojuegos podría crear NPCs vivos con voces únicas, impulsados por un modelo de lenguaje grande para manejar el diálogo
      Durante la producción de una película también se podrían ajustar ciertas líneas de un actor con su consentimiento
      También puede ser necesario para alguien que está perdiendo la voz por problemas de salud pero quiere seguir comunicándose
      Claramente hay casos de uso legítimos para esta tecnología. En lo personal creo que los usos indebidos superan a los legítimos, pero no sería justo decir que no existen aplicaciones válidas
      Hay que criminalizar el abuso y regularlo con dureza, no prohibirlo por completo. Además, en el caso del software y los modelos pequeños, prohibirlo sería bastante difícil
    • Es cuestión de tiempo para que agentes como Alexa usen voces personalizadas mucho mejores
      Los audiolibros también podrían leerse con voces por personaje, en vez de que un solo narrador actúe todo a la fuerza
      También serviría si estás resfriado pero quieres dar un discurso sin toser
      En audio de bajo ancho de banda, se podría enviar solo texto y reproducirlo localmente con un modelo de voz
      Incluso podría usarse para conversar con un ser querido fallecido
      También se puede usar para hacer reír o para comedia
    • Parece que no le pensaste mucho. Lo primero que se me ocurrió fue usar la clonación de tu propia voz para traducción en tiempo real
      Suponiendo una traducción perfecta que no se use de forma maliciosa, me parece una aplicación siempre útil y para nada malvada
    • Tengo un amigo con la laringe paralizada, así que suele escribir en su teléfono o en una laptop pequeña para comunicarse
      Le encantaría poder recuperar aunque sea en parte “su” voz a partir de grabaciones antiguas de cómo hablaba
      Por desgracia, todavía no he visto una herramienta que cree un modelo de voz que pueda integrarse en el TTS de Android que usa o en Windows
    • Juego mucho Counter-Strike, y es bastante gracioso cuando la gente insulta al otro equipo con la voz de Joe Biden
  • ¿Dónde conviene seguir este tema? Me interesa bastante porque quiero crear con herramientas así, pero mi voz no es muy buena para ese tipo de uso.
    Para que suene más natural, me parece que la conversión de voz a voz sería mejor que la conversión de texto a voz. He probado un poco herramientas como RVC, pero siento que debe haber muchos flujos de trabajo excelentes que me estoy perdiendo entre todo el ruido de la IA.
    Sobre todo, me interesan más los flujos de trabajo particularmente interesantes y la gente que hace cosas divertidas con IA.

    • Definitivamente Twitter. Ahí es donde se anuncia y se discute todo.
  • Aquí hay bastante fatalismo y drama exagerado. En comparación con los métodos anteriores de clonación de voz con IA, que ya se podían usar públicamente desde hace como un año, ¿qué hace que esta publicación sea tan peor?

  • De verdad espero que la clonación de voz permita audiolibros leídos con la voz del autor.
    Claro, no sería tan bueno como que el propio autor lo lea, pero en la voz del autor hay algo que un actor de voz no puede dar. Los actores de voz tienen una pronunciación demasiado genérica y exagerada, así que personalmente siento menos conexión.

    • Incluso si el autor no es un narrador entrenado, lo que aporta es que la entonación coincide exactamente con cómo se pretendía que se dijeran y entendieran las frases del libro.
      La IA no podrá hacer eso. Por muy buena que se vuelva, no puede leer la mente del autor. El resultado será aún más genérico que el de un narrador humano.
    • Más bien, eso es lo que me preocupa. No entiendo por qué un libro tendría que ser leído por el autor.
      Un actor de voz entrenado lo hace mucho mejor, y además puede ajustar la voz al ambiente.
      Si es una autobiografía, lo entiendo, pero en esos casos normalmente el autor ya la lee.
    • Si sientes que los narradores de audiolibros son demasiado genéricos, entonces tengo peores noticias sobre una narración con IA entrenada con la voz del autor.
    • Casi nunca deseo que un libro me lo lea el autor. El autor es alguien que escribe bien, y un audiolibro no consiste simplemente en “leer” las palabras de la página.
      Tal vez una herramienta como Descript, donde el autor ajuste la pronunciación después de narrar, pero no quiero la voz del autor.
      Sí me interesaría entrenar un modelo con la voz de Allyson Johnson para narrar los libros de Honor Harrington y volver a grabar 1 o 2 de los spin-offs donde usaron a otro narrador. Ese narrador fue terrible.
      También podría servir para corregir en la serie Wheel of Time las partes donde los mismos dos narradores cambian la pronunciación de varios nombres y palabras entre libros. En particular, “Moghedien”.
      Lo pronuncian de al menos tres maneras: Mo-gid-e-on, Mo-ga-dean, Mog-a-din.
    • Estaría bueno que cada audiolibro tuviera opciones de narrador. Hay narradores que me encantan y otros que simplemente no soporto escuchar.
      Además, sin IA hay decenas de miles de libros que nunca saldrían en formato de audio.
  • Relacionado: https://github.com/topics/voice-clone

    • Me pregunto si alguien sabe cuáles de las cosas que están ahí realmente funcionan.
      Cada vez que lo he intentado hasta ahora, el resultado no sonaba ni como mi voz objetivo ni como la voz original, sino como una voz nueva aleatoria.
  • Veo varios notebooks de Python, pero habría sido mejor que el README tuviera código de ejemplo.