5 puntos por GN⁺ 2024-01-02 | 1 comentarios | Compartir por WhatsApp

OpenVoice: tecnología versátil de clonación instantánea de voz

  • OpenVoice es un enfoque versátil de clonación de voz que puede replicar una voz a partir de un breve clip de audio de referencia y generar voz en varios idiomas.
  • Esta tecnología ofrece flexibilidad en el control del estilo de voz, permitiendo no solo replicar el timbre de la voz de referencia, sino también ajustar con detalle emociones, entonación, ritmo, pausas y otros aspectos del estilo vocal.
  • OpenVoice logra clonación de voz cruzada entre idiomas en zero-shot incluso para idiomas que no están incluidos en grandes conjuntos de datos de entrenamiento de hablantes.

Detalles técnicos y contribuciones de la investigación

  • OpenVoice presume un costo computacional decenas de veces más eficiente que las API disponibles comercialmente, además de ofrecer un rendimiento superior.
  • Para impulsar más avances en el campo de la investigación, pone a disposición pública el código fuente y los modelos entrenados.
  • En el sitio web de demostración se ofrecen resultados cualitativos, y la versión interna previa al lanzamiento fue utilizada decenas de millones de veces por usuarios de todo el mundo entre mayo y octubre de 2023.

Opinión de GN⁺

  • OpenVoice representa un avance importante en la tecnología de clonación de voz, y en particular su capacidad para generar voz en distintos idiomas y estilos es muy innovadora.
  • Esta tecnología tiene potencial de aplicación en diversos campos, como educación, entretenimiento y servicios de voz personalizados.
  • Se espera que el código fuente y los modelos publicados contribuyan a acelerar la investigación en tecnologías de voz.

1 comentarios

 
GN⁺ 2024-01-02
Opiniones de Hacker News
  • Un usuario elogia a los autores por hacer que este proyecto sea fácil de probar. Sin embargo, tuvo resultados poco satisfactorios con la clonación de voz general. Hizo que leyera el primer párrafo de la página de Wikipedia sobre un libro y generara la siguiente oración, pero el resultado sonaba como si hubiera sido generado por una computadora.

    • Hace referencia a los enlaces del audio de muestra proporcionado y de la voz clonada (convertida a mp3).
    • Instaló los paquetes necesarios con pip y ejecutó demo_part1.ipynb usando su propia muestra de audio. Se ejecutó casi de inmediato en el notebook.
  • Un usuario pide recomendaciones de buenos proyectos open source que pueda usar cuando quiera hacer clonación de voz en su propio hardware. Tiene curiosidad por el estado actual del open source en clonación de voz.

  • Un usuario pregunta si con esta tecnología (o con Eleven Labs) se puede crear un modelo de voz que se pueda conectar al TTS de un teléfono Android.

    • Un amigo del usuario suele comunicarse escribiendo en su celular o en una laptop pequeña debido a una parálisis laríngea. Sería bueno si pudiera recuperar en cierta medida "su propia" voz usando grabaciones pasadas de su voz.
  • A un usuario le gusta este artículo. Le da la sensación de "esto es lo que hicimos y queremos ayudar a que otros también puedan hacerlo". Valora especialmente la sección "Remark on Novelty": la contribución de OpenVoice no es inventar submódulos de la arquitectura del modelo, sino ofrecer un framework desacoplado que separa el control del estilo de voz y del idioma de la clonación del timbre.

  • Comparte un enlace de GitHub y un enlace a los checkpoints (archivo zip). Como el usuario es alérgico a los enlaces directos a archivos zip alojados en Amazon, corrige y comparte el enlace de los checkpoints.

  • Considera impresionantes los enlaces de ejemplo proporcionados.

  • Un usuario espera que YouTube prohíba el uso de esta tecnología o al menos ofrezca funciones para filtrar este tipo de videos.

  • Un usuario cuenta que, al llamar a uno de los principales bancos del Reino Unido, el banco seguía recomendándole inscribirse en un programa de "mi voz es mi contraseña". En la etapa actual del avance de la IA, esto se siente simplemente descuidado.

  • La primera y persistente impresión de un usuario es que los usos inmorales o criminales de la clonación de voz superan ampliamente a los usos legítimos.

  • El líder actual en el campo open source de la clonación de voz es RVC, y le gustaría ver en qué se diferencia esto en comparación.