OpenVoice: tecnología de clonación de voz instantánea
(github.com/myshell-ai)Introducción a OpenVoice V1
- Las ventajas de OpenVoice son las siguientes:
- Clonación precisa del timbre: OpenVoice puede clonar con precisión un timbre de referencia y generar voz en varios idiomas y acentos.
- Control flexible del estilo de voz: OpenVoice permite controlar en detalle estilos de voz como emoción y entonación, así como otros parámetros de estilo como ritmo, pausas y prosodia.
- Clonación de voz multilingüe zero-shot: Ni el idioma de la voz generada ni el idioma de la voz de referencia necesitan haber sido presentados en un gran conjunto de datos multilingüe de entrenamiento de hablantes.
Introducción a OpenVoice V2
- En abril de 2024 se lanzó OpenVoice V2, que incluye todas las funciones de V1 y añade lo siguiente:
- Mejor calidad de audio: OpenVoice V2 adopta una estrategia de entrenamiento diferente que ofrece mejor calidad de audio.
- Soporte multilingüe nativo: inglés, español, francés, chino, japonés y coreano están soportados de forma nativa en OpenVoice V2.
- Uso comercial gratuito: desde abril de 2024, V2 y V1 se publican bajo licencia MIT y su uso comercial es gratuito.
Estado de uso de OpenVoice
- OpenVoice ha proporcionado la función de clonación de voz instantánea de myshell.ai desde mayo de 2023.
- Hasta noviembre de 2023, el modelo de clonación de voz fue utilizado decenas de millones de veces por usuarios de todo el mundo, y la plataforma experimentó un crecimiento explosivo de usuarios.
Principales contribuyentes
- Zengyi Qin (MIT, MyShell)
- Wenliang Zhao (Tsinghua University)
- Xumin Yu (Tsinghua University)
- Ethan Sun (MyShell)
Uso
- Para instrucciones detalladas de uso, consulta
usage.
Problemas comunes
- Para preguntas y respuestas comunes, consulta
QA. - La lista de preguntas y respuestas se actualizará periódicamente.
Participación en la comunidad
- Si te unes a la comunidad de Discord y seleccionas el rol de 'Developer' al registrarte, obtendrás acceso exclusivo a canales solo para desarrolladores.
- No te pierdas debates útiles y oportunidades de colaboración.
Citas
- Esta implementación se basa en varios proyectos excelentes como TTS, VITS y VITS2.
- Gracias por su gran trabajo.
Licencia
- OpenVoice V1 y V2 tienen licencia MIT, y tanto el uso comercial como el uso para investigación son gratuitos.
Opinión de GN⁺
-
OpenVoice es una herramienta potente que permite generar fácilmente voces en distintos idiomas y con diferentes emociones. Parece que podría utilizarse en diversos campos como cine, animación y videojuegos.
-
Sin embargo, como permite clonar voces con demasiada facilidad, existe riesgo de uso indebido. Por ejemplo, podrían surgir problemas como la creación de videos deepfake usando la voz de una celebridad sin permiso. Parece necesario preparar medidas al respecto.
-
Entre los productos comerciales con funciones similares a OpenVoice están Lyrebird, Resemble.ai y Descript. Se usan principalmente en atención al cliente, call centers y doblaje de video.
-
Al adoptar OpenVoice, hay que prestar atención a la seguridad de los datos y a los problemas de derechos de autor. Además, es indispensable verificar la naturalidad de la voz generada y la precisión de la pronunciación.
-
Al haber sido publicado como open source, se espera una mejora continua del rendimiento con la participación de diversos desarrolladores. Queda por ver si podrá ofrecer calidad de audio y funciones al nivel de productos comerciales.
1 comentarios
Opiniones en Hacker News