5 puntos por GN⁺ 2024-04-28 | 1 comentarios | Compartir por WhatsApp

Introducción a OpenVoice V1

  • Las ventajas de OpenVoice son las siguientes:
    • Clonación precisa del timbre: OpenVoice puede clonar con precisión un timbre de referencia y generar voz en varios idiomas y acentos.
    • Control flexible del estilo de voz: OpenVoice permite controlar en detalle estilos de voz como emoción y entonación, así como otros parámetros de estilo como ritmo, pausas y prosodia.
    • Clonación de voz multilingüe zero-shot: Ni el idioma de la voz generada ni el idioma de la voz de referencia necesitan haber sido presentados en un gran conjunto de datos multilingüe de entrenamiento de hablantes.

Introducción a OpenVoice V2

  • En abril de 2024 se lanzó OpenVoice V2, que incluye todas las funciones de V1 y añade lo siguiente:
    • Mejor calidad de audio: OpenVoice V2 adopta una estrategia de entrenamiento diferente que ofrece mejor calidad de audio.
    • Soporte multilingüe nativo: inglés, español, francés, chino, japonés y coreano están soportados de forma nativa en OpenVoice V2.
    • Uso comercial gratuito: desde abril de 2024, V2 y V1 se publican bajo licencia MIT y su uso comercial es gratuito.

Estado de uso de OpenVoice

  • OpenVoice ha proporcionado la función de clonación de voz instantánea de myshell.ai desde mayo de 2023.
  • Hasta noviembre de 2023, el modelo de clonación de voz fue utilizado decenas de millones de veces por usuarios de todo el mundo, y la plataforma experimentó un crecimiento explosivo de usuarios.

Principales contribuyentes

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

Uso

  • Para instrucciones detalladas de uso, consulta usage.

Problemas comunes

  • Para preguntas y respuestas comunes, consulta QA.
  • La lista de preguntas y respuestas se actualizará periódicamente.

Participación en la comunidad

  • Si te unes a la comunidad de Discord y seleccionas el rol de 'Developer' al registrarte, obtendrás acceso exclusivo a canales solo para desarrolladores.
  • No te pierdas debates útiles y oportunidades de colaboración.

Citas

  • Esta implementación se basa en varios proyectos excelentes como TTS, VITS y VITS2.
  • Gracias por su gran trabajo.

Licencia

  • OpenVoice V1 y V2 tienen licencia MIT, y tanto el uso comercial como el uso para investigación son gratuitos.

Opinión de GN⁺

  • OpenVoice es una herramienta potente que permite generar fácilmente voces en distintos idiomas y con diferentes emociones. Parece que podría utilizarse en diversos campos como cine, animación y videojuegos.

  • Sin embargo, como permite clonar voces con demasiada facilidad, existe riesgo de uso indebido. Por ejemplo, podrían surgir problemas como la creación de videos deepfake usando la voz de una celebridad sin permiso. Parece necesario preparar medidas al respecto.

  • Entre los productos comerciales con funciones similares a OpenVoice están Lyrebird, Resemble.ai y Descript. Se usan principalmente en atención al cliente, call centers y doblaje de video.

  • Al adoptar OpenVoice, hay que prestar atención a la seguridad de los datos y a los problemas de derechos de autor. Además, es indispensable verificar la naturalidad de la voz generada y la precisión de la pronunciación.

  • Al haber sido publicado como open source, se espera una mejora continua del rendimiento con la participación de diversos desarrolladores. Queda por ver si podrá ofrecer calidad de audio y funciones al nivel de productos comerciales.

1 comentarios

 
GN⁺ 2024-04-28
Opiniones en Hacker News
  • Recientemente ocurrió un caso en el que el entrenador de un equipo deportivo usó IA para fabricar un clip de audio con declaraciones racistas del director de la escuela y difamarlo. Esto sugiere que la ley y su aplicación deben esforzarse por alcanzar el ritmo de avance de la tecnología de IA.
  • Se espera que problemas como pruebas históricas falsas, filtraciones falsas, apoyos falsos y publicidad falsa se vuelvan más graves. En una situación en la que ni siquiera se verifican correctamente los artículos de texto simples, el daño causado por la tecnología de IA será aún mayor.
  • Esta tecnología solo imita el tono de la voz, pero no replica realmente la voz. El documento lo aclara, pero aun así la siguen llamando "clonación de voz", lo que genera confusión.
  • Cuesta encontrar casos de uso legítimos para esta tecnología. Tiene mucho potencial para ser mal utilizada con fines de engaño.
  • Para quienes quieren crear cosas interesantes usando tecnología de IA, es importante encontrar buenos lugares donde obtener información relacionada. Me interesan más los flujos de trabajo interesantes y las personas que usan esta tecnología que la tecnología de IA en sí.
  • En comparación con tecnologías de IA de clonación de voz ya publicadas, esta versión no parece especialmente peor. Hay demasiado pesimismo y reacciones exageradas.
  • Espero que la tecnología de clonación de voz permita crear audiolibros con la propia voz del autor. No será tan bueno como leerlo directamente, pero la voz del autor sería más atractiva que la de un actor de doblaje.
  • Estaría bien que el README incluyera código de ejemplo.
  • Intenté "clonar" mi propia voz, pero el resultado no se parecía en nada. Esperaba escuchar mi voz hablando en francés, pero no fue así. El título "clonación de voz instantánea" es algo engañoso.