- Kokoro v0.19 es un modelo de texto a voz anunciado recientemente, con 82M de parámetros y una salida de muy alta calidad
- Tiene licencia Apache y fue entrenado con menos de 100 horas de audio
- Soporta inglés estadounidense, inglés británico, francés, coreano, japonés y chino, y ofrece varias voces de alta calidad
-
Uso de Kokoro
- Los usuarios pueden aprovechar Kokoro mediante una herramienta llamada Audiblez, que permite convertir ebooks en audiolibros.
- Audiblez analiza archivos
.epub y convierte el contenido del libro en archivos de audio con una narración bien grabada.
- Por ejemplo, en una MacBook Pro con M2, convertir un libro de unas 100,000 palabras toma alrededor de 2 horas.
-
Cómo instalarlo y ejecutarlo
- Audiblez puede instalarse con
pip en una computadora con Python 3 instalado.
- No funciona en Python 3.13.
- Es necesario descargar unos 360 MB de archivos adicionales.
- Para convertir un archivo
.epub en audiolibro, hay que ejecutar un comando.
-
Idiomas y voces compatibles
- La opción
-l permite especificar el idioma, y los códigos soportados son en-us, en-gb, fr-fr, ja, ko y cmn.
- La opción
-v permite especificar la voz, y hay varias disponibles.
-
Detección de capítulos
- La detección de capítulos es un poco inestable, pero puede encontrar los capítulos clave en la mayoría de los archivos
.epub.
- Si no incluye algún capítulo de interés, se puede intentar ajustar la función
is_chapter en el código.
-
Código fuente y mejoras
- El proyecto Audiblez puede consultarse en GitHub.
- Entre las mejoras futuras están una mejor detección de capítulos, agregar navegación entre capítulos y añadir narración para imágenes.
3 comentarios
Sí hay modelos más grandes y mejores que este, pero creo que habría que verlos como herramientas para usos distintos.
Kokoro, al ser pequeño, ha recibido muy buena respuesta porque es rápido y la calidad tampoco está nada mal.
La versión en coreano suena como ruso. Está a un nivel imposible de escuchar.
Comentarios en Hacker News
Tengo sentimientos encontrados sobre el uso de voces de IA, porque a veces el narrador de un audiolibro interpreta muy bien el texto
Es difícil escuchar una voz generada por IA por más de 1 minuto, y si aparece una voz de IA en YouTube la salto de inmediato
Pide recomendaciones de opciones open source para generar TTS con voces personalizadas
Quiere un lector de ebooks que permita cambiar entre texto y audio con solo presionar un botón
Tiene la idea de convertir ebooks en audiolibros con la voz de un narrador específico de audiolibros
Ha probado varios modelos de TTS, pero la mayoría eran mediocres, no funcionaban en Mac o eran muy lentos
En 2025 será posible generar audiolibros con música de fondo, efectos de sonido y narración dramática usando redes neuronales
"kokoro" significa "corazón" en japonés
Espera que se agregue un plugin al software de gestión de ebooks Calibre para convertir fácilmente en versión de audio los títulos seleccionados de una biblioteca epub
Está muy satisfecho de que se haya añadido un argumento de velocidad variable