Convertir ebooks en audiolibros con el modelo Kokoro-82M

(claudio.uk)

24 puntos por GN⁺ 2025-01-16 | 3 comentarios | Compartir por WhatsApp

Kokoro v0.19 es un modelo de texto a voz anunciado recientemente, con 82M de parámetros y una salida de muy alta calidad
- Tiene licencia Apache y fue entrenado con menos de 100 horas de audio
- Soporta inglés estadounidense, inglés británico, francés, coreano, japonés y chino, y ofrece varias voces de alta calidad
Uso de Kokoro
- Los usuarios pueden aprovechar Kokoro mediante una herramienta llamada Audiblez, que permite convertir ebooks en audiolibros.
- Audiblez analiza archivos .epub y convierte el contenido del libro en archivos de audio con una narración bien grabada.
- Por ejemplo, en una MacBook Pro con M2, convertir un libro de unas 100,000 palabras toma alrededor de 2 horas.
Cómo instalarlo y ejecutarlo
- Audiblez puede instalarse con pip en una computadora con Python 3 instalado.
- No funciona en Python 3.13.
- Es necesario descargar unos 360 MB de archivos adicionales.
- Para convertir un archivo .epub en audiolibro, hay que ejecutar un comando.
Idiomas y voces compatibles
- La opción -l permite especificar el idioma, y los códigos soportados son en-us, en-gb, fr-fr, ja, ko y cmn.
- La opción -v permite especificar la voz, y hay varias disponibles.
Detección de capítulos
- La detección de capítulos es un poco inestable, pero puede encontrar los capítulos clave en la mayoría de los archivos .epub.
- Si no incluye algún capítulo de interés, se puede intentar ajustar la función is_chapter en el código.
Código fuente y mejoras
- El proyecto Audiblez puede consultarse en GitHub.
- Entre las mejoras futuras están una mejor detección de capítulos, agregar navegación entre capítulos y añadir narración para imágenes.

3 comentarios

crawler 2025-01-16

Sí hay modelos más grandes y mejores que este, pero creo que habría que verlos como herramientas para usos distintos.
Kokoro, al ser pequeño, ha recibido muy buena respuesta porque es rápido y la calidad tampoco está nada mal.

munggo 2025-01-16

La versión en coreano suena como ruso. Está a un nivel imposible de escuchar.

GN⁺ 2025-01-16

Comentarios en Hacker News

Tengo sentimientos encontrados sobre el uso de voces de IA, porque a veces el narrador de un audiolibro interpreta muy bien el texto
- Los audiolibros con varios narradores y distintas voces para cada personaje ofrecen una experiencia especial
- A veces, la única pista para saber quién está hablando en un diálogo es el cambio en el tono de voz
- Prefiero las voces de IA antes que los audiolibros amateur o de dominio público como los de Project Gutenberg
Es difícil escuchar una voz generada por IA por más de 1 minuto, y si aparece una voz de IA en YouTube la salto de inmediato
- Puede ser porque nuestro cerebro intenta percibir las emociones del hablante, las pausas, las sonrisas invisibles, etc.
- Los modelos van a mejorar y será difícil identificar una voz generada por IA
Pide recomendaciones de opciones open source para generar TTS con voces personalizadas
- Planea probar Coqui TTS
Quiere un lector de ebooks que permita cambiar entre texto y audio con solo presionar un botón
- Se imagina leyendo un libro en el sofá y luego cambiando al modo audio mientras lava los platos
Tiene la idea de convertir ebooks en audiolibros con la voz de un narrador específico de audiolibros
- Se inspiró en el proyecto Infinite Conversation, pero todavía no lo ha llevado a cabo
Ha probado varios modelos de TTS, pero la mayoría eran mediocres, no funcionaban en Mac o eran muy lentos
- Este modelo es rápido, fácil de instalar y ofrece una voz decente
- No lee libros que no tengan versión en audiolibro
- Antes usaba elevenlabs, pero para uso personal le resulta caro
En 2025 será posible generar audiolibros con música de fondo, efectos de sonido y narración dramática usando redes neuronales
"kokoro" significa "corazón" en japonés
Espera que se agregue un plugin al software de gestión de ebooks Calibre para convertir fácilmente en versión de audio los títulos seleccionados de una biblioteca epub
Está muy satisfecho de que se haya añadido un argumento de velocidad variable

Convertir ebooks en audiolibros con el modelo Kokoro-82M

Uso de Kokoro

Cómo instalarlo y ejecutarlo

Idiomas y voces compatibles

Detección de capítulos

Código fuente y mejoras

Lecturas relacionadas

3 comentarios

Comentarios en Hacker News