24 puntos por GN⁺ 2025-01-16 | 3 comentarios | Compartir por WhatsApp
  • Kokoro v0.19 es un modelo de texto a voz anunciado recientemente, con 82M de parámetros y una salida de muy alta calidad
    • Tiene licencia Apache y fue entrenado con menos de 100 horas de audio
    • Soporta inglés estadounidense, inglés británico, francés, coreano, japonés y chino, y ofrece varias voces de alta calidad
  • Uso de Kokoro

    • Los usuarios pueden aprovechar Kokoro mediante una herramienta llamada Audiblez, que permite convertir ebooks en audiolibros.
    • Audiblez analiza archivos .epub y convierte el contenido del libro en archivos de audio con una narración bien grabada.
    • Por ejemplo, en una MacBook Pro con M2, convertir un libro de unas 100,000 palabras toma alrededor de 2 horas.
  • Cómo instalarlo y ejecutarlo

    • Audiblez puede instalarse con pip en una computadora con Python 3 instalado.
    • No funciona en Python 3.13.
    • Es necesario descargar unos 360 MB de archivos adicionales.
    • Para convertir un archivo .epub en audiolibro, hay que ejecutar un comando.
  • Idiomas y voces compatibles

    • La opción -l permite especificar el idioma, y los códigos soportados son en-us, en-gb, fr-fr, ja, ko y cmn.
    • La opción -v permite especificar la voz, y hay varias disponibles.
  • Detección de capítulos

    • La detección de capítulos es un poco inestable, pero puede encontrar los capítulos clave en la mayoría de los archivos .epub.
    • Si no incluye algún capítulo de interés, se puede intentar ajustar la función is_chapter en el código.
  • Código fuente y mejoras

    • El proyecto Audiblez puede consultarse en GitHub.
    • Entre las mejoras futuras están una mejor detección de capítulos, agregar navegación entre capítulos y añadir narración para imágenes.

3 comentarios

 
crawler 2025-01-16

Sí hay modelos más grandes y mejores que este, pero creo que habría que verlos como herramientas para usos distintos.
Kokoro, al ser pequeño, ha recibido muy buena respuesta porque es rápido y la calidad tampoco está nada mal.

 
munggo 2025-01-16

La versión en coreano suena como ruso. Está a un nivel imposible de escuchar.

 
GN⁺ 2025-01-16
Comentarios en Hacker News
  • Tengo sentimientos encontrados sobre el uso de voces de IA, porque a veces el narrador de un audiolibro interpreta muy bien el texto

    • Los audiolibros con varios narradores y distintas voces para cada personaje ofrecen una experiencia especial
    • A veces, la única pista para saber quién está hablando en un diálogo es el cambio en el tono de voz
    • Prefiero las voces de IA antes que los audiolibros amateur o de dominio público como los de Project Gutenberg
  • Es difícil escuchar una voz generada por IA por más de 1 minuto, y si aparece una voz de IA en YouTube la salto de inmediato

    • Puede ser porque nuestro cerebro intenta percibir las emociones del hablante, las pausas, las sonrisas invisibles, etc.
    • Los modelos van a mejorar y será difícil identificar una voz generada por IA
  • Pide recomendaciones de opciones open source para generar TTS con voces personalizadas

    • Planea probar Coqui TTS
  • Quiere un lector de ebooks que permita cambiar entre texto y audio con solo presionar un botón

    • Se imagina leyendo un libro en el sofá y luego cambiando al modo audio mientras lava los platos
  • Tiene la idea de convertir ebooks en audiolibros con la voz de un narrador específico de audiolibros

    • Se inspiró en el proyecto Infinite Conversation, pero todavía no lo ha llevado a cabo
  • Ha probado varios modelos de TTS, pero la mayoría eran mediocres, no funcionaban en Mac o eran muy lentos

    • Este modelo es rápido, fácil de instalar y ofrece una voz decente
    • No lee libros que no tengan versión en audiolibro
    • Antes usaba elevenlabs, pero para uso personal le resulta caro
  • En 2025 será posible generar audiolibros con música de fondo, efectos de sonido y narración dramática usando redes neuronales

  • "kokoro" significa "corazón" en japonés

  • Espera que se agregue un plugin al software de gestión de ebooks Calibre para convertir fácilmente en versión de audio los títulos seleccionados de una biblioteca epub

  • Está muy satisfecho de que se haya añadido un argumento de velocidad variable