Abogen - Crear audiolibros desde EPUB, PDF y texto

(github.com/denizsafak)

10 puntos por GN⁺ 2025-08-11 | 1 comentarios | Compartir por WhatsApp

Abogen es una herramienta de código abierto que convierte fácilmente archivos ePub, PDF y texto en audiolibros de alta calidad
Durante el proceso de conversión también se generan automáticamente subtítulos sincronizados (subtitles) con la voz
Ofrece diversas funciones como mezcla de voces personalizadas, formatos de codificación, división por capítulos y procesamiento por lotes (modo cola)
Usa el más reciente motor de síntesis de voz Kokoro-82M, que ofrece una calidad TTS natural y soporte multilingüe
Frente a otros proyectos, destaca por su GUI intuitiva, la gestión de carpetas por proyecto y el procesamiento automático de metadatos

Resumen e importancia de Abogen

Abogen es una herramienta de conversión de texto a voz (TTS) de código abierto que transforma rápidamente archivos de texto (ePub, PDF, .txt, etc.) en audiolibros naturales
Ofrece una amplia variedad de funciones, como interfaz intuitiva, procesamiento por lotes de múltiples archivos, mezcla de voces personalizada, varios formatos de salida, gestión de capítulos y soporte de metadatos
A diferencia de otros proyectos de código abierto, permite obtener con operación sencilla audio de alta calidad (especialmente TTS basado en Kokoro-82M) y subtítulos fácilmente
El proceso inicial de instalación y la compleja configuración del entorno de Python están automatizados, por lo que incluso desarrolladores principiantes pueden usarlo con facilidad
En particular, sus funciones de procesamiento de capítulos y metadatos por proyecto, entorno GUI y voces personalizadas se consideran una ventaja competitiva dentro del sector

Resumen de características principales

Conversión de texto a voz (TTS) para transformar archivos ePub, PDF y texto en audio en cuestión de segundos
Generación automática de subtítulos sincronizados, con soporte para audio y subtítulos perfectamente alineados
Uso de un mezclador de voces para combinar varios modelos de voz y crear tu propio perfil de voz
Función de modo cola para procesar varios archivos por lotes y mantener configuraciones individuales por archivo
Generación automática de marcadores de capítulo y metadatos, además de gestión de carpetas de proyecto
Varios formatos de salida: compatible con WAV, FLAC, MP3, OPUS, M4B, y subtítulos en SRT/ASS, entre otros
Idiomas principales compatibles: inglés de EE. UU./Reino Unido, español, francés, hindi, italiano, japonés, portugués, chino y otros
Efecto de pronunciación natural y de alta calidad basado en el motor TTS Kokoro-82M
Compatible tanto con GUI como con línea de comandos, y también puede usarse con contenedores Docker

Detalle de funciones de Abogen

#Inicio y contexto de instalación

Las herramientas TTS existentes suelen tener muchas limitaciones en instalación, configuración del entorno, calidad, personalización y procesamiento de múltiples archivos
Abogen fue creado para que incluso principiantes puedan acceder fácilmente a funciones avanzadas como conversión de texto a audio, generación de subtítulos y mezcla de voces mediante una interfaz sencilla pero potente
Puede usarse en varios sistemas operativos (Windows, Linux, macOS) y permite configurar automáticamente un entorno integrado o de instalación sin necesidad de tener Python preinstalado

#Uso principal

Puedes arrastrar y soltar archivos ePub, PDF o de texto, o usar el editor integrado
Configuración: permite elegir en detalle velocidad de lectura, voz (modelo, género, idioma), estilo de subtítulos (por oración o por palabra), formatos de salida de audio y subtítulos, ruta de salida, etc.
Basta con hacer clic en el botón para iniciar la conversión y generar el resultado de inmediato

#Demostración real

Incluso en una GPU de gama baja, puede generar en 11 segundos un audio de 3 minutos 28 segundos a partir de un texto de unas 3,000 letras/caracteres
La velocidad de procesamiento varía según las especificaciones del hardware

#Opciones de configuración

Método de entrada: arrastrar y soltar, editor integrado y gestión de cola para procesar varios archivos a la vez
Velocidad de lectura: ajuste fino de 0.1x a 2.0x
Selección de voz y vista previa: modelos por idioma y género, además de un mezclador personalizado para definir tu propio perfil de voz
Generación de subtítulos: automatización por oración, por coma o por bloques de n palabras
Salida de audio: WAV, FLAC, MP3, OPUS, M4B (con capítulos)
Formato de subtítulos: soporte personalizable para SRT, ASS, etc.
Gestión de capítulos y proyectos: guarda en carpetas de proyecto con audio por capítulo, versión combinada y metadatos incluidos
Varias opciones de UI, como temas, logs y atajos

#Voice Mixer

Permite combinar varios modelos de voz mediante ajuste de pesos, para crear, guardar y reutilizar una voz única
El resultado de la mezcla de voces puede preescucharse y aplicarse como perfil de voz

#Modo cola

Mantiene configuraciones individuales por archivo y permite la conversión automática de varios textos y eBooks al mismo tiempo
Cada archivo guarda por separado la configuración que tenía al momento de agregarse a la cola, independientemente de cambios en la configuración principal

#Marcadores de capítulo y metadatos

Inserta automáticamente etiquetas de división por capítulos
- También es posible insertar etiquetas `` manualmente
- Si ocurre un error, resulta útil para reprocesar rápidamente solo ese capítulo
Con etiquetas de metadatos se puede agregar información como título, autor y año para mostrarla en apps de audiolibros
- Se pueden añadir al inicio del archivo de texto

#Idiomas compatibles

Soporte multilingüe del motor Kokoro-82M
Inglés (EE. UU./Reino Unido), español, francés, hindi, italiano, japonés, portugués de Brasil, chino y otros
Los subtítulos en otros idiomas podrían solicitarse en el futuro debido a limitaciones técnicas del motor

#Salida y uso

Se recomiendan reproductores multimedia avanzados como MPV, con soporte para subtítulos sincronizados
Compatible con ejecución de servidor basada en Docker

#Diferencias frente a proyectos similares

Abogen ofrece una comodidad de primer nivel con GUI independiente, personalización, gestión de carpetas por proyecto, automatización de capítulos y metadatos, procesamiento en cola y voces mezcladas
Tiene similitudes con audiblez, autiobooks, pdf-narrator, epub_to_audiobook y ebook2audiobook, pero se diferencia por la usabilidad de su GUI, su motor TTS avanzado y la sincronización de capítulos/subtítulos

#Hoja de ruta y contribuciones

Hay planes para agregar OCR (reconocimiento de documentos) y reforzar la GUI multilingüe
Cualquiera puede contribuir al proyecto de código abierto haciendo fork, agregando funciones o corrigiendo errores

#Créditos técnicos y licencia

Utiliza varias tecnologías open source asociadas, como TTS Kokoro-82M, GUI basada en PyQt e integración con EbookLib
Licencia MIT (uso comercial y modificación libres), y el motor (Kokoro) usa licencia Apache-2.0

#Precauciones y limitaciones

La función de sincronización de subtítulos actualmente solo está disponible en inglés (para otros idiomas se requiere desarrollo adicional del motor Kokoro)
Algunas funciones tienen limitaciones (por ejemplo, la vista previa de audio dentro de Docker)
Para una guía detallada de instalación y configuración del entorno, consulta la documentación oficial

1 comentarios

GN⁺ 2025-08-11

Opiniones en Hacker News

Me imagino un pipeline donde Calibre-Web sirve los libros, Abogen los convierte en versión de audio y Audiobookshelf los distribuye; también me parece una solución realmente buena para personas con discapacidad auditiva. Ver Calibre-Web y audiobookshelf
Usar esta herramienta para convertir un libro de texto en audiolibro para consumo personal está bien, pero que un autor la use para crear archivos para distribución es muy arriesgado. Los autores independientes ya tienen muchas dificultades para promocionar sus obras, y hoy en día los lectores potenciales pierden el interés en cuanto detectan cualquier rastro de IA. En mi caso, he empezado a contratar actores de voz que actúan bien pero cuya lengua materna no es el inglés, o que hablan otro idioma en casa. A veces incluso les pido que marquen un poco más el acento, porque eso ayuda a diferenciarlo de la IA y además le da más encanto al libro para quienes buscan una experiencia nueva. Una vez me sorprendió muchísimo, en audiciones, lo vívidamente que grababan audiolibros intérpretes de la región mediterránea
- Yo uso mucho la función WhisperSync de Amazon. Gracias a eso puedo leer un libro y escucharlo al mismo tiempo. Es muy práctico porque, mientras me desplazo, a veces puedo revisar visualmente el contenido o subrayarlo después. La desventaja es que no hay tantos libros que soporten esta función, y la lectura integrada de la app de Kindle no tiene muy buena calidad. Por eso, personalmente, me encantaría que a un gran libro escrito por una persona se le añadiera una función de voz con IA
- No estoy seguro de que eso de que los lectores potenciales se salten un libro apenas vean rastros de IA sea realmente tan general. Al leer texto, si el resultado es bueno, creo que a la mayoría no le importa mucho si lo leyó una IA o lo que sea. La gente no quiere libros escritos por IA, pero sí lleva bastante tiempo usando con comodidad voces de IA para escuchar artículos o libros. Eso es aparte de la actuación o la interpretación vocal
Me pregunto si esto solo convierte texto a voz o si realmente lo produce como un audiolibro de verdad. Los buenos audiolibros muchas veces tienen narradores que interpretan a cada personaje de manera distinta y expresan acentos y dialectos diferentes. Cosas así quizá se puedan hacer por unas cuantas frases con una herramienta como chatgpt, pero no es nada fácil sostenerlo a lo largo de un audiolibro completo de 8 a 20 horas. A este nivel, sigo pensando que todavía hay barreras básicas para convertir un epub en un audiolibro de primer nivel. Me pregunto si se me está escapando algo
- Elevenlabs tiene una función de generación estilo "full cast" que asigna voces distintas a diferentes personajes. Pero no es automáticamente sensible a los dialectos. Con los sistemas actuales sí parece posible cambiar el acento o la forma de hablar según el contexto o el prompt, pero no sé qué tan fiable sea eso
- Se pueden mezclar distintas voces de personajes usando el mezclador para dar sensaciones variadas. También es posible meter por código voces distintas para personajes diferentes
- La verdad, a mí no me gustan mucho las interpretaciones con varias voces de personajes. Que las citas se lean con el tono y la entonación adecuados según el contexto está bien, pero no me gusta que cada personaje tenga una voz distinta
Esta herramienta necesita pip al ejecutar la app de abogen, así que hay que correrla en un entorno donde se pueda usar pip. Se puede iniciar con el comando uv tool run abogen, pero se queda detenido en la etapa de instalación del modelo. Confirmé que sí funciona correctamente con uv venv && uv pip install pip && source .venv/bin/activate && abogen. La GUI empaquetada también está bien hecha, y la interfaz para elegir páginas o secciones de un archivo PDF está buena. En mi laptop con GTX 1650 va rápido. El resultado sale como audio .ogg y archivo de subtítulos .ass, y si lo cargas en mpv puedes escuchar y leer al mismo tiempo desde la terminal. Un punto mejorable es que se conservan los saltos de línea del PDF original, así que a veces las frases se cortan largo en medio de la oración y eso dificulta la comprensión. Si activas la opción de omitir saltos de línea simples, mejora claramente
- Yo convertí un libro de 110 páginas a wav en aproximadamente una hora con una RTX 4060. Si no activaba la opción de omitir saltos de línea, el resultado no era muy bueno. Con esa opción activada, de verdad es impresionante. La voz af_heart me gusta muchísimo y af_jessica me resulta algo molesta. Uno de los mayores problemas de los audiolibros es que el gusto o disgusto por el narrador importa tanto como el contenido del libro. Sentía que un día como este iba a llegar pronto, y realmente me deja asombrado. Ya estoy tan acostumbrado a los audiolibros que hasta me cuesta leer libros completos en formato tradicional. Es increíble poder convertir fácilmente unos 20 libros que nunca tendrían narración humana por falta de mercado, usando una voz que me gusta
Me encantan los audiolibros, pero soy muy exigente con la narración. He dejado audiolibros a medias porque el narrador no era para mí. Creo que aún falta bastante para que un servicio así me resulte realmente usable
- A mí me ha pasado que compré y escuché una serie completa gracias a un buen narrador. Por ejemplo, me pasó con Grim Noir Chronicles o con las obras de elenco completo de Soundbooth Theater. Si lo único que quieres es convertir texto en vibraciones, la tecnología TTS ya es suficiente, pero todavía no creo que la narración con IA pueda ofrecer la experiencia que da un narrador humano
- A mí también me ha pasado dejar audiolibros por culpa del narrador, pero justo por lo contrario: creo que una voz de IA neutral y decente podría ayudarme a terminar libros que antes me costó mucho escuchar. Incluso espero que una voz de IA limpia pueda ser mejor opción que una narración oficial con una voz incómoda
- También me pasó con una serie narrada por R. C. Bray que de repente cambió a otro actor de voz y se volvió mucho más difícil de escuchar, al punto de que dejé de seguirla por completo. En cambio, hay narradores como Wil Wheaton que yo busco a propósito. Al final, en un audiolibro, el narrador puede elevar la obra o arruinarla
- ¿Cuál es tu audiolibro favorito?
No parece que esto vaya a funcionar muy bien con libros que, además de texto, tengan código, diagramas, imágenes, etc. (lo cual es esperable). También me pregunto si existe una red neuronal open source que tome una página PDF y la convierta a una versión de "prosa pura" bien limpia; por ejemplo, que si hay una página con imagen y texto juntos, también exprese en texto el contenido o la descripción de la imagen
Para contenidos cortos como blogs o artículos probé Kokoro TTS, pero no cumplió mis expectativas. Ahora Gemini 2.5 Flash TTS rinde mucho mejor y además tiene un límite gratuito generoso (10 minutos por generación, 90 minutos por día). En textos cortos casi no se nota el problema de consistencia de la voz, pero en algo largo como un libro completo eso claramente sí se vuelve un problema
- Kokoro no está mal como TTS, pero le falta expresión emocional. Supongo que, considerando el tamaño del modelo, era de esperarse
Probé esta herramienta para convertir libros de filosofía en audiolibros y mejorar su accesibilidad, pero hubo un problema importante. Si la oración de entrada es demasiado larga para Kokoro, se salta o desdibuja palabras o frases hacia el final. Abogen corta el texto por oraciones antes de pasarlo, pero si una oración es larga entra así tal cual a Kokoro, y el audiolibro queda a un nivel inutilizable. Por eso estoy creando mi propia app GUI en tkinter para dividir el texto con más detalle usando nltk y expresiones regulares
- Estoy usando con bastante satisfacción el CLI de "kokoro-tts" porque tiene mejores funciones de segmentación/división kokoro-tts. Esta herramienta también genera archivos de audio y metadatos por cada capítulo. Luego puedes unir los archivos de audio y añadir la información de capítulos con m4b-tool m4b-tool. Tengo muchas ganas de escribir un post sobre este flujo de trabajo; es realmente útil
- Últimamente me molesta que la salida de los TTS basados en deep learning sea demasiado no determinista. Los enfoques clásicos al menos daban una pronunciación predecible, y en ese sentido hasta me parecen mejores
Personalmente espero que aparezca una solución que convierta bien un PDF en un ePub limpio
He usado Kokoro TTS junto con audiblez para CLI. Es un modelo pequeño, pero rápido, y la calidad de audio me impresionó. Aun así, tiene algunos detalles flojos: a) no distingue entre el punto final de una oración y el punto en abreviaturas como "Mr." o "Mrs.", así que mete pausas raras, b) no maneja bien los puntos suspensivos (...), c) la pronunciación de las palabras siempre es la misma aunque cambie el contexto
- Una opción es aprovechar etiquetas fonéticas SSML. Algunos TTS las soportan. También se puede preprocesar con un LLM potente para evitar este tipo de problemas
- Casos como el problema de Mr. / Mrs. parecen bastante fáciles de corregir. Al menos creo que se podría eliminar parte de esos casos comunes con relativa facilidad

Abogen - Crear audiolibros desde EPUB, PDF y texto

Resumen e importancia de Abogen

Resumen de características principales

Detalle de funciones de Abogen

#Inicio y contexto de instalación

#Uso principal

#Demostración real

#Opciones de configuración

#Voice Mixer

#Modo cola

#Marcadores de capítulo y metadatos

#Idiomas compatibles

#Salida y uso

#Diferencias frente a proyectos similares

#Hoja de ruta y contribuciones

#Créditos técnicos y licencia

#Precauciones y limitaciones

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News