- Abogen es una herramienta de código abierto que convierte fácilmente archivos ePub, PDF y texto en audiolibros de alta calidad
- Durante el proceso de conversión también se generan automáticamente subtítulos sincronizados (subtitles) con la voz
- Ofrece diversas funciones como mezcla de voces personalizadas, formatos de codificación, división por capítulos y procesamiento por lotes (modo cola)
- Usa el más reciente motor de síntesis de voz Kokoro-82M, que ofrece una calidad TTS natural y soporte multilingüe
- Frente a otros proyectos, destaca por su GUI intuitiva, la gestión de carpetas por proyecto y el procesamiento automático de metadatos
Resumen e importancia de Abogen
- Abogen es una herramienta de conversión de texto a voz (TTS) de código abierto que transforma rápidamente archivos de texto (ePub, PDF, .txt, etc.) en audiolibros naturales
- Ofrece una amplia variedad de funciones, como interfaz intuitiva, procesamiento por lotes de múltiples archivos, mezcla de voces personalizada, varios formatos de salida, gestión de capítulos y soporte de metadatos
- A diferencia de otros proyectos de código abierto, permite obtener con operación sencilla audio de alta calidad (especialmente TTS basado en Kokoro-82M) y subtítulos fácilmente
- El proceso inicial de instalación y la compleja configuración del entorno de Python están automatizados, por lo que incluso desarrolladores principiantes pueden usarlo con facilidad
- En particular, sus funciones de procesamiento de capítulos y metadatos por proyecto, entorno GUI y voces personalizadas se consideran una ventaja competitiva dentro del sector
Resumen de características principales
- Conversión de texto a voz (TTS) para transformar archivos ePub, PDF y texto en audio en cuestión de segundos
- Generación automática de subtítulos sincronizados, con soporte para audio y subtítulos perfectamente alineados
- Uso de un mezclador de voces para combinar varios modelos de voz y crear tu propio perfil de voz
- Función de modo cola para procesar varios archivos por lotes y mantener configuraciones individuales por archivo
- Generación automática de marcadores de capítulo y metadatos, además de gestión de carpetas de proyecto
- Varios formatos de salida: compatible con WAV, FLAC, MP3, OPUS, M4B, y subtítulos en SRT/ASS, entre otros
- Idiomas principales compatibles: inglés de EE. UU./Reino Unido, español, francés, hindi, italiano, japonés, portugués, chino y otros
- Efecto de pronunciación natural y de alta calidad basado en el motor TTS Kokoro-82M
- Compatible tanto con GUI como con línea de comandos, y también puede usarse con contenedores Docker
Detalle de funciones de Abogen
#Inicio y contexto de instalación
- Las herramientas TTS existentes suelen tener muchas limitaciones en instalación, configuración del entorno, calidad, personalización y procesamiento de múltiples archivos
- Abogen fue creado para que incluso principiantes puedan acceder fácilmente a funciones avanzadas como conversión de texto a audio, generación de subtítulos y mezcla de voces mediante una interfaz sencilla pero potente
- Puede usarse en varios sistemas operativos (Windows, Linux, macOS) y permite configurar automáticamente un entorno integrado o de instalación sin necesidad de tener Python preinstalado
#Uso principal
- Puedes arrastrar y soltar archivos ePub, PDF o de texto, o usar el editor integrado
- Configuración: permite elegir en detalle velocidad de lectura, voz (modelo, género, idioma), estilo de subtítulos (por oración o por palabra), formatos de salida de audio y subtítulos, ruta de salida, etc.
- Basta con hacer clic en el botón para iniciar la conversión y generar el resultado de inmediato
#Demostración real
- Incluso en una GPU de gama baja, puede generar en 11 segundos un audio de 3 minutos 28 segundos a partir de un texto de unas 3,000 letras/caracteres
- La velocidad de procesamiento varía según las especificaciones del hardware
#Opciones de configuración
- Método de entrada: arrastrar y soltar, editor integrado y gestión de cola para procesar varios archivos a la vez
- Velocidad de lectura: ajuste fino de 0.1x a 2.0x
- Selección de voz y vista previa: modelos por idioma y género, además de un mezclador personalizado para definir tu propio perfil de voz
- Generación de subtítulos: automatización por oración, por coma o por bloques de n palabras
- Salida de audio: WAV, FLAC, MP3, OPUS, M4B (con capítulos)
- Formato de subtítulos: soporte personalizable para SRT, ASS, etc.
- Gestión de capítulos y proyectos: guarda en carpetas de proyecto con audio por capítulo, versión combinada y metadatos incluidos
- Varias opciones de UI, como temas, logs y atajos
#Voice Mixer
- Permite combinar varios modelos de voz mediante ajuste de pesos, para crear, guardar y reutilizar una voz única
- El resultado de la mezcla de voces puede preescucharse y aplicarse como perfil de voz
#Modo cola
- Mantiene configuraciones individuales por archivo y permite la conversión automática de varios textos y eBooks al mismo tiempo
- Cada archivo guarda por separado la configuración que tenía al momento de agregarse a la cola, independientemente de cambios en la configuración principal
#Marcadores de capítulo y metadatos
- Inserta automáticamente etiquetas de división por capítulos
- También es posible insertar etiquetas `` manualmente
- Si ocurre un error, resulta útil para reprocesar rápidamente solo ese capítulo
- Con etiquetas de metadatos se puede agregar información como título, autor y año para mostrarla en apps de audiolibros
- Se pueden añadir al inicio del archivo de texto
#Idiomas compatibles
- Soporte multilingüe del motor Kokoro-82M
- Inglés (EE. UU./Reino Unido), español, francés, hindi, italiano, japonés, portugués de Brasil, chino y otros
- Los subtítulos en otros idiomas podrían solicitarse en el futuro debido a limitaciones técnicas del motor
#Salida y uso
- Se recomiendan reproductores multimedia avanzados como MPV, con soporte para subtítulos sincronizados
- Compatible con ejecución de servidor basada en Docker
#Diferencias frente a proyectos similares
- Abogen ofrece una comodidad de primer nivel con GUI independiente, personalización, gestión de carpetas por proyecto, automatización de capítulos y metadatos, procesamiento en cola y voces mezcladas
- Tiene similitudes con audiblez, autiobooks, pdf-narrator, epub_to_audiobook y ebook2audiobook, pero se diferencia por la usabilidad de su GUI, su motor TTS avanzado y la sincronización de capítulos/subtítulos
#Hoja de ruta y contribuciones
- Hay planes para agregar OCR (reconocimiento de documentos) y reforzar la GUI multilingüe
- Cualquiera puede contribuir al proyecto de código abierto haciendo fork, agregando funciones o corrigiendo errores
#Créditos técnicos y licencia
- Utiliza varias tecnologías open source asociadas, como TTS Kokoro-82M, GUI basada en PyQt e integración con EbookLib
- Licencia MIT (uso comercial y modificación libres), y el motor (Kokoro) usa licencia Apache-2.0
#Precauciones y limitaciones
- La función de sincronización de subtítulos actualmente solo está disponible en inglés (para otros idiomas se requiere desarrollo adicional del motor Kokoro)
- Algunas funciones tienen limitaciones (por ejemplo, la vista previa de audio dentro de Docker)
- Para una guía detallada de instalación y configuración del entorno, consulta la documentación oficial
Aún no hay comentarios.