- Integra funciones de clonación de voz, texto a voz, lectura de documentos y creación de audiolibros
- Implementa rendimiento nativo en macOS aprovechando la aceleración Metal basada en MLX (compatibilidad con Windows próximamente)
- Integra los motores Qwen3-TTS y Chatterbox, capaces de clonar voz con una muestra de 3 segundos
- Soporta clonación de voz multilingüe (23 idiomas, incluido coreano) y expresión emocional
- Incluye modelos recientes de síntesis de voz como Kokoro TTS, Supertonic-2 y CosyVoice3 ONNX
- Función de lector para lectura de documentos: admite lectura por oraciones de archivos PDF, DOCX, EPUB, Markdown y TXT
- Generador de audiolibros: convierte documentos completos a formatos WAV/MP3/M4B. Gestión de colas por capítulos, seguimiento de progreso y reutilización de presets de voz
- Funciona como Agentic Voice Cloning Server y soporta procesamiento en paralelo mediante orquestación avanzada de colas de trabajo
- Ofrece UI, API y CLI, lo que permite automatización local e integración externa; también incorpora un servidor MCP
- Cuenta con una biblioteca de voces compartida para reutilizar en todos los motores las voces subidas
- Administrador de modelos integrado: permite descargar modelos de HuggingFace y verificar su estado
- Soporta integración Multi-LLM (Claude, OpenAI, Ollama, etc.)
- Base de código de aproximadamente 18,600 líneas, compuesta por backend en FastAPI y UI de escritorio en Flutter
- Backend en Python de unas 8,500 líneas, UI en Dart de unas 10,100 líneas
- Ofrece binario exclusivo para macOS; Windows/Linux solo cuentan con compatibilidad a nivel de código (compilaciones previstas a futuro)
- Código fuente publicado bajo Business Source License 1.1 (BSL-1.1); los binarios se distribuyen bajo una licencia separada
2 comentarios
¿Es una versión con GUI de mlx-audio? La calidad definitivamente es buena.
Lo probé y está brutal, en serio.