MimikaStudio - clonación de voz y TTS de código abierto para Mac

xguru · 2026-03-19T09:31:02+09:00

Integra funciones de clonación de voz, texto a voz, lectura de documentos y creación de audiolibros Implementa rendimiento nativo en macOS aprovechando la aceleración Metal basada en MLX (compatibilidad con Windows próximamente) Integra los motores Qwen3-TTS y Chatterbox, capaces de clonar voz con una muestra de 3 segundos Soporta clonación de voz multilingüe (23 idiomas, incluido coreano) y expresión emocional Incluye modelos recientes de síntesis de voz como Kokoro TTS, Supertonic-2 y CosyVoice3 ONNX Función de lector para lectura de documentos: admite lectura por oraciones de archivos PDF, DOCX, EPUB, Markdown y TXT Generador de audiolibros: convierte documentos completos a formatos WAV/MP3/M4B. Gestión de colas por capítulos, seguimiento de progreso y reutilización de presets de voz Funciona como Agentic Voice Cloning Server y soporta procesamiento en paralelo mediante orquestación avanzada de colas de trabajo Ofrece UI, API y CLI, lo que permite automatización local e integración externa; también incorpora un servidor MCP Cuenta con una biblioteca de voces compartida para reutilizar en todos los motores las voces subidas Administrador de modelos integrado: permite descargar modelos de HuggingFace y verificar su estado Soporta integración Multi-LLM (Claude, OpenAI, Ollama, etc.) Base de código de aproximadamente 18,600 líneas, compuesta por backend en FastAPI y UI de escritorio en Flutter Backend en Python de unas 8,500 líneas, UI en Dart de unas 10,100 líneas Ofrece binario exclusivo para macOS; Windows/Linux solo cuentan con compatibilidad a nivel de código (compilaciones previstas a futuro) Código fuente publicado bajo Business Source License 1.1 (BSL-1.1); los binarios se distribuyen bajo una licencia separada

Integra funciones de clonación de voz, texto a voz, lectura de documentos y creación de audiolibros
Implementa rendimiento nativo en macOS aprovechando la aceleración Metal basada en MLX (compatibilidad con Windows próximamente)
Integra los motores Qwen3-TTS y Chatterbox, capaces de clonar voz con una muestra de 3 segundos
- Soporta clonación de voz multilingüe (23 idiomas, incluido coreano) y expresión emocional
Incluye modelos recientes de síntesis de voz como Kokoro TTS, Supertonic-2 y CosyVoice3 ONNX
Función de lector para lectura de documentos: admite lectura por oraciones de archivos PDF, DOCX, EPUB, Markdown y TXT
Generador de audiolibros: convierte documentos completos a formatos WAV/MP3/M4B. Gestión de colas por capítulos, seguimiento de progreso y reutilización de presets de voz
Funciona como Agentic Voice Cloning Server y soporta procesamiento en paralelo mediante orquestación avanzada de colas de trabajo
Ofrece UI, API y CLI, lo que permite automatización local e integración externa; también incorpora un servidor MCP
Cuenta con una biblioteca de voces compartida para reutilizar en todos los motores las voces subidas
Administrador de modelos integrado: permite descargar modelos de HuggingFace y verificar su estado
Soporta integración Multi-LLM (Claude, OpenAI, Ollama, etc.)
Base de código de aproximadamente 18,600 líneas, compuesta por backend en FastAPI y UI de escritorio en Flutter
- Backend en Python de unas 8,500 líneas, UI en Dart de unas 10,100 líneas
Ofrece binario exclusivo para macOS; Windows/Linux solo cuentan con compatibilidad a nivel de código (compilaciones previstas a futuro)
Código fuente publicado bajo Business Source License 1.1 (BSL-1.1); los binarios se distribuyen bajo una licencia separada

MimikaStudio - clonación de voz y TTS de código abierto para Mac

Lecturas relacionadas

2 comentarios