- Kitten TTS es un modelo TTS (texto a voz) de código abierto que busca combinar ligereza y alta calidad de audio
- Usa solo 15 millones de parámetros, por lo que el tamaño del modelo es menor a 25 MB
- A diferencia de otros TTS grandes, su gran característica es que puede ejecutarse en cualquier entorno, como móviles y sistemas embebidos
- Incluso sin GPU, puede realizar síntesis de voz de alta calidad en todo tipo de dispositivos
- Ofrece varias opciones de voces premium, con soporte para síntesis de voz de alta calidad muy similar a la voz real
- Permite inferencia de voz a gran velocidad, por lo que está optimizado para síntesis en tiempo real
- El modelo en vista previa para desarrolladores ya fue publicado, y más adelante se planea liberar de forma gradual los pesos completos del modelo ya entrenado, un SDK móvil, una versión web y más
Aún no hay comentarios.