Presentan Play 3.0 Mini: modelo multilingüe de Text-To-Speech ligero y rentable

El modelo de voz más capaz y conversacional puede hablar con cualquier voz o acento en más de 30 idiomas, con velocidad y precisión líderes en la industria
- También se lanzaron más de 50 nuevas voces conversacionales de IA en varios idiomas
Al crear aplicaciones en tiempo real con TTS, la latencia, la confiabilidad, la calidad del audio y la naturalidad de la voz son fundamentales

Play 3.0 mini es el modelo de voz conversacional más rápido hasta la fecha

3.0 mini logró una latencia promedio de 189 milisegundos para TTFB, convirtiéndose en el modelo de AI Text to Speech más rápido
Soporta streaming de entrada de texto desde LLM y streaming de salida de audio, y puede usarse mediante HTTP REST API, WebSocket API o SDK
3.0 mini también es más eficiente que Play 2.0 y su velocidad de inferencia es 28% mayor

Play 3.0 mini ahora soporta de forma nativa más de 30 idiomas con múltiples opciones de voces masculinas y femeninas
Las voces en inglés, japonés, hindi, árabe, español, italiano, alemán, francés y portugués ya pueden usarse en casos de uso de producción y están disponibles en la API y el playground
También se pueden probar afrikáans, búlgaro, croata, checo, hebreo, húngaro, indonesio, malayo, mandarín, polaco, serbio, sueco, tagalo, tailandés, turco, ucraniano, urdu y xhosa

El objetivo de Play 3.0 mini era crear el mejor modelo TTS para IA conversacional
Para lograrlo, el modelo debía superar a los modelos competidores en latencia y precisión mientras generaba voz con el tono más conversacional
Los LLM alucinan, y los LLM de voz no son distintos. Las alucinaciones en un LLM de voz pueden tomar la forma de palabras o números adicionales u omitidos en el audio de salida que no forman parte del texto de entrada

Entrenamos al modelo para que lea números e iniciales como lo haría una persona
El modelo ajusta la velocidad y reduce el ritmo en todos los caracteres alfabéticos y numéricos
Por ejemplo, los números telefónicos se leen a una velocidad más natural, y lo mismo sucede con todas las iniciales y abreviaturas
Esto hace que la experiencia conversacional general sea más natural

Al clonar una voz, muchas veces no basta con que suene parecida
La clonación de voz de Play 3.0 logra un rendimiento de vanguardia al clonar voces, reproduciendo con precisión la entonación, el tono y el acento de la voz clonada
En benchmarking con modelos de embeddings open source populares, supera ampliamente a los modelos de la competencia en similitud con la voz original
Pruébalo tú mismo clonando tu voz y hablando contigo mismo en play.ai

La API de 3.0 mini ahora soporta WebSocket, lo que reduce considerablemente la sobrecarga de abrir y cerrar conexiones HTTP y facilita más el streaming de entrada de texto desde un LLM u otras fuentes

Nos complace anunciar una reducción de precios para los niveles startup y growth de mayor volumen, y ahora también presentamos un nuevo nivel Pro de 49 dólares al mes para empresas con necesidades más modestas
Consulta aquí la nueva tabla de precios
¡Tenemos muchas ganas de ver qué construirás con nosotros! Si tienes requisitos personalizados de gran volumen, ponte en contacto con el equipo de ventas

Es impresionante el esfuerzo de Play.ht por desarrollar el modelo de voz más confiable para IA conversacional. Al superar a la competencia en latencia y precisión, y al generar la voz conversacional más natural, este modelo parece encaminado a liderar la industria
El soporte para más de 30 idiomas y diversas opciones de voz es un paso importante para llegar a más usuarios y casos de uso. Esto ayudará a una adopción más amplia de la IA de voz
Sin embargo, al adoptar esta tecnología deben tenerse en cuenta consideraciones éticas. Por ejemplo, clonar la voz de una persona sin su consentimiento puede generar problemas de privacidad. Además, existe la posibilidad de que esta tecnología se use de forma indebida para difundir desinformación
Otros proyectos destacados de IA de voz con funciones similares incluyen Tacotron de Google y WaveNet de DeepMind. Estos modelos también se centran en el soporte multilingüe y en la generación de voz natural
En conclusión, Play 3.0 mini establece un nuevo estándar para la tecnología de voz en la IA conversacional. Los desarrolladores podrán aprovechar un TTS rápido, preciso y natural para una amplia variedad de aplicaciones en tiempo real. Sin embargo, deben implementarse sólidas medidas de seguridad y lineamientos éticos para evitar posibles usos indebidos de esta tecnología