- El modelo de voz más capaz y conversacional puede hablar con cualquier voz o acento en más de 30 idiomas, con velocidad y precisión líderes en la industria
- También se lanzaron más de 50 nuevas voces conversacionales de IA en varios idiomas
- Al crear aplicaciones en tiempo real con TTS, la latencia, la confiabilidad, la calidad del audio y la naturalidad de la voz son fundamentales
Play 3.0 mini es el modelo de voz conversacional más rápido hasta la fecha
- 3.0 mini logró una latencia promedio de 189 milisegundos para TTFB, convirtiéndose en el modelo de AI Text to Speech más rápido
- Soporta streaming de entrada de texto desde LLM y streaming de salida de audio, y puede usarse mediante HTTP REST API, WebSocket API o SDK
- 3.0 mini también es más eficiente que Play 2.0 y su velocidad de inferencia es 28% mayor
Play 3.0 mini soporta todas las voces en más de 30 idiomas
- Play 3.0 mini ahora soporta de forma nativa más de 30 idiomas con múltiples opciones de voces masculinas y femeninas
- Las voces en inglés, japonés, hindi, árabe, español, italiano, alemán, francés y portugués ya pueden usarse en casos de uso de producción y están disponibles en la API y el playground
- También se pueden probar afrikáans, búlgaro, croata, checo, hebreo, húngaro, indonesio, malayo, mandarín, polaco, serbio, sueco, tagalo, tailandés, turco, ucraniano, urdu y xhosa
Play 3.0 mini es más preciso
- El objetivo de Play 3.0 mini era crear el mejor modelo TTS para IA conversacional
- Para lograrlo, el modelo debía superar a los modelos competidores en latencia y precisión mientras generaba voz con el tono más conversacional
- Los LLM alucinan, y los LLM de voz no son distintos. Las alucinaciones en un LLM de voz pueden tomar la forma de palabras o números adicionales u omitidos en el audio de salida que no forman parte del texto de entrada
Play 3.0 mini lee de forma más natural combinaciones de letras y números
- Entrenamos al modelo para que lea números e iniciales como lo haría una persona
- El modelo ajusta la velocidad y reduce el ritmo en todos los caracteres alfabéticos y numéricos
- Por ejemplo, los números telefónicos se leen a una velocidad más natural, y lo mismo sucede con todas las iniciales y abreviaturas
- Esto hace que la experiencia conversacional general sea más natural
Play 3.0 mini logra la mejor similitud de voz para clonación de voz
- Al clonar una voz, muchas veces no basta con que suene parecida
- La clonación de voz de Play 3.0 logra un rendimiento de vanguardia al clonar voces, reproduciendo con precisión la entonación, el tono y el acento de la voz clonada
- En benchmarking con modelos de embeddings open source populares, supera ampliamente a los modelos de la competencia en similitud con la voz original
- Pruébalo tú mismo clonando tu voz y hablando contigo mismo en play.ai
Soporte para WebSocket API
- La API de 3.0 mini ahora soporta WebSocket, lo que reduce considerablemente la sobrecarga de abrir y cerrar conexiones HTTP y facilita más el streaming de entrada de texto desde un LLM u otras fuentes
Play 3.0 mini es un modelo rentable
- Nos complace anunciar una reducción de precios para los niveles startup y growth de mayor volumen, y ahora también presentamos un nuevo nivel Pro de 49 dólares al mes para empresas con necesidades más modestas
- Consulta aquí la nueva tabla de precios
- ¡Tenemos muchas ganas de ver qué construirás con nosotros! Si tienes requisitos personalizados de gran volumen, ponte en contacto con el equipo de ventas
Opinión de GN+
- Es impresionante el esfuerzo de Play.ht por desarrollar el modelo de voz más confiable para IA conversacional. Al superar a la competencia en latencia y precisión, y al generar la voz conversacional más natural, este modelo parece encaminado a liderar la industria
- El soporte para más de 30 idiomas y diversas opciones de voz es un paso importante para llegar a más usuarios y casos de uso. Esto ayudará a una adopción más amplia de la IA de voz
- Sin embargo, al adoptar esta tecnología deben tenerse en cuenta consideraciones éticas. Por ejemplo, clonar la voz de una persona sin su consentimiento puede generar problemas de privacidad. Además, existe la posibilidad de que esta tecnología se use de forma indebida para difundir desinformación
- Otros proyectos destacados de IA de voz con funciones similares incluyen Tacotron de Google y WaveNet de DeepMind. Estos modelos también se centran en el soporte multilingüe y en la generación de voz natural
- En conclusión, Play 3.0 mini establece un nuevo estándar para la tecnología de voz en la IA conversacional. Los desarrolladores podrán aprovechar un TTS rápido, preciso y natural para una amplia variedad de aplicaciones en tiempo real. Sin embargo, deben implementarse sólidas medidas de seguridad y lineamientos éticos para evitar posibles usos indebidos de esta tecnología
4 comentarios
Pero al entrar a Playground, ¿veo que otra vez está Korean?
No puede ser, soporta tantos idiomas y no tiene coreano 😭
Qué lástima, parece que el coreano todavía no es compatible :(
Opiniones en Hacker News