23 puntos por GN⁺ 2024-11-03 | 4 comentarios | Compartir por WhatsApp
  • El modelo de voz más capaz y conversacional puede hablar con cualquier voz o acento en más de 30 idiomas, con velocidad y precisión líderes en la industria
    • También se lanzaron más de 50 nuevas voces conversacionales de IA en varios idiomas
  • Al crear aplicaciones en tiempo real con TTS, la latencia, la confiabilidad, la calidad del audio y la naturalidad de la voz son fundamentales

Play 3.0 mini es el modelo de voz conversacional más rápido hasta la fecha

  • 3.0 mini logró una latencia promedio de 189 milisegundos para TTFB, convirtiéndose en el modelo de AI Text to Speech más rápido
  • Soporta streaming de entrada de texto desde LLM y streaming de salida de audio, y puede usarse mediante HTTP REST API, WebSocket API o SDK
  • 3.0 mini también es más eficiente que Play 2.0 y su velocidad de inferencia es 28% mayor

Play 3.0 mini soporta todas las voces en más de 30 idiomas

  • Play 3.0 mini ahora soporta de forma nativa más de 30 idiomas con múltiples opciones de voces masculinas y femeninas
  • Las voces en inglés, japonés, hindi, árabe, español, italiano, alemán, francés y portugués ya pueden usarse en casos de uso de producción y están disponibles en la API y el playground
  • También se pueden probar afrikáans, búlgaro, croata, checo, hebreo, húngaro, indonesio, malayo, mandarín, polaco, serbio, sueco, tagalo, tailandés, turco, ucraniano, urdu y xhosa

Play 3.0 mini es más preciso

  • El objetivo de Play 3.0 mini era crear el mejor modelo TTS para IA conversacional
  • Para lograrlo, el modelo debía superar a los modelos competidores en latencia y precisión mientras generaba voz con el tono más conversacional
  • Los LLM alucinan, y los LLM de voz no son distintos. Las alucinaciones en un LLM de voz pueden tomar la forma de palabras o números adicionales u omitidos en el audio de salida que no forman parte del texto de entrada

Play 3.0 mini lee de forma más natural combinaciones de letras y números

  • Entrenamos al modelo para que lea números e iniciales como lo haría una persona
  • El modelo ajusta la velocidad y reduce el ritmo en todos los caracteres alfabéticos y numéricos
  • Por ejemplo, los números telefónicos se leen a una velocidad más natural, y lo mismo sucede con todas las iniciales y abreviaturas
  • Esto hace que la experiencia conversacional general sea más natural

Play 3.0 mini logra la mejor similitud de voz para clonación de voz

  • Al clonar una voz, muchas veces no basta con que suene parecida
  • La clonación de voz de Play 3.0 logra un rendimiento de vanguardia al clonar voces, reproduciendo con precisión la entonación, el tono y el acento de la voz clonada
  • En benchmarking con modelos de embeddings open source populares, supera ampliamente a los modelos de la competencia en similitud con la voz original
  • Pruébalo tú mismo clonando tu voz y hablando contigo mismo en play.ai

Soporte para WebSocket API

  • La API de 3.0 mini ahora soporta WebSocket, lo que reduce considerablemente la sobrecarga de abrir y cerrar conexiones HTTP y facilita más el streaming de entrada de texto desde un LLM u otras fuentes

Play 3.0 mini es un modelo rentable

  • Nos complace anunciar una reducción de precios para los niveles startup y growth de mayor volumen, y ahora también presentamos un nuevo nivel Pro de 49 dólares al mes para empresas con necesidades más modestas
  • Consulta aquí la nueva tabla de precios
  • ¡Tenemos muchas ganas de ver qué construirás con nosotros! Si tienes requisitos personalizados de gran volumen, ponte en contacto con el equipo de ventas

Opinión de GN+

  • Es impresionante el esfuerzo de Play.ht por desarrollar el modelo de voz más confiable para IA conversacional. Al superar a la competencia en latencia y precisión, y al generar la voz conversacional más natural, este modelo parece encaminado a liderar la industria
  • El soporte para más de 30 idiomas y diversas opciones de voz es un paso importante para llegar a más usuarios y casos de uso. Esto ayudará a una adopción más amplia de la IA de voz
  • Sin embargo, al adoptar esta tecnología deben tenerse en cuenta consideraciones éticas. Por ejemplo, clonar la voz de una persona sin su consentimiento puede generar problemas de privacidad. Además, existe la posibilidad de que esta tecnología se use de forma indebida para difundir desinformación
  • Otros proyectos destacados de IA de voz con funciones similares incluyen Tacotron de Google y WaveNet de DeepMind. Estos modelos también se centran en el soporte multilingüe y en la generación de voz natural
  • En conclusión, Play 3.0 mini establece un nuevo estándar para la tecnología de voz en la IA conversacional. Los desarrolladores podrán aprovechar un TTS rápido, preciso y natural para una amplia variedad de aplicaciones en tiempo real. Sin embargo, deben implementarse sólidas medidas de seguridad y lineamientos éticos para evitar posibles usos indebidos de esta tecnología

4 comentarios

 
dane1 2024-11-04

Pero al entrar a Playground, ¿veo que otra vez está Korean?

 
dane1 2024-11-04

No puede ser, soporta tantos idiomas y no tiene coreano 😭

 
hmmhmmhm 2024-11-03

Qué lástima, parece que el coreano todavía no es compatible :(

 
GN⁺ 2024-11-03

Opiniones en Hacker News

  • Un modelo TTS de código abierto lanzado recientemente ofrece una excelente capacidad de clonación de voz. Puede ejecutarse en una GPU NVIDIA con 10 GB de VRAM.
  • La prueba en vivo no funcionó en Firefox, pero al cambiar a Chrome funcionó rápido. En 30 segundos pudo clonar su propia voz y conversar con ella. Es lo bastante sofisticado como para engañar a la mayoría de la gente.
  • Este modelo cuesta más que las API de TTS de Cartesia y OpenAI. En general, las API de TTS suelen operar con márgenes más altos que los LLM.
  • En idiomas distintos del inglés, la función de transcripción no resulta útil. Si transcribe con precisión, la traducción y la respuesta por voz son muy rápidas, pero si la transcripción es mala, no sirve de nada.
  • Durante el verano escribió clientes API para Go y Rust. En ese momento usaban Play en el trabajo, pero solo existían SDK para Python y Node.
  • Tener conversaciones de baja latencia con una voz parecida a la propia puede generar cierta incomodidad. Aun así, es una experiencia muy estimulante.
  • La voz clonada sonaba muy parecida, pero en una prueba a ciegas ninguna de las 5 personas la identificó como su verdadera voz. Se preguntan si existe algún sesgo al escuchar la propia voz.
  • El modelo de OpenAI no rinde bien al pronunciar números. Le sorprendió que en 2024 saliera un modelo TTS que no pudiera pronunciar correctamente los números. Cree que cualquier modelo TTS nuevo debería validarse al menos hasta 100,000.