Gemini 3.1 Flash TTS - modelo de voz con IA de próxima generación que controla el estilo de voz con lenguaje natural
(blog.google)- Google lanzó un nuevo modelo de texto a voz con una naturalidad y expresividad mejoradas frente a versiones anteriores, y que facilita la creación de aplicaciones de voz con IA para desarrolladores, empresas y usuarios en general
- La nueva función de etiquetas de audio permite insertar comandos en lenguaje natural directamente en el texto para controlar con precisión el estilo de voz, la velocidad y la forma de entrega
- Obtuvo una puntuación Elo de 1,211 en la tabla de clasificación TTS de Artificial Analysis, y fue evaluado como una combinación ideal de generación de voz de alta calidad y bajo costo
- Es compatible con más de 70 idiomas e incorpora de forma nativa funciones de diálogo con múltiples hablantes
- Todo el audio generado incluye una marca de agua SynthID, lo que permite una detección confiable del contenido generado por IA y ayuda a prevenir la desinformación
Lanzamiento y canales de disponibilidad
- Gemini 3.1 Flash TTS es el modelo más reciente de texto a voz y ofrece más control, expresividad y calidad
- Actualmente está disponible en vista previa a través de los siguientes canales:
- Para desarrolladores: Gemini API y Google AI Studio
- Para empresas: Vertex AI
- Para usuarios de Workspace: Google Vids
Calidad de voz y control mejorados
- La calidad general de la voz mejoró, convirtiéndolo hasta ahora en el modelo más natural y expresivo
- Alcanzó una puntuación Elo de 1,211 en la tabla de clasificación TTS de Artificial Analysis, con base en miles de evaluaciones ciegas de preferencia humana
- Artificial Analysis ubicó a Gemini 3.1 Flash TTS en el "most attractive quadrant" como una combinación ideal de generación de voz de alta calidad y bajo costo
- Se diferencia por su diálogo nativo con múltiples hablantes, compatibilidad con más de 70 idiomas y control creativo detallado basado en lenguaje natural
Más expresividad con etiquetas de audio
- La nueva función de etiquetas de audio permite controlar de forma intuitiva el estilo de voz, la velocidad y la forma de entrega
- Se puede ajustar con precisión la salida de voz de IA insertando comandos en lenguaje natural directamente en el texto de entrada
- Las empresas pueden usar etiquetas de audio dentro de Vertex AI para crear aplicaciones empresariales de próxima generación
- En Google AI Studio, se ofrecen controles configurables que ponen a los desarrolladores en la "silla del director":
- Scene direction: define el entorno y establece instrucciones específicas de diálogo para aportar un contexto de worldbuilding que permita que los personajes respondan de forma natural a lo largo de varios turnos
- Speaker-level specificity: permite asignar personajes con un Audio Profile único, ajustar velocidad, tono y entonación con Director's Notes, y cambiar la expresión incluso a mitad de una oración mediante etiquetas en línea
- Seamless export: permite exportar los parámetros completados como código de Gemini API, para mantener una voz coherente en distintos proyectos y plataformas
- Con esta configuración, los desarrolladores pueden crear personajes memorables y experiencias de audio inmersivas
Soporte a escala global
- Ofrece voz de alta fidelidad y control preciso en más de 70 idiomas
- Permite crear experiencias de voz localizadas mediante controles avanzados de estilo, velocidad y entonación para mercados clave
- Los desarrolladores y empresas que lo probaron en etapas iniciales valoraron muy positivamente el impresionante nivel de control y expresividad de 3.1 Flash TTS
- Comentaron que las etiquetas de audio ofrecen un nuevo nivel de precisión creativa y convierten texto simple en interpretaciones vocales de alta fidelidad
Marca de agua SynthID
- Todo el audio generado por Gemini 3.1 Flash TTS incluye una marca de agua SynthID
- Esta marca de agua imperceptible se inserta directamente en la salida de audio y permite una detección confiable del contenido generado por IA
- Funciona como medida de seguridad para prevenir la desinformación, y la model card ofrece información detallada sobre seguridad y responsabilidad
Aún no hay comentarios.