Gemini 3.1 Flash TTS - modelo de voz con IA de próxima generación que controla el estilo de voz con

Google lanzó un nuevo modelo de texto a voz con una naturalidad y expresividad mejoradas frente a versiones anteriores, y que facilita la creación de aplicaciones de voz con IA para desarrolladores, empresas y usuarios en general
La nueva función de etiquetas de audio permite insertar comandos en lenguaje natural directamente en el texto para controlar con precisión el estilo de voz, la velocidad y la forma de entrega
Obtuvo una puntuación Elo de 1,211 en la tabla de clasificación TTS de Artificial Analysis, y fue evaluado como una combinación ideal de generación de voz de alta calidad y bajo costo
Es compatible con más de 70 idiomas e incorpora de forma nativa funciones de diálogo con múltiples hablantes
Todo el audio generado incluye una marca de agua SynthID, lo que permite una detección confiable del contenido generado por IA y ayuda a prevenir la desinformación

Lanzamiento y canales de disponibilidad

Gemini 3.1 Flash TTS es el modelo más reciente de texto a voz y ofrece más control, expresividad y calidad
Actualmente está disponible en vista previa a través de los siguientes canales:
- Para desarrolladores: Gemini API y Google AI Studio
- Para empresas: Vertex AI
- Para usuarios de Workspace: Google Vids

La calidad general de la voz mejoró, convirtiéndolo hasta ahora en el modelo más natural y expresivo
Alcanzó una puntuación Elo de 1,211 en la tabla de clasificación TTS de Artificial Analysis, con base en miles de evaluaciones ciegas de preferencia humana
Artificial Analysis ubicó a Gemini 3.1 Flash TTS en el "most attractive quadrant" como una combinación ideal de generación de voz de alta calidad y bajo costo
Se diferencia por su diálogo nativo con múltiples hablantes, compatibilidad con más de 70 idiomas y control creativo detallado basado en lenguaje natural

La nueva función de etiquetas de audio permite controlar de forma intuitiva el estilo de voz, la velocidad y la forma de entrega
Se puede ajustar con precisión la salida de voz de IA insertando comandos en lenguaje natural directamente en el texto de entrada
Las empresas pueden usar etiquetas de audio dentro de Vertex AI para crear aplicaciones empresariales de próxima generación
En Google AI Studio, se ofrecen controles configurables que ponen a los desarrolladores en la "silla del director":
- Scene direction: define el entorno y establece instrucciones específicas de diálogo para aportar un contexto de worldbuilding que permita que los personajes respondan de forma natural a lo largo de varios turnos
- Speaker-level specificity: permite asignar personajes con un Audio Profile único, ajustar velocidad, tono y entonación con Director's Notes, y cambiar la expresión incluso a mitad de una oración mediante etiquetas en línea
- Seamless export: permite exportar los parámetros completados como código de Gemini API, para mantener una voz coherente en distintos proyectos y plataformas
Con esta configuración, los desarrolladores pueden crear personajes memorables y experiencias de audio inmersivas

Ofrece voz de alta fidelidad y control preciso en más de 70 idiomas
Permite crear experiencias de voz localizadas mediante controles avanzados de estilo, velocidad y entonación para mercados clave
Los desarrolladores y empresas que lo probaron en etapas iniciales valoraron muy positivamente el impresionante nivel de control y expresividad de 3.1 Flash TTS
- Comentaron que las etiquetas de audio ofrecen un nuevo nivel de precisión creativa y convierten texto simple en interpretaciones vocales de alta fidelidad

Todo el audio generado por Gemini 3.1 Flash TTS incluye una marca de agua SynthID
Esta marca de agua imperceptible se inserta directamente en la salida de audio y permite una detección confiable del contenido generado por IA
Funciona como medida de seguridad para prevenir la desinformación, y la model card ofrece información detallada sobre seguridad y responsabilidad