3 puntos por GN⁺ 15 일 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • Google lanzó un nuevo modelo de texto a voz con una naturalidad y expresividad mejoradas frente a versiones anteriores, y que facilita la creación de aplicaciones de voz con IA para desarrolladores, empresas y usuarios en general
  • La nueva función de etiquetas de audio permite insertar comandos en lenguaje natural directamente en el texto para controlar con precisión el estilo de voz, la velocidad y la forma de entrega
  • Obtuvo una puntuación Elo de 1,211 en la tabla de clasificación TTS de Artificial Analysis, y fue evaluado como una combinación ideal de generación de voz de alta calidad y bajo costo
  • Es compatible con más de 70 idiomas e incorpora de forma nativa funciones de diálogo con múltiples hablantes
  • Todo el audio generado incluye una marca de agua SynthID, lo que permite una detección confiable del contenido generado por IA y ayuda a prevenir la desinformación

Lanzamiento y canales de disponibilidad

  • Gemini 3.1 Flash TTS es el modelo más reciente de texto a voz y ofrece más control, expresividad y calidad
  • Actualmente está disponible en vista previa a través de los siguientes canales:
    • Para desarrolladores: Gemini API y Google AI Studio
    • Para empresas: Vertex AI
    • Para usuarios de Workspace: Google Vids

Calidad de voz y control mejorados

  • La calidad general de la voz mejoró, convirtiéndolo hasta ahora en el modelo más natural y expresivo
  • Alcanzó una puntuación Elo de 1,211 en la tabla de clasificación TTS de Artificial Analysis, con base en miles de evaluaciones ciegas de preferencia humana
  • Artificial Analysis ubicó a Gemini 3.1 Flash TTS en el "most attractive quadrant" como una combinación ideal de generación de voz de alta calidad y bajo costo
  • Se diferencia por su diálogo nativo con múltiples hablantes, compatibilidad con más de 70 idiomas y control creativo detallado basado en lenguaje natural

Más expresividad con etiquetas de audio

  • La nueva función de etiquetas de audio permite controlar de forma intuitiva el estilo de voz, la velocidad y la forma de entrega
  • Se puede ajustar con precisión la salida de voz de IA insertando comandos en lenguaje natural directamente en el texto de entrada
  • Las empresas pueden usar etiquetas de audio dentro de Vertex AI para crear aplicaciones empresariales de próxima generación
  • En Google AI Studio, se ofrecen controles configurables que ponen a los desarrolladores en la "silla del director":
    • Scene direction: define el entorno y establece instrucciones específicas de diálogo para aportar un contexto de worldbuilding que permita que los personajes respondan de forma natural a lo largo de varios turnos
    • Speaker-level specificity: permite asignar personajes con un Audio Profile único, ajustar velocidad, tono y entonación con Director's Notes, y cambiar la expresión incluso a mitad de una oración mediante etiquetas en línea
    • Seamless export: permite exportar los parámetros completados como código de Gemini API, para mantener una voz coherente en distintos proyectos y plataformas
  • Con esta configuración, los desarrolladores pueden crear personajes memorables y experiencias de audio inmersivas

Soporte a escala global

  • Ofrece voz de alta fidelidad y control preciso en más de 70 idiomas
  • Permite crear experiencias de voz localizadas mediante controles avanzados de estilo, velocidad y entonación para mercados clave
  • Los desarrolladores y empresas que lo probaron en etapas iniciales valoraron muy positivamente el impresionante nivel de control y expresividad de 3.1 Flash TTS
    • Comentaron que las etiquetas de audio ofrecen un nuevo nivel de precisión creativa y convierten texto simple en interpretaciones vocales de alta fidelidad

Marca de agua SynthID

  • Todo el audio generado por Gemini 3.1 Flash TTS incluye una marca de agua SynthID
  • Esta marca de agua imperceptible se inserta directamente en la salida de audio y permite una detección confiable del contenido generado por IA
  • Funciona como medida de seguridad para prevenir la desinformación, y la model card ofrece información detallada sobre seguridad y responsabilidad

Aún no hay comentarios.

Aún no hay comentarios.