- Se lanzan 3 nuevos modelos de audio con razonamiento, traducción y transcripción para la API de voz en tiempo real, lo que permite a los desarrolladores crear aplicaciones de voz más naturales e inteligentes
- GPT-Realtime-2 es el primer modelo de voz con capacidad de razonamiento de nivel GPT-5, capaz de mantener conversaciones de forma natural mientras hace llamadas a herramientas y maneja interrupciones
- GPT-Realtime-Translate es un modelo de traducción en vivo que traduce en tiempo real más de 70 idiomas de entrada a 13 idiomas de salida
- GPT-Realtime-Whisper es un modelo de transcripción de voz en streaming que convierte el habla en texto al mismo tiempo que se pronuncia, útil para subtítulos, minutas de reuniones y atención al cliente
- Un punto de inflexión en el que la voz evoluciona de una simple interfaz de llamada-respuesta a una que realiza al mismo tiempo razonamiento, traducción, transcripción y ejecución de herramientas
Resumen de los 3 nuevos modelos de audio en tiempo real
- Se incorporan 3 modelos a la API para que los desarrolladores puedan crear experiencias de voz más naturales, que respondan de forma inteligente y realicen acciones en tiempo real
- GPT-Realtime-2: el primer modelo de voz con razonamiento de nivel GPT-5, capaz de manejar solicitudes difíciles y conducir la conversación de manera natural
- GPT-Realtime-Translate: realiza traducción de voz en tiempo real desde más de 70 idiomas de entrada hacia 13 idiomas de salida, siguiendo el ritmo del hablante
- GPT-Realtime-Whisper: ofrece transcripción de voz a texto en streaming en vivo mientras la persona habla
La tendencia de la voz como interfaz de software
- La voz está surgiendo como una de las formas más naturales de usar software, ya sea para pedir ayuda mientras se maneja, cambiar planes de viaje en un aeropuerto, recibir soporte en el idioma preferido o avanzar en tareas sin teclear
- Los productos de voz útiles requieren más que turnos rápidos o voces naturales: necesitan comprender significado, seguir el contexto, recuperarse cuando cambia la solicitud, usar herramientas durante la conversación y responder con el tono adecuado
- Los modelos lanzados ahora transforman el audio en tiempo real de una simple interacción de llamada-respuesta en una interfaz de voz que escucha, razona, traduce, transcribe y actúa
3 patrones emergentes de IA de voz
- Voice-to-Action: el usuario expresa lo que necesita y el sistema razona y usa herramientas para completar la tarea
- Caso de Zillow: están construyendo un asistente que escucha, razona y ejecuta solicitudes como: "Encuentra una casa dentro de mi rango de BuyAbility, evita carreteras muy transitadas y agenda un tour para el sábado"
- Systems-to-Voice: el software convierte el contexto en guía de voz en tiempo real
- Caso de una app de viajes: ofrece guía de voz proactiva con mensajes como: "Tu vuelo de llegada se retrasó, pero aún puedes hacer la conexión. Encontramos tu nueva puerta y te guiaremos por la ruta más corta dentro de la terminal; tu equipaje seguirá su curso con normalidad"
- Voice-to-Voice: la IA mantiene conversaciones en tiempo real a través de idiomas, tareas y contextos cambiantes
- Caso de Deutsche Telekom: están construyendo una experiencia de soporte por voz en la que el modelo traduce en tiempo real mientras el cliente habla en el idioma que le resulte más cómodo
- Estos patrones también pueden combinarse, y Priceline está impulsando un futuro en el que toda la experiencia de viaje se gestione por voz: búsqueda de vuelos y hoteles, cambios de reserva, actualizaciones del tiempo de espera de la TSA e incluso traducción de conversaciones locales
GPT-Realtime-2: modelo de voz en tiempo real para razonar y actuar
- Está optimizado para la interacción de voz en tiempo real, de modo que puede razonar mientras hace llamadas a herramientas, maneja correcciones e interrupciones y responde según la situación
- Preambles: frases cortas como "Déjame revisarlo" o "Un momento" para indicar al usuario que el agente está procesando la solicitud
- Llamadas paralelas a herramientas y transparencia en el uso de herramientas: puede llamar varias herramientas al mismo tiempo mientras mantiene la capacidad de respuesta con frases como "Estoy revisando tu calendario" o "Estoy buscando eso ahora"
- Comportamiento de recuperación mejorado: en lugar de fallar en silencio o cortar la conversación con expresiones como "No puedo procesarlo ahora", se recupera de forma natural
- Ventana de contexto ampliada: pasa de 32K a 128K para soportar sesiones más largas y flujos de trabajo más complejos
- Comprensión de dominio mejorada: conserva mejor vocabulario importante en producción, como términos especializados, nombres propios y terminología médica
- Tono y entrega controlables: permite ajustar el tono, por ejemplo, manteniéndose calmado al resolver problemas, mostrando empatía cuando el usuario está molesto o sonando más animado al confirmar un resultado exitoso
- Esfuerzo de razonamiento ajustable: ofrece 5 niveles, minimal, low, medium, high, xhigh; el valor predeterminado es low para equilibrar baja latencia en interacciones simples y razonamiento más profundo en solicitudes complejas
Benchmarks de rendimiento de GPT-Realtime-2
- GPT-Realtime-2 (high) obtuvo una puntuación 15.2% mayor que GPT-Realtime-1.5 en Big Bench Audio, según el criterio de inteligencia de audio
- GPT-Realtime-2 (xhigh) obtuvo una puntuación 13.8% mayor que GPT-Realtime-1.5 en Audio MultiChallenge, según el criterio de seguimiento de instrucciones, con mejoras en razonamiento, manejo de contexto y control
- Cita de Josh Weisberg, SVP de Zillow: tras optimizar prompts en los benchmarks adversariales más difíciles, se logró una mejora de 26 puntos en la tasa de éxito de llamadas (95% vs. 69%); además, mostró mayor solidez en el cumplimiento de las regulaciones de Fair Housing, y la combinación entre capacidades del agente y fuerza de los guardrails encaja bien con la voz en producción de Zillow
GPT-Realtime-Translate: traducción de voz multilingüe en tiempo real
- Permite crear experiencias de voz multilingües en las que cada participante habla en su idioma preferido, escucha la conversación traducida en tiempo real y puede leer la transcripción en vivo
- Con soporte para más de 70 idiomas de entrada y 13 idiomas de salida, puede usarse en atención al cliente, ventas transfronterizas, educación, eventos, medios y plataformas globales de creadores
- Debe seguir el ritmo del hablante y preservar el significado, además de manejar habla natural, cambios de contexto, acentos regionales y lenguaje especializado por dominio
- Deutsche Telekom lo está probando en interacciones de voz multilingües, y su baja latencia y mayor fluidez hacen que las conversaciones entre idiomas se sientan más naturales
- Caso de Vimeo: GPT-Realtime-Translate reproduce videos de capacitación del producto mientras los traduce en tiempo real, para que clientes globales puedan escuchar actualizaciones en su idioma preferido sin necesidad de producir versiones separadas
- Cita de Prateek Sachan, CTO de BolnaAI: en evaluaciones de hindi, tamil y telugu, la tasa de error por palabra (WER) fue 12.5% menor que la de otros modelos, con una menor tasa de fallback, alta tasa de finalización de tareas y una latencia que mantiene conversaciones naturales
GPT-Realtime-Whisper: transcripción en streaming de baja latencia
- Es un nuevo modelo de transcripción en streaming para conversión de voz a texto de baja latencia, que transcribe el audio mientras la persona habla
- Puede usarse para subtítulos en tiempo real, notas de reuniones generadas durante la conversación, agentes de voz que requieren comprensión continua del usuario y flujos de seguimiento rápidos en interacciones de voz de alta frecuencia como atención al cliente, salud, ventas y reclutamiento
- Permite aprovechar datos de voz en tiempo real de inmediato en flujos de trabajo empresariales, como generar subtítulos para reuniones, clases, transmisiones y eventos, o crear notas y resúmenes mientras avanza la conversación
Seguridad y políticas
- La Realtime API aplica múltiples capas de protección y medidas de mitigación para prevenir usos indebidos
- Se están ejecutando clasificadores activos (active classifiers) sobre las sesiones, y la conversación puede interrumpirse si se detectan violaciones de las guías de contenido dañino
- Los desarrolladores pueden agregar sus propios guardrails de seguridad con el Agents SDK
- Según las políticas de uso, está prohibido reutilizar o distribuir salidas con fines dañinos, como spam o engaño
- Debe quedar claro para el usuario final que está interactuando con una IA (excepto cuando sea evidente por el contexto)
- Soporte completo para residencia de datos en la UE y aplicación de compromisos de privacidad para empresas
Precio y disponibilidad
- GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper están disponibles en la Realtime API
- GPT-Realtime-2: $32 por 1 millón de tokens de entrada de audio (tokens de entrada en caché por $0.40), y $64 por 1 millón de tokens de salida de audio
- GPT-Realtime-Translate: $0.034 por minuto
- GPT-Realtime-Whisper: $0.017 por minuto
- Los nuevos modelos de voz en tiempo real pueden probarse en Playground, y a través de Codex se puede agregar GPT-Realtime-2 a apps existentes o iniciar nuevos proyectos
Aún no hay comentarios.