OpenAI presenta la serie GPT-Realtime-2 con capacidad de razonamiento de nivel GPT-5

(openai.com)

9 puntos por GN⁺ 2026-05-08 | 1 comentarios | Compartir por WhatsApp

Se lanzan 3 nuevos modelos de audio con razonamiento, traducción y transcripción para la API de voz en tiempo real, lo que permite a los desarrolladores crear aplicaciones de voz más naturales e inteligentes
GPT-Realtime-2 es el primer modelo de voz con capacidad de razonamiento de nivel GPT-5, capaz de mantener conversaciones de forma natural mientras hace llamadas a herramientas y maneja interrupciones
GPT-Realtime-Translate es un modelo de traducción en vivo que traduce en tiempo real más de 70 idiomas de entrada a 13 idiomas de salida
GPT-Realtime-Whisper es un modelo de transcripción de voz en streaming que convierte el habla en texto al mismo tiempo que se pronuncia, útil para subtítulos, minutas de reuniones y atención al cliente
Un punto de inflexión en el que la voz evoluciona de una simple interfaz de llamada-respuesta a una que realiza al mismo tiempo razonamiento, traducción, transcripción y ejecución de herramientas

Resumen de los 3 nuevos modelos de audio en tiempo real

Se incorporan 3 modelos a la API para que los desarrolladores puedan crear experiencias de voz más naturales, que respondan de forma inteligente y realicen acciones en tiempo real
GPT-Realtime-2: el primer modelo de voz con razonamiento de nivel GPT-5, capaz de manejar solicitudes difíciles y conducir la conversación de manera natural
GPT-Realtime-Translate: realiza traducción de voz en tiempo real desde más de 70 idiomas de entrada hacia 13 idiomas de salida, siguiendo el ritmo del hablante
GPT-Realtime-Whisper: ofrece transcripción de voz a texto en streaming en vivo mientras la persona habla

La tendencia de la voz como interfaz de software

La voz está surgiendo como una de las formas más naturales de usar software, ya sea para pedir ayuda mientras se maneja, cambiar planes de viaje en un aeropuerto, recibir soporte en el idioma preferido o avanzar en tareas sin teclear
Los productos de voz útiles requieren más que turnos rápidos o voces naturales: necesitan comprender significado, seguir el contexto, recuperarse cuando cambia la solicitud, usar herramientas durante la conversación y responder con el tono adecuado
Los modelos lanzados ahora transforman el audio en tiempo real de una simple interacción de llamada-respuesta en una interfaz de voz que escucha, razona, traduce, transcribe y actúa

3 patrones emergentes de IA de voz

Voice-to-Action: el usuario expresa lo que necesita y el sistema razona y usa herramientas para completar la tarea
- Caso de Zillow: están construyendo un asistente que escucha, razona y ejecuta solicitudes como: "Encuentra una casa dentro de mi rango de BuyAbility, evita carreteras muy transitadas y agenda un tour para el sábado"
Systems-to-Voice: el software convierte el contexto en guía de voz en tiempo real
- Caso de una app de viajes: ofrece guía de voz proactiva con mensajes como: "Tu vuelo de llegada se retrasó, pero aún puedes hacer la conexión. Encontramos tu nueva puerta y te guiaremos por la ruta más corta dentro de la terminal; tu equipaje seguirá su curso con normalidad"
Voice-to-Voice: la IA mantiene conversaciones en tiempo real a través de idiomas, tareas y contextos cambiantes
- Caso de Deutsche Telekom: están construyendo una experiencia de soporte por voz en la que el modelo traduce en tiempo real mientras el cliente habla en el idioma que le resulte más cómodo
Estos patrones también pueden combinarse, y Priceline está impulsando un futuro en el que toda la experiencia de viaje se gestione por voz: búsqueda de vuelos y hoteles, cambios de reserva, actualizaciones del tiempo de espera de la TSA e incluso traducción de conversaciones locales

GPT-Realtime-2: modelo de voz en tiempo real para razonar y actuar

Está optimizado para la interacción de voz en tiempo real, de modo que puede razonar mientras hace llamadas a herramientas, maneja correcciones e interrupciones y responde según la situación
Preambles: frases cortas como "Déjame revisarlo" o "Un momento" para indicar al usuario que el agente está procesando la solicitud
Llamadas paralelas a herramientas y transparencia en el uso de herramientas: puede llamar varias herramientas al mismo tiempo mientras mantiene la capacidad de respuesta con frases como "Estoy revisando tu calendario" o "Estoy buscando eso ahora"
Comportamiento de recuperación mejorado: en lugar de fallar en silencio o cortar la conversación con expresiones como "No puedo procesarlo ahora", se recupera de forma natural
Ventana de contexto ampliada: pasa de 32K a 128K para soportar sesiones más largas y flujos de trabajo más complejos
Comprensión de dominio mejorada: conserva mejor vocabulario importante en producción, como términos especializados, nombres propios y terminología médica
Tono y entrega controlables: permite ajustar el tono, por ejemplo, manteniéndose calmado al resolver problemas, mostrando empatía cuando el usuario está molesto o sonando más animado al confirmar un resultado exitoso
Esfuerzo de razonamiento ajustable: ofrece 5 niveles, minimal, low, medium, high, xhigh; el valor predeterminado es low para equilibrar baja latencia en interacciones simples y razonamiento más profundo en solicitudes complejas

Benchmarks de rendimiento de GPT-Realtime-2

GPT-Realtime-2 (high) obtuvo una puntuación 15.2% mayor que GPT-Realtime-1.5 en Big Bench Audio, según el criterio de inteligencia de audio
GPT-Realtime-2 (xhigh) obtuvo una puntuación 13.8% mayor que GPT-Realtime-1.5 en Audio MultiChallenge, según el criterio de seguimiento de instrucciones, con mejoras en razonamiento, manejo de contexto y control
Cita de Josh Weisberg, SVP de Zillow: tras optimizar prompts en los benchmarks adversariales más difíciles, se logró una mejora de 26 puntos en la tasa de éxito de llamadas (95% vs. 69%); además, mostró mayor solidez en el cumplimiento de las regulaciones de Fair Housing, y la combinación entre capacidades del agente y fuerza de los guardrails encaja bien con la voz en producción de Zillow

GPT-Realtime-Translate: traducción de voz multilingüe en tiempo real

Permite crear experiencias de voz multilingües en las que cada participante habla en su idioma preferido, escucha la conversación traducida en tiempo real y puede leer la transcripción en vivo
Con soporte para más de 70 idiomas de entrada y 13 idiomas de salida, puede usarse en atención al cliente, ventas transfronterizas, educación, eventos, medios y plataformas globales de creadores
Debe seguir el ritmo del hablante y preservar el significado, además de manejar habla natural, cambios de contexto, acentos regionales y lenguaje especializado por dominio
Deutsche Telekom lo está probando en interacciones de voz multilingües, y su baja latencia y mayor fluidez hacen que las conversaciones entre idiomas se sientan más naturales
Caso de Vimeo: GPT-Realtime-Translate reproduce videos de capacitación del producto mientras los traduce en tiempo real, para que clientes globales puedan escuchar actualizaciones en su idioma preferido sin necesidad de producir versiones separadas
Cita de Prateek Sachan, CTO de BolnaAI: en evaluaciones de hindi, tamil y telugu, la tasa de error por palabra (WER) fue 12.5% menor que la de otros modelos, con una menor tasa de fallback, alta tasa de finalización de tareas y una latencia que mantiene conversaciones naturales

GPT-Realtime-Whisper: transcripción en streaming de baja latencia

Es un nuevo modelo de transcripción en streaming para conversión de voz a texto de baja latencia, que transcribe el audio mientras la persona habla
Puede usarse para subtítulos en tiempo real, notas de reuniones generadas durante la conversación, agentes de voz que requieren comprensión continua del usuario y flujos de seguimiento rápidos en interacciones de voz de alta frecuencia como atención al cliente, salud, ventas y reclutamiento
Permite aprovechar datos de voz en tiempo real de inmediato en flujos de trabajo empresariales, como generar subtítulos para reuniones, clases, transmisiones y eventos, o crear notas y resúmenes mientras avanza la conversación

Seguridad y políticas

La Realtime API aplica múltiples capas de protección y medidas de mitigación para prevenir usos indebidos
Se están ejecutando clasificadores activos (active classifiers) sobre las sesiones, y la conversación puede interrumpirse si se detectan violaciones de las guías de contenido dañino
Los desarrolladores pueden agregar sus propios guardrails de seguridad con el Agents SDK
Según las políticas de uso, está prohibido reutilizar o distribuir salidas con fines dañinos, como spam o engaño
Debe quedar claro para el usuario final que está interactuando con una IA (excepto cuando sea evidente por el contexto)
Soporte completo para residencia de datos en la UE y aplicación de compromisos de privacidad para empresas

Precio y disponibilidad

GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper están disponibles en la Realtime API
GPT-Realtime-2: $32 por 1 millón de tokens de entrada de audio (tokens de entrada en caché por $0.40), y $64 por 1 millón de tokens de salida de audio
GPT-Realtime-Translate: $0.034 por minuto
GPT-Realtime-Whisper: $0.017 por minuto
Los nuevos modelos de voz en tiempo real pueden probarse en Playground, y a través de Codex se puede agregar GPT-Realtime-2 a apps existentes o iniciar nuevos proyectos

1 comentarios

kleinstein 2026-05-08

¿GPT-Realtime-Translate será compatible con coreano?

OpenAI presenta la serie GPT-Realtime-2 con capacidad de razonamiento de nivel GPT-5

Resumen de los 3 nuevos modelos de audio en tiempo real

La tendencia de la voz como interfaz de software

3 patrones emergentes de IA de voz

GPT-Realtime-2: modelo de voz en tiempo real para razonar y actuar

Benchmarks de rendimiento de GPT-Realtime-2

GPT-Realtime-Translate: traducción de voz multilingüe en tiempo real

GPT-Realtime-Whisper: transcripción en streaming de baja latencia

Seguridad y políticas

Precio y disponibilidad

Lecturas relacionadas

1 comentarios