- El modelo frontera más reciente, desplegado en ChatGPT, la API y Codex, unifica el rendimiento en razonamiento, programación y flujos de trabajo de agentes
- Integra de forma nativa la función de uso de computadora (computer-use), lo que permite que los agentes manipulen directamente sitios web y software para ejecutar flujos de trabajo complejos
- Admite una ventana de contexto de hasta 1M tokens y reduce velocidad y costos mediante búsqueda de herramientas y uso eficiente de tokens
- En el modo Thinking de ChatGPT, se puede ajustar el proceso de razonamiento durante la respuesta, y mejoran la investigación profunda en la web y la capacidad de mantener el contexto
- Absorbe el rendimiento de programación de GPT-5.3-Codex y mejora ampliamente la precisión y eficiencia en hojas de cálculo, presentaciones y trabajo con documentos
Resumen de GPT‑5.4
- GPT‑5.4 es el modelo más potente y eficiente desplegado al mismo tiempo en ChatGPT (modo Thinking), la API y Codex
- La versión GPT‑5.4 Pro ofrece el máximo rendimiento en tareas complejas
- Integra la capacidad de programación de GPT‑5.3‑Codex y refuerza la precisión y eficiencia en entornos de trabajo profesional como hojas de cálculo, presentaciones y documentos
- Se mejoró la interoperabilidad entre herramientas y entornos de software, reduciendo las idas y vueltas en la conversación durante el trabajo real
Mejoras en el modo Thinking de ChatGPT
- GPT-5.4 Thinking presenta un plan previo (preamble) del proceso de razonamiento al comenzar una tarea, para que el usuario pueda ajustar la dirección mientras se genera la respuesta
- Está diseñado para que la salida final se ajuste con más precisión a la intención del usuario sin turnos adicionales
- Mejora el rendimiento de la investigación profunda en la web, especialmente en consultas muy específicas
- En preguntas que requieren razonamientos largos, mejora la capacidad de mantener el contexto previo, entregando respuestas de mayor calidad con más rapidez
- Disponible de inmediato en chatgpt.com y en la app de Android; la app de iOS llegará después
Uso de computadora y capacidades de visión
- GPT-5.4 es el primer modelo de propósito general con capacidad nativa de computer-use
- Admite tanto control de computadora basado en código mediante bibliotecas como Playwright, como emisión de comandos de mouse y teclado basados en capturas de pantalla
- Se puede ajustar el comportamiento mediante mensajes del desarrollador, y con una política de confirmación personalizada (confirmation policy) es posible configurar de forma individual el nivel de tolerancia al riesgo
- Logró 75.0% en OSWorld-Verified, superando el rendimiento humano de 72.4% y mejorando ampliamente frente al 47.3% de GPT-5.2
- Logró 67.3% en WebArena-Verified con interacción basada en DOM + capturas de pantalla (GPT-5.2: 65.4%)
- Logró 92.8% en Online-Mind2Web usando solo observación basada en capturas de pantalla (modo Agent de ChatGPT Atlas: 70.9%)
Mejoras en percepción visual y parsing de documentos
- La capacidad mejorada de percepción visual general es la base de la función de uso de computadora
- En MMMU-Pro logró 81.2% sin herramientas (GPT-5.2: 79.5%) y 82.1% con herramientas (GPT-5.2: 80.4%)
- En OmniDocBench logró un error promedio (distancia de edición normalizada) de 0.109 sin razonamiento (GPT-5.2: 0.140)
- Se introduce un nuevo nivel de detalle de entrada de imagen
original: admite percepción con fidelidad completa hasta 10.24M píxeles o una dimensión máxima de 6000 px
- El nivel
high se amplía hasta 2.56M píxeles o una dimensión máxima de 2048 px
- En pruebas iniciales con usuarios de la API, se observaron mejoras sólidas en ubicación espacial, comprensión de imágenes y precisión de clics
Rendimiento en programación
- Combina las fortalezas de programación de GPT-5.3-Codex con capacidades para trabajo profesional y uso de computadora
- Logró 57.7% en SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
- Ofrece menor latencia que GPT-5.3-Codex en todos los niveles de razonamiento
- Al activar el modo /fast en Codex, alcanza una velocidad de tokens hasta 1.5 veces mayor, manteniendo el mismo modelo y el mismo nivel de inteligencia
- En la API, se puede acceder al mismo alto rendimiento mediante Priority Processing
- En tareas complejas de frontend, genera resultados claramente más estéticos y funcionales que el modelo anterior
- Se lanza la habilidad experimental de Codex "Playwright (Interactive)": admite depuración visual de apps web y Electron, y permite probar en tiempo real apps en desarrollo
Función Tool Search
- Antes, todas las definiciones de herramientas se incluían por adelantado en el prompt, consumiendo de miles a decenas de miles de tokens, pero con Tool Search ahora se proporciona solo una lista ligera de herramientas y las definiciones se consultan dinámicamente cuando hacen falta
- Reduce drásticamente el uso de tokens en flujos de trabajo intensivos en herramientas y conserva la caché, mejorando tanto la velocidad como el costo
- La mejora de eficiencia es especialmente grande en definiciones de herramientas de servidores MCP de decenas de miles de tokens
- En el benchmark MCP Atlas de Scale, sobre 250 tareas, al cambiar los 36 servidores MCP completos a Tool Search, el uso total de tokens se redujo 47%, manteniendo la misma precisión
Llamadas a herramientas y rendimiento de agentes
- GPT-5.4 mejora la precisión y eficiencia del momento y la forma de usar herramientas durante el razonamiento
- Logró 54.6% en Toolathlon (GPT-5.2: 45.7%), con más precisión y menos turnos
- Evalúa tareas reales de uso de herramientas en varias etapas como leer correos, extraer adjuntos de una tarea, subirlos, calificarlos y registrar los resultados en una hoja de cálculo
- Incluso en escenarios de baja latencia sin razonamiento, logró 64.3% en τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
- En BrowseComp logró 82.7%, y GPT-5.4 Pro alcanzó 89.3%, marcando un nuevo mejor resultado (GPT-5.2: 65.8%)
- Mejora la capacidad de buscar de forma persistente durante varias rondas en búsquedas difíciles del tipo “encontrar una aguja en un pajar”
Rendimiento en trabajo profesional y conocimiento
- En GDPval se evaluaron entregables reales de trabajo en las 9 industrias más grandes del PIB de EE. UU. y 44 ocupaciones (presentaciones de ventas, hojas de cálculo contables, horarios de atención de urgencias, diagramas de manufactura, videos cortos, etc.)
- GPT-5.4: 83.0% de coincidencia o superación del nivel experto (GPT-5.2: 70.9%)
- En un benchmark interno de modelado de hojas de cálculo para banca de inversión, promedió 87.3% (GPT-5.2: 68.4%)
- En evaluación de presentaciones, evaluadores humanos prefirieron los resultados de GPT-5.4 en 68.0% de los casos (mejor acabado estético, mayor diversidad visual y mejor uso de generación de imágenes)
- Menos alucinaciones y errores: tomando como base prompts en los que usuarios reportaron errores fácticos, la probabilidad de falsedad en afirmaciones individuales se redujo 33% y la probabilidad de que la respuesta total incluyera errores bajó 18% frente a GPT-5.2
Ventana de contexto de 1M y rendimiento en contexto largo
- Admite hasta 1M tokens de contexto, permitiendo que los agentes planifiquen, ejecuten y verifiquen tareas de largo alcance
- En Codex, el soporte para ventana de contexto de 1M está disponible de forma experimental y se configura con
model_context_window y model_auto_compact_token_limit
- Las solicitudes que superen la ventana estándar de 272K se cobran al doble de la tarifa
- Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
- OpenAI MRCR v2 8-needle: 97.3% en 4K–8K, 79.3% en 128K–256K, 36.6% en 512K–1M
Razonamiento abstracto y benchmarks académicos
- ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
- GPT-5.4 Pro logró 83.3% en ARC-AGI-2
- Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
- FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), y GPT-5.4 Pro 38.0%
- GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
- Humanity's Last Exam: 39.8% sin herramientas y 52.1% con herramientas (GPT-5.2: 34.5% y 45.5%, respectivamente)
- GPT-5.4 Pro logró 58.7% con herramientas
Seguridad y protección
- Sigue mejorando las protecciones introducidas en GPT-5.3-Codex y está clasificado con alta capacidad cibernética en el Preparedness Framework
- Stack ampliado de seguridad cibernética: incluye sistema de monitoreo, control de acceso basado en confianza y bloqueo asíncrono en superficies con Zero Data Retention (ZDR)
- Se adopta un enfoque de despliegue preventivo considerando la naturaleza de doble uso de las capacidades de ciberseguridad, y como sigue mejorando la precisión de los clasificadores, existe la posibilidad de algunos falsos positivos (false positive)
- El objetivo es mantener protecciones contra uso indebido reduciendo rechazos innecesarios y respuestas con pistas excesivas
- Continúa la investigación de monitoreo de Chain-of-Thought (CoT) y se publica la nueva herramienta de evaluación open source CoT controllability
- La capacidad de control de CoT en GPT-5.4 Thinking es baja, lo que es positivo para la seguridad porque dificulta que el modelo oculte su razonamiento
Precio y disponibilidad
- Nombre del modelo en la API:
gpt-5.4; versión Pro: gpt-5.4-pro
- Precio en la API (por M tokens):
gpt-5.4: entrada $2.50, entrada en caché $0.25, salida $15
gpt-5.4-pro: entrada $30, salida $180
gpt-5.2: entrada $1.75, entrada en caché $0.175, salida $14
- Aunque el precio por token es más alto que en GPT-5.2, la mejora en eficiencia de tokens reduce el uso total por tarea
- Los precios de Batch y Flex son la mitad del estándar; Priority Processing cuesta el doble del estándar
- En ChatGPT, GPT-5.4 Thinking está disponible de inmediato para usuarios Plus, Team y Pro, sustituyendo a GPT-5.2 Thinking
- GPT-5.2 Thinking se mantendrá durante 3 meses en la sección Legacy Models para usuarios de pago y finaliza el 5 de junio de 2026
- Los planes Enterprise y Edu pueden habilitar acceso anticipado en la configuración de administrador
- GPT-5.4 Pro está disponible en los planes Pro y Enterprise
- GPT-5.4 es el primer modelo principal de razonamiento que integra las capacidades frontier de programación de GPT-5.3-Codex, y los modelos Instant y Thinking evolucionarán a ritmos distintos en el futuro
2 comentarios
> En Codex, al activar el modo
/fast, la velocidad de tokens es hasta 1.5 veces más rápida, manteniendo el mismo modelo y el mismo nivel de inteligencia. En la API, esto corresponde a Priority Processing.> Priority Processing cuesta el doble que el estándar
> Las solicitudes que superen la ventana de contexto estándar de 272K se cobran al doble de la tarifa
Opiniones en Hacker News
El recuadro “Ask ChatGPT” al final de la entrada del blog dio risa
Si le pedías que resumiera el contenido, se abría una ventana nueva, pero solo devolvía la respuesta de que “no puede acceder a URLs externas”
Me pregunto si OpenAI sabe que esta función en realidad no funciona
Con la sesión iniciada funcionó bien, y envié un reporte de bug al equipo
Vean este enlace de ejemplo compartido
Yo también estaba con la sesión iniciada
Tal vez el permiso para acceder a URLs externas cambia según si has iniciado sesión
Parece que Anthropic cuida más este tipo de detalles de UX
Siento que la línea de modelos de OpenAI se volvió demasiado compleja
Ahora están mezclados GPT‑5.1, 5.2 y 5.4, junto con Codex 5.3 e Instant 5.3
En cambio, Anthropic distingue claramente solo tres modelos, y Google sigue teniendo modelos Preview
Como desarrollador, molesta que sea difícil usar una versión estable
Siempre terminamos en una situación donde solo puedes elegir una de las dos
Si eres ingeniero, entender que 5.4 > 5.2 > 5.1 debería ser fácil
Y 3.x sigue siendo Preview, así que es confuso
Las versiones entre Opus, Sonnet y Haiku van por su cuenta, y la estructura de precios también es compleja
Al final, todas las empresas tienen problemas parecidos
Estamos en una época donde es fácil cambiar con solo sustituir la API
El punto clave de GPT‑5.4 es su ventana de contexto de 1M tokens
Según la tabla oficial de precios, no hay costo adicional más allá de 200k
Es mucho más barato que Opus 4.6, aunque queda la duda de si 1M de contexto realmente dará una ventaja práctica
Según la documentación actualizada, reemplaza a GPT‑5.3‑Codex
al pasar de 272K tokens se cobra el doble por entrada y 1.5x por salida
Mientras más tokens, mayores son el costo y la latencia
En pruebas internas de OpenAI, un contexto corto fue más eficiente en la mayoría de los casos
(comentario de un empleado)
así que hay que comparar por costo por tarea
En la práctica, el costo de GPT‑5.x y Opus termina siendo parecido
Importa más el resultado en el trabajo real que los benchmarks
en realidad la documentación para desarrolladores es más precisa
La tarifa base solo aplica hasta 272k
Anthropic tiene planes de mitigarlo con RL para tareas largas
Probé GPT‑5.4 unas cuantas veces, y me impresionaron la claridad del texto y la capacidad de análisis
Escribe de forma mucho más natural y humana que 5.3‑Codex
Aunque también podría ser porque mi AGENTS.md pide un lenguaje simple
y siento que ese patrón se repite
Claude se siente relativamente más suelto
OpenAI evitó durante 8 meses el caos en la numeración de versiones, pero al final volvió a complicarse
Ahora se mezclan nombres como GPT‑5.3 Instant y GPT‑5.4 Thinking
Hay que usarlos según el caso
El demo del juego RPG del blog fue impresionante
Estaba al nivel de “Battle Brothers”, y fue un buen ejemplo de ingeniería autónoma
A esta velocidad, el mercado de herramientas low-code podría verse amenazado
Ahora Codex puede depurar y probar apps web de forma visual
Parece que este modelo también se va a usar en ámbitos militares y de seguridad
GPT‑5.4 mostró una función donde interpreta capturas de pantalla del navegador para hacer clic en la UI de Gmail y enviar correos
Pero creo que sería más eficiente usar la API de Gmail en lugar de hacerlo así
Las capturas de pantalla ofrecen de una vez documentación, API y medio de navegación
Si funciona, gana mucha generalidad, aunque el enfoque basado en API sigue siendo válido
Este enfoque puede esquivar esas limitaciones
uno que solo maneja APIs no
En términos de expansión económica, el primero tiene más valor
Al final, la comodidad manda
En mi trabajo diario de programación, me bastan los 3 agentes de código principales
En SWE‑bench Verified, GPT‑5.2 Codex obtiene 72.8 y GPT‑5.4 sube alrededor de 2 puntos
No es un gran salto, pero sí hay mejora
En SWE‑bench, Claude 4.6 Opus sigue arriba con 75.6
Aun así, las funciones de agente de Codex CLI han mejorado mucho y ya se acercan al nivel de Claude Code
Confunde que OpenAI haya unificado modelos y luego vuelva a sacar versiones más segmentadas
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro... son demasiados
Aun así, se agradece que soporte una ventana de contexto de 1M
Puedes elegir según lo que necesites, y los usuarios comunes todavía pueden usar el modo Auto