Lanzamiento de GPT‑5.4

(openai.com)

11 puntos por GN⁺ 2026-03-06 | 2 comentarios | Compartir por WhatsApp

El modelo frontera más reciente, desplegado en ChatGPT, la API y Codex, unifica el rendimiento en razonamiento, programación y flujos de trabajo de agentes
Integra de forma nativa la función de uso de computadora (computer-use), lo que permite que los agentes manipulen directamente sitios web y software para ejecutar flujos de trabajo complejos
Admite una ventana de contexto de hasta 1M tokens y reduce velocidad y costos mediante búsqueda de herramientas y uso eficiente de tokens
En el modo Thinking de ChatGPT, se puede ajustar el proceso de razonamiento durante la respuesta, y mejoran la investigación profunda en la web y la capacidad de mantener el contexto
Absorbe el rendimiento de programación de GPT-5.3-Codex y mejora ampliamente la precisión y eficiencia en hojas de cálculo, presentaciones y trabajo con documentos

Resumen de GPT‑5.4

GPT‑5.4 es el modelo más potente y eficiente desplegado al mismo tiempo en ChatGPT (modo Thinking), la API y Codex
- La versión GPT‑5.4 Pro ofrece el máximo rendimiento en tareas complejas
Integra la capacidad de programación de GPT‑5.3‑Codex y refuerza la precisión y eficiencia en entornos de trabajo profesional como hojas de cálculo, presentaciones y documentos
Se mejoró la interoperabilidad entre herramientas y entornos de software, reduciendo las idas y vueltas en la conversación durante el trabajo real

Mejoras en el modo Thinking de ChatGPT

GPT-5.4 Thinking presenta un plan previo (preamble) del proceso de razonamiento al comenzar una tarea, para que el usuario pueda ajustar la dirección mientras se genera la respuesta
Está diseñado para que la salida final se ajuste con más precisión a la intención del usuario sin turnos adicionales
Mejora el rendimiento de la investigación profunda en la web, especialmente en consultas muy específicas
En preguntas que requieren razonamientos largos, mejora la capacidad de mantener el contexto previo, entregando respuestas de mayor calidad con más rapidez
Disponible de inmediato en chatgpt.com y en la app de Android; la app de iOS llegará después

Uso de computadora y capacidades de visión

GPT-5.4 es el primer modelo de propósito general con capacidad nativa de computer-use
Admite tanto control de computadora basado en código mediante bibliotecas como Playwright, como emisión de comandos de mouse y teclado basados en capturas de pantalla
Se puede ajustar el comportamiento mediante mensajes del desarrollador, y con una política de confirmación personalizada (confirmation policy) es posible configurar de forma individual el nivel de tolerancia al riesgo
Logró 75.0% en OSWorld-Verified, superando el rendimiento humano de 72.4% y mejorando ampliamente frente al 47.3% de GPT-5.2
Logró 67.3% en WebArena-Verified con interacción basada en DOM + capturas de pantalla (GPT-5.2: 65.4%)
Logró 92.8% en Online-Mind2Web usando solo observación basada en capturas de pantalla (modo Agent de ChatGPT Atlas: 70.9%)

Mejoras en percepción visual y parsing de documentos

La capacidad mejorada de percepción visual general es la base de la función de uso de computadora
En MMMU-Pro logró 81.2% sin herramientas (GPT-5.2: 79.5%) y 82.1% con herramientas (GPT-5.2: 80.4%)
En OmniDocBench logró un error promedio (distancia de edición normalizada) de 0.109 sin razonamiento (GPT-5.2: 0.140)
Se introduce un nuevo nivel de detalle de entrada de imagen original: admite percepción con fidelidad completa hasta 10.24M píxeles o una dimensión máxima de 6000 px
- El nivel high se amplía hasta 2.56M píxeles o una dimensión máxima de 2048 px
- En pruebas iniciales con usuarios de la API, se observaron mejoras sólidas en ubicación espacial, comprensión de imágenes y precisión de clics

Rendimiento en programación

Combina las fortalezas de programación de GPT-5.3-Codex con capacidades para trabajo profesional y uso de computadora
Logró 57.7% en SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
Ofrece menor latencia que GPT-5.3-Codex en todos los niveles de razonamiento
Al activar el modo /fast en Codex, alcanza una velocidad de tokens hasta 1.5 veces mayor, manteniendo el mismo modelo y el mismo nivel de inteligencia
- En la API, se puede acceder al mismo alto rendimiento mediante Priority Processing
En tareas complejas de frontend, genera resultados claramente más estéticos y funcionales que el modelo anterior
Se lanza la habilidad experimental de Codex "Playwright (Interactive)": admite depuración visual de apps web y Electron, y permite probar en tiempo real apps en desarrollo

Función Tool Search

Antes, todas las definiciones de herramientas se incluían por adelantado en el prompt, consumiendo de miles a decenas de miles de tokens, pero con Tool Search ahora se proporciona solo una lista ligera de herramientas y las definiciones se consultan dinámicamente cuando hacen falta
Reduce drásticamente el uso de tokens en flujos de trabajo intensivos en herramientas y conserva la caché, mejorando tanto la velocidad como el costo
La mejora de eficiencia es especialmente grande en definiciones de herramientas de servidores MCP de decenas de miles de tokens
En el benchmark MCP Atlas de Scale, sobre 250 tareas, al cambiar los 36 servidores MCP completos a Tool Search, el uso total de tokens se redujo 47%, manteniendo la misma precisión

Llamadas a herramientas y rendimiento de agentes

GPT-5.4 mejora la precisión y eficiencia del momento y la forma de usar herramientas durante el razonamiento
Logró 54.6% en Toolathlon (GPT-5.2: 45.7%), con más precisión y menos turnos
- Evalúa tareas reales de uso de herramientas en varias etapas como leer correos, extraer adjuntos de una tarea, subirlos, calificarlos y registrar los resultados en una hoja de cálculo
Incluso en escenarios de baja latencia sin razonamiento, logró 64.3% en τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
En BrowseComp logró 82.7%, y GPT-5.4 Pro alcanzó 89.3%, marcando un nuevo mejor resultado (GPT-5.2: 65.8%)
- Mejora la capacidad de buscar de forma persistente durante varias rondas en búsquedas difíciles del tipo “encontrar una aguja en un pajar”

Rendimiento en trabajo profesional y conocimiento

En GDPval se evaluaron entregables reales de trabajo en las 9 industrias más grandes del PIB de EE. UU. y 44 ocupaciones (presentaciones de ventas, hojas de cálculo contables, horarios de atención de urgencias, diagramas de manufactura, videos cortos, etc.)
- GPT-5.4: 83.0% de coincidencia o superación del nivel experto (GPT-5.2: 70.9%)
En un benchmark interno de modelado de hojas de cálculo para banca de inversión, promedió 87.3% (GPT-5.2: 68.4%)
En evaluación de presentaciones, evaluadores humanos prefirieron los resultados de GPT-5.4 en 68.0% de los casos (mejor acabado estético, mayor diversidad visual y mejor uso de generación de imágenes)
Menos alucinaciones y errores: tomando como base prompts en los que usuarios reportaron errores fácticos, la probabilidad de falsedad en afirmaciones individuales se redujo 33% y la probabilidad de que la respuesta total incluyera errores bajó 18% frente a GPT-5.2

Ventana de contexto de 1M y rendimiento en contexto largo

Admite hasta 1M tokens de contexto, permitiendo que los agentes planifiquen, ejecuten y verifiquen tareas de largo alcance
En Codex, el soporte para ventana de contexto de 1M está disponible de forma experimental y se configura con model_context_window y model_auto_compact_token_limit
- Las solicitudes que superen la ventana estándar de 272K se cobran al doble de la tarifa
Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
OpenAI MRCR v2 8-needle: 97.3% en 4K–8K, 79.3% en 128K–256K, 36.6% en 512K–1M

Razonamiento abstracto y benchmarks académicos

ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
GPT-5.4 Pro logró 83.3% en ARC-AGI-2
Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), y GPT-5.4 Pro 38.0%
GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
Humanity's Last Exam: 39.8% sin herramientas y 52.1% con herramientas (GPT-5.2: 34.5% y 45.5%, respectivamente)
- GPT-5.4 Pro logró 58.7% con herramientas

Seguridad y protección

Sigue mejorando las protecciones introducidas en GPT-5.3-Codex y está clasificado con alta capacidad cibernética en el Preparedness Framework
Stack ampliado de seguridad cibernética: incluye sistema de monitoreo, control de acceso basado en confianza y bloqueo asíncrono en superficies con Zero Data Retention (ZDR)
Se adopta un enfoque de despliegue preventivo considerando la naturaleza de doble uso de las capacidades de ciberseguridad, y como sigue mejorando la precisión de los clasificadores, existe la posibilidad de algunos falsos positivos (false positive)
El objetivo es mantener protecciones contra uso indebido reduciendo rechazos innecesarios y respuestas con pistas excesivas
Continúa la investigación de monitoreo de Chain-of-Thought (CoT) y se publica la nueva herramienta de evaluación open source CoT controllability
- La capacidad de control de CoT en GPT-5.4 Thinking es baja, lo que es positivo para la seguridad porque dificulta que el modelo oculte su razonamiento

Precio y disponibilidad

Nombre del modelo en la API: gpt-5.4; versión Pro: gpt-5.4-pro
Precio en la API (por M tokens):
- gpt-5.4: entrada $2.50, entrada en caché $0.25, salida $15
- gpt-5.4-pro: entrada $30, salida $180
- gpt-5.2: entrada $1.75, entrada en caché $0.175, salida $14
Aunque el precio por token es más alto que en GPT-5.2, la mejora en eficiencia de tokens reduce el uso total por tarea
Los precios de Batch y Flex son la mitad del estándar; Priority Processing cuesta el doble del estándar
En ChatGPT, GPT-5.4 Thinking está disponible de inmediato para usuarios Plus, Team y Pro, sustituyendo a GPT-5.2 Thinking
- GPT-5.2 Thinking se mantendrá durante 3 meses en la sección Legacy Models para usuarios de pago y finaliza el 5 de junio de 2026
- Los planes Enterprise y Edu pueden habilitar acceso anticipado en la configuración de administrador
- GPT-5.4 Pro está disponible en los planes Pro y Enterprise
GPT-5.4 es el primer modelo principal de razonamiento que integra las capacidades frontier de programación de GPT-5.3-Codex, y los modelos Instant y Thinking evolucionarán a ritmos distintos en el futuro

2 comentarios

helio 2026-03-06

> En Codex, al activar el modo /fast, la velocidad de tokens es hasta 1.5 veces más rápida, manteniendo el mismo modelo y el mismo nivel de inteligencia. En la API, esto corresponde a Priority Processing.
> Priority Processing cuesta el doble que el estándar
> Las solicitudes que superen la ventana de contexto estándar de 272K se cobran al doble de la tarifa

GN⁺ 2026-03-06

Opiniones en Hacker News

El recuadro “Ask ChatGPT” al final de la entrada del blog dio risa
Si le pedías que resumiera el contenido, se abría una ventana nueva, pero solo devolvía la respuesta de que “no puede acceder a URLs externas”
Me pregunto si OpenAI sabe que esta función en realidad no funciona
- Parece que solo no funciona para usuarios que no han iniciado sesión
  Con la sesión iniciada funcionó bien, y envié un reporte de bug al equipo
- Cuando yo lo probé, sí hizo el resumen correctamente
  Vean este enlace de ejemplo compartido
  Yo también estaba con la sesión iniciada
- A mí también me funcionó bien el resumen con la sesión iniciada
  Tal vez el permiso para acceder a URLs externas cambia según si has iniciado sesión
- Volví a usar Claude después de un buen tiempo, y el UX había mejorado bastante
  Parece que Anthropic cuida más este tipo de detalles de UX
- Me pregunto si ese mensaje habrá sido por un tema de copyright
Siento que la línea de modelos de OpenAI se volvió demasiado compleja
Ahora están mezclados GPT‑5.1, 5.2 y 5.4, junto con Codex 5.3 e Instant 5.3
En cambio, Anthropic distingue claramente solo tres modelos, y Google sigue teniendo modelos Preview
Como desarrollador, molesta que sea difícil usar una versión estable
- Me recordó al meme de las herramientas viejas de Google vs. las nuevas herramientas beta
  Siempre terminamos en una situación donde solo puedes elegir una de las dos
- Decir que la numeración de versiones confunde suena a demasiado quisquilloso
  Si eres ingeniero, entender que 5.4 > 5.2 > 5.1 debería ser fácil
- Google avisó que pronto va a deprecar el modelo 2.5
  Y 3.x sigue siendo Preview, así que es confuso
- Anthropic también tiene un sistema de versiones desordenado
  Las versiones entre Opus, Sonnet y Haiku van por su cuenta, y la estructura de precios también es compleja
  Al final, todas las empresas tienen problemas parecidos
- Cada mes sale un modelo mejor, así que no hay mucha razón para aferrarse al mismo
  Estamos en una época donde es fácil cambiar con solo sustituir la API
El punto clave de GPT‑5.4 es su ventana de contexto de 1M tokens
Según la tabla oficial de precios, no hay costo adicional más allá de 200k
Es mucho más barato que Opus 4.6, aunque queda la duda de si 1M de contexto realmente dará una ventaja práctica
Según la documentación actualizada, reemplaza a GPT‑5.3‑Codex
- Según la documentación del modelo,
  al pasar de 272K tokens se cobra el doble por entrada y 1.5x por salida
- El dilema entre contexto largo vs. compaction siempre está ahí
  Mientras más tokens, mayores son el costo y la latencia
  En pruebas internas de OpenAI, un contexto corto fue más eficiente en la mayoría de los casos
  (comentario de un empleado)
- Claude necesita menos tokens para la misma tarea,
  así que hay que comparar por costo por tarea
  En la práctica, el costo de GPT‑5.x y Opus termina siendo parecido
  Importa más el resultado en el trabajo real que los benchmarks
- La mayoría solo ve la tabla oficial de precios, pero
  en realidad la documentación para desarrolladores es más precisa
  La tarifa base solo aplica hasta 272k
- El problema de context rot sigue existiendo, pero
  Anthropic tiene planes de mitigarlo con RL para tareas largas
Probé GPT‑5.4 unas cuantas veces, y me impresionaron la claridad del texto y la capacidad de análisis
Escribe de forma mucho más natural y humana que 5.3‑Codex
Aunque también podría ser porque mi AGENTS.md pide un lenguaje simple
- Pero en mi codebase no detectó un bug importante de pérdida de datos
- Cada vez que sale un modelo nuevo aparecen publicaciones diciendo que “el modelo anterior era primitivo”,
  y siento que ese patrón se repite
- Yo también me pasé de Opus a Codex, y aunque el razonamiento es más lento, la precisión mejoró
  Claude se siente relativamente más suelto
- Me pregunto si se obtendrían los mismos resultados usando el mismo archivo AGENTS.md
- Según investigaciones recientes, incluir AGENTS.md en realidad reduce el rendimiento
OpenAI evitó durante 8 meses el caos en la numeración de versiones, pero al final volvió a complicarse
Ahora se mezclan nombres como GPT‑5.3 Instant y GPT‑5.4 Thinking
- Confunde la diferencia entre GPT‑5.3 Instant y gpt‑5.3‑chat
- En realidad también existía 5.3 Codex
- Los modelos Instant sirven para resúmenes o búsquedas, pero en conversaciones complejas tienden a perder el contexto
  Hay que usarlos según el caso
El demo del juego RPG del blog fue impresionante
Estaba al nivel de “Battle Brothers”, y fue un buen ejemplo de ingeniería autónoma
- Sorprende que la IA haya hecho de una sola vez un clon de RollerCoaster Tycoon
  A esta velocidad, el mercado de herramientas low-code podría verse amenazado
- Pero en realidad se veía más como un demo sencillo
- Probablemente fue gracias a la integración con Playwright
  Ahora Codex puede depurar y probar apps web de forma visual
Parece que este modelo también se va a usar en ámbitos militares y de seguridad
- Se dice que la puntuación de seguridad relacionada con violencia bajó de 91% a 83%
- Me pregunto si también publicaron resultados de benchmarks militares (ArtificialSuperSoldier, etc.)
- Me pregunto si podría usarse también al estilo de Anthropic como con los modelos de Claude
- La industria publicitaria también va a querer esta tecnología
- En el ámbito militar todavía usan la versión 4.1, así que la actualización seguramente tomará tiempo
GPT‑5.4 mostró una función donde interpreta capturas de pantalla del navegador para hacer clic en la UI de Gmail y enviar correos
Pero creo que sería más eficiente usar la API de Gmail en lugar de hacerlo así
- La mayoría de los sitios web no tienen API o tienen mala documentación
  Las capturas de pantalla ofrecen de una vez documentación, API y medio de navegación
- Se siente como construir un robot humanoide para usar herramientas hechas para manos humanas
  Si funciona, gana mucha generalidad, aunque el enfoque basado en API sigue siendo válido
- Muchos servicios no tienen ninguna intención de exponer una API
  Este enfoque puede esquivar esas limitaciones
- Un modelo que aprende uso de computadoras puede servir en cualquier parte, mientras que
  uno que solo maneja APIs no
  En términos de expansión económica, el primero tiene más valor
- Es parecido a por qué Wikipedia recibe más web scraping que uso de su API
  Al final, la comodidad manda
En mi trabajo diario de programación, me bastan los 3 agentes de código principales
En SWE‑bench Verified, GPT‑5.2 Codex obtiene 72.8 y GPT‑5.4 sube alrededor de 2 puntos
No es un gran salto, pero sí hay mejora
En SWE‑bench, Claude 4.6 Opus sigue arriba con 75.6
Aun así, las funciones de agente de Codex CLI han mejorado mucho y ya se acercan al nivel de Claude Code
Confunde que OpenAI haya unificado modelos y luego vuelva a sacar versiones más segmentadas
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro... son demasiados
Aun así, se agradece que soporte una ventana de contexto de 1M
- A mí me gusta tener este tipo de opciones
  Puedes elegir según lo que necesites, y los usuarios comunes todavía pueden usar el modo Auto
- Como la opción Auto sigue existiendo, no es un gran problema
- Probablemente GPT‑5 en el backend usa una estructura de enrutamiento automático entre varios modelos