11 puntos por GN⁺ 2026-03-06 | 2 comentarios | Compartir por WhatsApp
  • El modelo frontera más reciente, desplegado en ChatGPT, la API y Codex, unifica el rendimiento en razonamiento, programación y flujos de trabajo de agentes
  • Integra de forma nativa la función de uso de computadora (computer-use), lo que permite que los agentes manipulen directamente sitios web y software para ejecutar flujos de trabajo complejos
  • Admite una ventana de contexto de hasta 1M tokens y reduce velocidad y costos mediante búsqueda de herramientas y uso eficiente de tokens
  • En el modo Thinking de ChatGPT, se puede ajustar el proceso de razonamiento durante la respuesta, y mejoran la investigación profunda en la web y la capacidad de mantener el contexto
  • Absorbe el rendimiento de programación de GPT-5.3-Codex y mejora ampliamente la precisión y eficiencia en hojas de cálculo, presentaciones y trabajo con documentos

Resumen de GPT‑5.4

  • GPT‑5.4 es el modelo más potente y eficiente desplegado al mismo tiempo en ChatGPT (modo Thinking), la API y Codex
    • La versión GPT‑5.4 Pro ofrece el máximo rendimiento en tareas complejas
  • Integra la capacidad de programación de GPT‑5.3‑Codex y refuerza la precisión y eficiencia en entornos de trabajo profesional como hojas de cálculo, presentaciones y documentos
  • Se mejoró la interoperabilidad entre herramientas y entornos de software, reduciendo las idas y vueltas en la conversación durante el trabajo real

Mejoras en el modo Thinking de ChatGPT

  • GPT-5.4 Thinking presenta un plan previo (preamble) del proceso de razonamiento al comenzar una tarea, para que el usuario pueda ajustar la dirección mientras se genera la respuesta
  • Está diseñado para que la salida final se ajuste con más precisión a la intención del usuario sin turnos adicionales
  • Mejora el rendimiento de la investigación profunda en la web, especialmente en consultas muy específicas
  • En preguntas que requieren razonamientos largos, mejora la capacidad de mantener el contexto previo, entregando respuestas de mayor calidad con más rapidez
  • Disponible de inmediato en chatgpt.com y en la app de Android; la app de iOS llegará después

Uso de computadora y capacidades de visión

  • GPT-5.4 es el primer modelo de propósito general con capacidad nativa de computer-use
  • Admite tanto control de computadora basado en código mediante bibliotecas como Playwright, como emisión de comandos de mouse y teclado basados en capturas de pantalla
  • Se puede ajustar el comportamiento mediante mensajes del desarrollador, y con una política de confirmación personalizada (confirmation policy) es posible configurar de forma individual el nivel de tolerancia al riesgo
  • Logró 75.0% en OSWorld-Verified, superando el rendimiento humano de 72.4% y mejorando ampliamente frente al 47.3% de GPT-5.2
  • Logró 67.3% en WebArena-Verified con interacción basada en DOM + capturas de pantalla (GPT-5.2: 65.4%)
  • Logró 92.8% en Online-Mind2Web usando solo observación basada en capturas de pantalla (modo Agent de ChatGPT Atlas: 70.9%)

Mejoras en percepción visual y parsing de documentos

  • La capacidad mejorada de percepción visual general es la base de la función de uso de computadora
  • En MMMU-Pro logró 81.2% sin herramientas (GPT-5.2: 79.5%) y 82.1% con herramientas (GPT-5.2: 80.4%)
  • En OmniDocBench logró un error promedio (distancia de edición normalizada) de 0.109 sin razonamiento (GPT-5.2: 0.140)
  • Se introduce un nuevo nivel de detalle de entrada de imagen original: admite percepción con fidelidad completa hasta 10.24M píxeles o una dimensión máxima de 6000 px
    • El nivel high se amplía hasta 2.56M píxeles o una dimensión máxima de 2048 px
    • En pruebas iniciales con usuarios de la API, se observaron mejoras sólidas en ubicación espacial, comprensión de imágenes y precisión de clics

Rendimiento en programación

  • Combina las fortalezas de programación de GPT-5.3-Codex con capacidades para trabajo profesional y uso de computadora
  • Logró 57.7% en SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
  • Ofrece menor latencia que GPT-5.3-Codex en todos los niveles de razonamiento
  • Al activar el modo /fast en Codex, alcanza una velocidad de tokens hasta 1.5 veces mayor, manteniendo el mismo modelo y el mismo nivel de inteligencia
    • En la API, se puede acceder al mismo alto rendimiento mediante Priority Processing
  • En tareas complejas de frontend, genera resultados claramente más estéticos y funcionales que el modelo anterior
  • Se lanza la habilidad experimental de Codex "Playwright (Interactive)": admite depuración visual de apps web y Electron, y permite probar en tiempo real apps en desarrollo

Función Tool Search

  • Antes, todas las definiciones de herramientas se incluían por adelantado en el prompt, consumiendo de miles a decenas de miles de tokens, pero con Tool Search ahora se proporciona solo una lista ligera de herramientas y las definiciones se consultan dinámicamente cuando hacen falta
  • Reduce drásticamente el uso de tokens en flujos de trabajo intensivos en herramientas y conserva la caché, mejorando tanto la velocidad como el costo
  • La mejora de eficiencia es especialmente grande en definiciones de herramientas de servidores MCP de decenas de miles de tokens
  • En el benchmark MCP Atlas de Scale, sobre 250 tareas, al cambiar los 36 servidores MCP completos a Tool Search, el uso total de tokens se redujo 47%, manteniendo la misma precisión

Llamadas a herramientas y rendimiento de agentes

  • GPT-5.4 mejora la precisión y eficiencia del momento y la forma de usar herramientas durante el razonamiento
  • Logró 54.6% en Toolathlon (GPT-5.2: 45.7%), con más precisión y menos turnos
    • Evalúa tareas reales de uso de herramientas en varias etapas como leer correos, extraer adjuntos de una tarea, subirlos, calificarlos y registrar los resultados en una hoja de cálculo
  • Incluso en escenarios de baja latencia sin razonamiento, logró 64.3% en τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
  • En BrowseComp logró 82.7%, y GPT-5.4 Pro alcanzó 89.3%, marcando un nuevo mejor resultado (GPT-5.2: 65.8%)
    • Mejora la capacidad de buscar de forma persistente durante varias rondas en búsquedas difíciles del tipo “encontrar una aguja en un pajar”

Rendimiento en trabajo profesional y conocimiento

  • En GDPval se evaluaron entregables reales de trabajo en las 9 industrias más grandes del PIB de EE. UU. y 44 ocupaciones (presentaciones de ventas, hojas de cálculo contables, horarios de atención de urgencias, diagramas de manufactura, videos cortos, etc.)
    • GPT-5.4: 83.0% de coincidencia o superación del nivel experto (GPT-5.2: 70.9%)
  • En un benchmark interno de modelado de hojas de cálculo para banca de inversión, promedió 87.3% (GPT-5.2: 68.4%)
  • En evaluación de presentaciones, evaluadores humanos prefirieron los resultados de GPT-5.4 en 68.0% de los casos (mejor acabado estético, mayor diversidad visual y mejor uso de generación de imágenes)
  • Menos alucinaciones y errores: tomando como base prompts en los que usuarios reportaron errores fácticos, la probabilidad de falsedad en afirmaciones individuales se redujo 33% y la probabilidad de que la respuesta total incluyera errores bajó 18% frente a GPT-5.2

Ventana de contexto de 1M y rendimiento en contexto largo

  • Admite hasta 1M tokens de contexto, permitiendo que los agentes planifiquen, ejecuten y verifiquen tareas de largo alcance
  • En Codex, el soporte para ventana de contexto de 1M está disponible de forma experimental y se configura con model_context_window y model_auto_compact_token_limit
    • Las solicitudes que superen la ventana estándar de 272K se cobran al doble de la tarifa
  • Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
  • OpenAI MRCR v2 8-needle: 97.3% en 4K–8K, 79.3% en 128K–256K, 36.6% en 512K–1M

Razonamiento abstracto y benchmarks académicos

  • ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
  • GPT-5.4 Pro logró 83.3% en ARC-AGI-2
  • Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
  • FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), y GPT-5.4 Pro 38.0%
  • GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
  • Humanity's Last Exam: 39.8% sin herramientas y 52.1% con herramientas (GPT-5.2: 34.5% y 45.5%, respectivamente)
    • GPT-5.4 Pro logró 58.7% con herramientas

Seguridad y protección

  • Sigue mejorando las protecciones introducidas en GPT-5.3-Codex y está clasificado con alta capacidad cibernética en el Preparedness Framework
  • Stack ampliado de seguridad cibernética: incluye sistema de monitoreo, control de acceso basado en confianza y bloqueo asíncrono en superficies con Zero Data Retention (ZDR)
  • Se adopta un enfoque de despliegue preventivo considerando la naturaleza de doble uso de las capacidades de ciberseguridad, y como sigue mejorando la precisión de los clasificadores, existe la posibilidad de algunos falsos positivos (false positive)
  • El objetivo es mantener protecciones contra uso indebido reduciendo rechazos innecesarios y respuestas con pistas excesivas
  • Continúa la investigación de monitoreo de Chain-of-Thought (CoT) y se publica la nueva herramienta de evaluación open source CoT controllability
    • La capacidad de control de CoT en GPT-5.4 Thinking es baja, lo que es positivo para la seguridad porque dificulta que el modelo oculte su razonamiento

Precio y disponibilidad

  • Nombre del modelo en la API: gpt-5.4; versión Pro: gpt-5.4-pro
  • Precio en la API (por M tokens):
    • gpt-5.4: entrada $2.50, entrada en caché $0.25, salida $15
    • gpt-5.4-pro: entrada $30, salida $180
    • gpt-5.2: entrada $1.75, entrada en caché $0.175, salida $14
  • Aunque el precio por token es más alto que en GPT-5.2, la mejora en eficiencia de tokens reduce el uso total por tarea
  • Los precios de Batch y Flex son la mitad del estándar; Priority Processing cuesta el doble del estándar
  • En ChatGPT, GPT-5.4 Thinking está disponible de inmediato para usuarios Plus, Team y Pro, sustituyendo a GPT-5.2 Thinking
    • GPT-5.2 Thinking se mantendrá durante 3 meses en la sección Legacy Models para usuarios de pago y finaliza el 5 de junio de 2026
    • Los planes Enterprise y Edu pueden habilitar acceso anticipado en la configuración de administrador
    • GPT-5.4 Pro está disponible en los planes Pro y Enterprise
  • GPT-5.4 es el primer modelo principal de razonamiento que integra las capacidades frontier de programación de GPT-5.3-Codex, y los modelos Instant y Thinking evolucionarán a ritmos distintos en el futuro

2 comentarios

 
helio 2026-03-06

> En Codex, al activar el modo /fast, la velocidad de tokens es hasta 1.5 veces más rápida, manteniendo el mismo modelo y el mismo nivel de inteligencia. En la API, esto corresponde a Priority Processing.
> Priority Processing cuesta el doble que el estándar
> Las solicitudes que superen la ventana de contexto estándar de 272K se cobran al doble de la tarifa

 
GN⁺ 2026-03-06
Opiniones en Hacker News
  • El recuadro “Ask ChatGPT” al final de la entrada del blog dio risa
    Si le pedías que resumiera el contenido, se abría una ventana nueva, pero solo devolvía la respuesta de que “no puede acceder a URLs externas”
    Me pregunto si OpenAI sabe que esta función en realidad no funciona

    • Parece que solo no funciona para usuarios que no han iniciado sesión
      Con la sesión iniciada funcionó bien, y envié un reporte de bug al equipo
    • Cuando yo lo probé, sí hizo el resumen correctamente
      Vean este enlace de ejemplo compartido
      Yo también estaba con la sesión iniciada
    • A mí también me funcionó bien el resumen con la sesión iniciada
      Tal vez el permiso para acceder a URLs externas cambia según si has iniciado sesión
    • Volví a usar Claude después de un buen tiempo, y el UX había mejorado bastante
      Parece que Anthropic cuida más este tipo de detalles de UX
    • Me pregunto si ese mensaje habrá sido por un tema de copyright
  • Siento que la línea de modelos de OpenAI se volvió demasiado compleja
    Ahora están mezclados GPT‑5.1, 5.2 y 5.4, junto con Codex 5.3 e Instant 5.3
    En cambio, Anthropic distingue claramente solo tres modelos, y Google sigue teniendo modelos Preview
    Como desarrollador, molesta que sea difícil usar una versión estable

    • Me recordó al meme de las herramientas viejas de Google vs. las nuevas herramientas beta
      Siempre terminamos en una situación donde solo puedes elegir una de las dos
    • Decir que la numeración de versiones confunde suena a demasiado quisquilloso
      Si eres ingeniero, entender que 5.4 > 5.2 > 5.1 debería ser fácil
    • Google avisó que pronto va a deprecar el modelo 2.5
      Y 3.x sigue siendo Preview, así que es confuso
    • Anthropic también tiene un sistema de versiones desordenado
      Las versiones entre Opus, Sonnet y Haiku van por su cuenta, y la estructura de precios también es compleja
      Al final, todas las empresas tienen problemas parecidos
    • Cada mes sale un modelo mejor, así que no hay mucha razón para aferrarse al mismo
      Estamos en una época donde es fácil cambiar con solo sustituir la API
  • El punto clave de GPT‑5.4 es su ventana de contexto de 1M tokens
    Según la tabla oficial de precios, no hay costo adicional más allá de 200k
    Es mucho más barato que Opus 4.6, aunque queda la duda de si 1M de contexto realmente dará una ventaja práctica
    Según la documentación actualizada, reemplaza a GPT‑5.3‑Codex

    • Según la documentación del modelo,
      al pasar de 272K tokens se cobra el doble por entrada y 1.5x por salida
    • El dilema entre contexto largo vs. compaction siempre está ahí
      Mientras más tokens, mayores son el costo y la latencia
      En pruebas internas de OpenAI, un contexto corto fue más eficiente en la mayoría de los casos
      (comentario de un empleado)
    • Claude necesita menos tokens para la misma tarea,
      así que hay que comparar por costo por tarea
      En la práctica, el costo de GPT‑5.x y Opus termina siendo parecido
      Importa más el resultado en el trabajo real que los benchmarks
    • La mayoría solo ve la tabla oficial de precios, pero
      en realidad la documentación para desarrolladores es más precisa
      La tarifa base solo aplica hasta 272k
    • El problema de context rot sigue existiendo, pero
      Anthropic tiene planes de mitigarlo con RL para tareas largas
  • Probé GPT‑5.4 unas cuantas veces, y me impresionaron la claridad del texto y la capacidad de análisis
    Escribe de forma mucho más natural y humana que 5.3‑Codex
    Aunque también podría ser porque mi AGENTS.md pide un lenguaje simple

    • Pero en mi codebase no detectó un bug importante de pérdida de datos
    • Cada vez que sale un modelo nuevo aparecen publicaciones diciendo que “el modelo anterior era primitivo”,
      y siento que ese patrón se repite
    • Yo también me pasé de Opus a Codex, y aunque el razonamiento es más lento, la precisión mejoró
      Claude se siente relativamente más suelto
    • Me pregunto si se obtendrían los mismos resultados usando el mismo archivo AGENTS.md
    • Según investigaciones recientes, incluir AGENTS.md en realidad reduce el rendimiento
  • OpenAI evitó durante 8 meses el caos en la numeración de versiones, pero al final volvió a complicarse
    Ahora se mezclan nombres como GPT‑5.3 Instant y GPT‑5.4 Thinking

    • Confunde la diferencia entre GPT‑5.3 Instant y gpt‑5.3‑chat
    • En realidad también existía 5.3 Codex
    • Los modelos Instant sirven para resúmenes o búsquedas, pero en conversaciones complejas tienden a perder el contexto
      Hay que usarlos según el caso
  • El demo del juego RPG del blog fue impresionante
    Estaba al nivel de “Battle Brothers”, y fue un buen ejemplo de ingeniería autónoma

    • Sorprende que la IA haya hecho de una sola vez un clon de RollerCoaster Tycoon
      A esta velocidad, el mercado de herramientas low-code podría verse amenazado
    • Pero en realidad se veía más como un demo sencillo
    • Probablemente fue gracias a la integración con Playwright
      Ahora Codex puede depurar y probar apps web de forma visual
  • Parece que este modelo también se va a usar en ámbitos militares y de seguridad

    • Se dice que la puntuación de seguridad relacionada con violencia bajó de 91% a 83%
    • Me pregunto si también publicaron resultados de benchmarks militares (ArtificialSuperSoldier, etc.)
    • Me pregunto si podría usarse también al estilo de Anthropic como con los modelos de Claude
    • La industria publicitaria también va a querer esta tecnología
    • En el ámbito militar todavía usan la versión 4.1, así que la actualización seguramente tomará tiempo
  • GPT‑5.4 mostró una función donde interpreta capturas de pantalla del navegador para hacer clic en la UI de Gmail y enviar correos
    Pero creo que sería más eficiente usar la API de Gmail en lugar de hacerlo así

    • La mayoría de los sitios web no tienen API o tienen mala documentación
      Las capturas de pantalla ofrecen de una vez documentación, API y medio de navegación
    • Se siente como construir un robot humanoide para usar herramientas hechas para manos humanas
      Si funciona, gana mucha generalidad, aunque el enfoque basado en API sigue siendo válido
    • Muchos servicios no tienen ninguna intención de exponer una API
      Este enfoque puede esquivar esas limitaciones
    • Un modelo que aprende uso de computadoras puede servir en cualquier parte, mientras que
      uno que solo maneja APIs no
      En términos de expansión económica, el primero tiene más valor
    • Es parecido a por qué Wikipedia recibe más web scraping que uso de su API
      Al final, la comodidad manda
  • En mi trabajo diario de programación, me bastan los 3 agentes de código principales
    En SWE‑bench Verified, GPT‑5.2 Codex obtiene 72.8 y GPT‑5.4 sube alrededor de 2 puntos
    No es un gran salto, pero sí hay mejora
    En SWE‑bench, Claude 4.6 Opus sigue arriba con 75.6
    Aun así, las funciones de agente de Codex CLI han mejorado mucho y ya se acercan al nivel de Claude Code

  • Confunde que OpenAI haya unificado modelos y luego vuelva a sacar versiones más segmentadas
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro... son demasiados
    Aun así, se agradece que soporte una ventana de contexto de 1M

    • A mí me gusta tener este tipo de opciones
      Puedes elegir según lo que necesites, y los usuarios comunes todavía pueden usar el modo Auto
    • Como la opción Auto sigue existiendo, no es un gran problema
    • Probablemente GPT‑5 en el backend usa una estructura de enrutamiento automático entre varios modelos