4 puntos por GN⁺ 2026-04-24 | 1 comentarios | Compartir por WhatsApp
  • Un modelo de tipo agente que planifica por sí mismo tareas complejas, combina herramientas y las ejecuta hasta el final, con un alcance amplio que va desde escritura de código y depuración hasta investigación web, análisis de datos, creación de documentos y hojas de cálculo, y manejo de software
  • Mantiene la misma per-token latency que GPT-5.4, pero mejora el rendimiento en coding, computer use, trabajo del conocimiento e investigación científica temprana, y además gana eficiencia al completar las mismas tareas de Codex con menos tokens
  • En ingeniería de software registró 82.7% en Terminal-Bench 2.0, 73.1% en Expert-SWE y 58.6% en SWE-Bench Pro, mostrando fortalezas en implementación, refactorización, depuración, pruebas, validación y mantenimiento del contexto en grandes codebases
  • También se fortaleció el flujo de trabajo en tareas generales y de investigación, desde la creación de documentos, hojas de cálculo y diapositivas hasta computer use basado en manipulación de pantalla, análisis de datos en múltiples etapas, validación de hipótesis e interpretación de resultados; GPT-5.5 Pro apunta a una mayor precisión y amplitud
  • Antes del lanzamiento pasó por medidas de seguridad reforzadas y pruebas internas y externas, y ya se está desplegando gradualmente en ChatGPT y Codex para usuarios Plus, Pro, Business y Enterprise, en lo que parece ser una nueva etapa para ampliar el uso de IA orientada al trabajo real

Panorama general del modelo y alcance del despliegue

  • GPT-5.5 se presenta como un modelo que entiende la intención más rápido, planifica por sí mismo tareas de varias etapas y usa herramientas para llevarlas hasta el final
    • Puede realizar escritura de código y depuración, investigación web, análisis de datos, creación de documentos y hojas de cálculo, manejo de software y tareas que requieren pasar entre varias herramientas
    • En vez de gestionar cada paso de forma minuciosa, está diseñado para recibir de una vez tareas complejas y desordenadas, y continuar con planificación, uso de herramientas, verificación y manejo de ambigüedades
  • Se pone especial énfasis en la mejora en tareas de tipo agente, con un rendimiento fuerte en coding, computer use, knowledge work e investigación científica temprana
    • Aunque los modelos más grandes suelen volverse más lentos, en servicio real la per-token latency se mantiene igual que en GPT-5.4
    • También mejora la eficiencia al completar las mismas tareas de Codex con menos tokens
  • Antes del lanzamiento se reforzaron las medidas de seguridad, incorporando pruebas internas y externas de red team, evaluaciones adicionales sobre capacidades avanzadas de cybersecurity y biología, y retroalimentación de uso temprano de unos 200 socios de confianza
  • Actualmente se está desplegando gradualmente en ChatGPT y Codex para usuarios Plus, Pro, Business y Enterprise, y GPT-5.5 Pro está disponible en ChatGPT para Pro, Business y Enterprise
    • La API sigue ajustándose a requisitos de seguridad separados, y GPT-5.5 y GPT-5.5 Pro llegarán próximamente

Ingeniería de software y coding de tipo agente

  • OpenAI está construyendo infraestructura de agentic AI, y durante el último año la IA ha acelerado notablemente la ingeniería de software
    • Con la incorporación de GPT-5.5 en Codex y ChatGPT, ese cambio empieza a extenderse a la investigación científica y al trabajo general en computadora
  • Según el Artificial Analysis Coding Index, ofrece inteligencia de primer nivel a la mitad del costo frente a modelos frontier de coding con los que compite
  • GPT-5.5 se presenta como el modelo de agentic coding más fuerte según OpenAI
    • Logró 82.7% en Terminal-Bench 2.0, que evalúa flujos de trabajo complejos en línea de comandos que requieren planificación, iteración y combinación de herramientas
    • En SWE-Bench Pro obtuvo 58.6%, y resolvió de extremo a extremo más tareas que los modelos anteriores en problemas reales de GitHub con una sola pasada
    • También superó a GPT-5.4 en la evaluación interna Expert-SWE
  • En las tres evaluaciones de coding obtuvo mejores puntajes usando menos tokens que GPT-5.4
  • En Codex, sus fortalezas se hacen visibles en implementación, refactorización, depuración, pruebas y validación
    • Mejora en comportamientos de ingeniería reales como mantener el contexto de sistemas grandes, rastrear causas ambiguas de fallas, confirmar hipótesis con herramientas y reflejar cambios en toda la codebase

Ejemplos de uso en coding y pruebas iniciales

  • Se incluye como ejemplo un prompt para implementar una app con WebGL + Vite usando datos reales de Artemis II
    • Renderiza las trayectorias de Orion, Moon y Sun con datos vectoriales de NASA/JPL Horizons
    • Aplica una escala de visualización para mejorar la legibilidad
    Publicidad
  • Los testers iniciales evaluaron que GPT-5.5 entiende mejor la arquitectura del sistema
    • Identifica con más precisión qué falla y por qué, dónde debe entrar la corrección y qué impacto tiene en otras partes de la codebase
  • Dan Shipper probó si podía reconstruir el mismo nivel de rediseño después de revertir una falla tras el lanzamiento, y GPT-5.4 falló mientras que GPT-5.5 lo logró
  • Pietro Schirano fusionó de una sola vez en unos 20 minutos una rama con cientos de cambios de frontend y refactorización sobre una rama principal que ya había cambiado mucho
  • En pruebas con ingenieros senior, destacaron más su reasoning y autonomía frente a GPT-5.4 y Claude Opus 4.7
    • Incluso sin prompts explícitos, detecta problemas por adelantado y anticipa la necesidad de pruebas y revisión
    • Cuando se le pidió rediseñar el sistema de comentarios de un editor colaborativo en markdown, produjo una pila de 12 diffs casi terminada
    • Hizo falta menos trabajo de corrección en la implementación de lo esperado, y la confianza en el plan también fue mayor que con GPT-5.4
  • En una cita de Michael Truell, de Cursor, se destaca que puede sostener el trabajo durante más tiempo, y que se adapta mejor a tareas complejas y de larga ejecución sin detenerse antes de tiempo

Trabajo general del conocimiento y uso de computadora

  • Las fortalezas mostradas en coding se trasladan directamente al trabajo cotidiano en computadora
    • Como entiende mejor la intención, puede encargarse de forma más natural de todo el proceso: buscar información, seleccionar lo importante, usar herramientas, verificar resultados y convertir materia prima en entregables útiles
  • En Codex, GPT-5.5 es mejor que GPT-5.4 para crear documentos, hojas de cálculo y diapositivas
    • Los testers alpha señalaron que supera al modelo anterior en investigación operativa, modelado en hojas de cálculo y transformación de entradas de negocio desordenadas en planes
  • Al combinarse con la capacidad de computer use de Codex, puede ver la pantalla, hacer clic, escribir, navegar interfaces y pasar con precisión entre varias herramientas
  • OpenAI ya lo usa internamente en flujos de trabajo reales, y actualmente más del 85% del personal usa Codex cada semana
    • Se utiliza en ingeniería de software, finanzas, comunicaciones, marketing, ciencia de datos y gestión de producto
  • El equipo de comunicaciones analizó datos de solicitudes de vocería de 6 meses para crear un framework de puntuación y riesgo, y validó un agente de Slack que procesa automáticamente las solicitudes de bajo riesgo y deja las de alto riesgo para revisión humana
  • El equipo de Finance revisó 24,771 formularios fiscales K-1, con un total de 71,637 páginas, y adelantó el trabajo en 2 semanas frente al año anterior mediante un flujo que excluye información personal
  • En el equipo de Go-to-Market se automatizó la generación de reportes semanales de negocio, ahorrando de 5 a 10 horas por semana

GPT-5.5 Thinking y GPT-5.5 Pro en ChatGPT

  • GPT-5.5 Thinking de ChatGPT fue diseñado para responder más rápido a problemas más difíciles, y permite abordar tareas complejas con mayor eficiencia gracias a respuestas más inteligentes y concisas
    • destaca en coding, research, síntesis y análisis de información, y trabajo centrado en documentos, y resulta especialmente ventajoso al usar plugins
  • GPT-5.5 Pro apunta a tareas más difíciles y a una mayor calidad, con menor latencia, lo que aumenta su aplicabilidad en entornos reales
    • frente a GPT-5.4 Pro, sus respuestas son más integrales, mejor estructuradas, más precisas, más relevantes y más útiles
    • destaca especialmente en business, legal, education y data science
    Publicidad
  • También muestra cifras altas en benchmarks cercanos al trabajo profesional
    • registró 84.9% en GDPval, 78.7% en OSWorld-Verified y 98.0% en Tau2-bench Telecom
    • Tau2-bench Telecom se ejecutó sin prompt tuning
    • también se presentan 60.0% en FinanceAgent, 88.5% en internal investment-banking modeling tasks y 54.1% en OfficeQA Pro
  • En una cita de Justin Boitano de NVIDIA, se señala que se ofrece sobre sistemas NVIDIA GB200 NVL72, que permite entregar capacidades end-to-end con prompts en lenguaje natural, reducir el tiempo de debugging de días a horas y convertir experimentos que tomarían semanas en ejecuciones de una noche

Flujo de trabajo de investigación científica y tecnológica

  • GPT-5.5 también muestra mejoras de rendimiento en flujos de trabajo de investigación científica y tecnológica
    • va más allá de responder preguntas difíciles, al sostener mejor el ciclo de explorar ideas, reunir evidencia, validar hipótesis, interpretar resultados y decidir el siguiente experimento
  • En GeneBench muestra una mejora clara frente a GPT-5.4
    • es una nueva evaluación orientada al análisis de datos multietapa en genetics y quantitative biology
    • aborda datos ambiguos o con errores, confounders ocultos, fallas de QC, e implementación e interpretación de técnicas estadísticas modernas
    • las tareas aquí equivalen a proyectos de varios días incluso para expertos científicos
  • En BixBench también registra un rendimiento líder entre los modelos con puntajes públicos
    • se presenta como un benchmark que refleja bioinformatics y análisis de datos reales
    • muestra potencial de aceleración a nivel de co-scientist en la frontera de la biomedical research
  • Una versión interna de GPT-5.5 y un custom harness también se usaron para encontrar una nueva demostración sobre Ramsey numbers
    • enlace a la nueva demostración
    • encontró una demostración sobre hechos asintóticos de antiguos off-diagonal Ramsey numbers en combinatorics, y luego se verificó con Lean
    • contribuye no solo con código o explicaciones, sino también con argumentación matemática útil en áreas centrales de investigación
  • Los primeros testers usaron GPT-5.5 Pro más como un socio de investigación que como un motor de respuestas puntuales
    • revisa borradores de forma crítica varias veces, somete argumentos técnicos a stress tests, propone análisis y trabaja junto con el contexto de código, notas y PDFs
    • ayuda mejor con el flujo que va de la pregunta al experimento y al resultado entregable

Casos de investigación

  • Derya Unutmaz, de Jackson Laboratory for Genomic Medicine, analizó con GPT-5.5 Pro un dataset de expresión génica de 62 muestras y alrededor de 28,000 genes
    • generó un informe de investigación detallado, revelando no solo un resumen de resultados, sino también preguntas clave e insights
    • si su equipo hubiera realizado ese trabajo, habría tomado varios meses
  • Bartosz Naskręcki, de Adam Mickiewicz University, creó con Codex una app de algebraic geometry en 11 minutos a partir de un solo prompt
    • visualiza la intersección de dos quadratic surfaces y convierte la curva resultante a un modelo de Weierstrass
    • luego hizo más estable la visualización de singularities y añadió exact coefficients reutilizables para trabajo posterior
    • Codex también ayudó a implementar visualización matemática personalizada y flujos de trabajo de computer algebra que antes requerían herramientas dedicadas
    Publicidad
  • Credit: Bartosz Naskręcki
  • En una cita de Brandon White, de Axiom Bio, se indica que infiere enormes biochemical datasets para predecir human drug outcomes, y que mostró mejoras significativas de precisión en las evaluaciones más difíciles de drug discovery

Infraestructura de inferencia y optimización de rendimiento

  • Para servir GPT-5.5 con una latencia como la de GPT-5.4, fue necesario rediseñar la inferencia no como un conjunto de optimizaciones aisladas, sino como un sistema integrado
    • GPT-5.5 fue co-diseñado, entrenado y servido con sistemas NVIDIA GB200 y GB300 NVL72 como base
  • Codex y el propio GPT-5.5 contribuyeron directamente a alcanzar los objetivos de rendimiento
    • Codex se usa para llevar ideas rápidamente a implementaciones medibles con benchmarks, esbozar enfoques, conectar experimentos y encontrar optimizaciones que requieren una inversión más profunda
    • GPT-5.5 ayuda a identificar e implementar mejoras clave dentro del stack
    • al final, el modelo también contribuye a mejorar la infraestructura que lo sirve a sí mismo
  • Como caso representativo de mejora, se presentan las heurísticas de load balancing y partitioning
    • antes, las solicitudes sobre el accelerator se dividían en una cantidad fija de chunks, de modo que solicitudes grandes y pequeñas corrían en la misma GPU
    • pero un número estático de chunks no era óptimo para todas las formas de tráfico
    • Codex analizó patrones de production traffic durante varias semanas y escribió un algoritmo heuristic personalizado para dividir y balancear las tareas de forma óptima
    • este trabajo aumentó la token generation speed en más de 20%

Ciberseguridad y salvaguardas

  • Preparar para el mundo un modelo capaz de detectar vulnerabilidades y aplicar parches se parece más a un deporte de equipo, y para la próxima era de la defensa cibernética se necesita la resiliencia de todo el ecosistema
  • La capacidad de ciberseguridad de los modelos frontier sigue fortaleciéndose, y como esta capacidad se difundirá ampliamente, se vuelve importante el camino para usarla en acelerar la defensa cibernética y fortalecer el ecosistema
  • GPT-5.5 se posiciona como un paso gradual pero importante hacia una IA capaz de resolver problemas difíciles como la ciberseguridad
    • En GPT-5.2 se implementaron de forma preventiva cyber safeguards para limitar el posible uso malicioso en el ámbito cyber
    • En GPT-5.5 se implementaron clasificadores más estrictos para el riesgo cyber potencial, y al principio esto puede resultar molesto para algunos usuarios
  • OpenAI ha tratado la ciberseguridad como una categoría separada dentro del Preparedness Framework durante años, y ha ajustado de manera iterativa las medidas de mitigación conforme mejoraban las capacidades
  • Se implementaron salvaguardas líderes en la industria acordes con este nivel de capacidad cyber
    • En GPT-5.2 se introdujeron por primera vez salvaguardas específicas para cyber y desde entonces se han probado, refinado y ampliado en cada despliegue
    • En GPT-5.5 se reforzó aún más la protección contra actividades de alto riesgo, solicitudes cyber sensibles y abuso repetido
    • El acceso más amplio fue posible gracias a inversiones en seguridad del modelo, uso verificado y monitoreo de usos no permitidos
    • Se desarrolló, probó y mejoró la robustez durante meses junto con expertos externos
    • Se facilita que los desarrolladores protejan su código con facilidad, mientras que se aplican controles más fuertes a flujos de trabajo cyber donde a actores maliciosos les resultaría más fácil causar daño
  • También avanza la ampliación del acceso con fines defensivos
    • A través de Trusted Access for Cyber se ofrece acceso a modelos con permisos cyber, y el punto de partida es Codex
    • A los usuarios verificados que cumplan ciertas trust signals se les ofrecen funciones avanzadas de ciberseguridad de GPT-5.5 con menos restricciones
    • Las organizaciones encargadas de la defensa de infraestructura crítica pueden solicitar acceso a modelos con permisos cyber como GPT-5.4-Cyber
    • El objetivo es ofrecer a responsables verificados de defensa herramientas para trabajo de seguridad legítimo con menos fricción
    • Enlace de solicitud: chatgpt.com/cyber
  • También se incluye la colaboración con socios gubernamentales
    • Se está explorando junto con ellos cómo la IA avanzada puede apoyar a responsables públicos que defienden infraestructura crítica como sistemas digitales para proteger datos tributarios, redes eléctricas y el suministro de agua potable de las comunidades
    Publicidad
  • Las capacidades biológicas/químicas y de ciberseguridad de GPT-5.5 están clasificadas como High dentro del Preparedness Framework
    • Aunque no ha alcanzado un nivel Critical de capacidad de ciberseguridad, las evaluaciones y pruebas confirmaron una capacidad cyber un nivel por encima de GPT-5.4
  • Antes del lanzamiento pasó por todo el proceso de seguridad y gobernanza
    • Incluyó evaluaciones de preparedness, pruebas por dominio, nuevas evaluaciones dirigidas para biology y cybersecurity avanzadas, y pruebas rigurosas con expertos externos
    • Más detalles están disponibles en la GPT-5.5 system card
  • Este enfoque es parte de una estrategia de resiliencia de IA necesaria para la era de modelos más potentes
    • También hay que poner IA poderosa en manos de quienes defienden sistemas, instituciones y al público, y se plantea como camino clave un acceso basado en confianza, salvaguardas que se refuerzan en proporción a la capacidad y una capacidad operativa para detectar y responder a abusos graves

Planes disponibles y precios

  • Actualmente, en ChatGPT y Codex, GPT-5.5 se está desplegando para usuarios Plus, Pro, Business y Enterprise, y GPT-5.5 Pro está disponible en ChatGPT para Pro, Business y Enterprise
  • En ChatGPT, GPT-5.5 Thinking está disponible para Plus, Pro, Business y Enterprise
    • GPT-5.5 Pro apunta a preguntas más difíciles y mayor precisión, y está disponible en Pro, Business y Enterprise
  • En Codex, GPT-5.5 está disponible en los planes Plus, Pro, Business, Enterprise, Edu y Go, y tiene una ventana de contexto de 400K
    • También se ofrece Fast mode, con una velocidad de generación de tokens 1.5 veces mayor y un costo 2.5 veces superior
  • gpt-5.5 para desarrolladores de API estará disponible pronto en Responses API y Chat Completions API
    • Se indica un precio de 5 dólares por cada 1M tokens de entrada, 30 dólares por cada 1M tokens de salida, y una ventana de contexto de 1M
    • Los precios de Batch y Flex se ofrecen a la mitad de la tarifa estándar del API, y Priority processing se ofrece con una tarifa 2.5 veces mayor
  • gpt-5.5-pro también se lanzará en el API y apunta a una mayor precisión
    • Se indica un precio de 30 dólares por cada 1M tokens de entrada y 180 dólares por cada 1M tokens de salida
    • La información completa de precios está enlazada en la pricing page
  • GPT-5.5 es más caro que GPT-5.4, pero también ofrece mayor inteligencia y eficiencia de tokens
    • En Codex, la experiencia se ajustó para que la mayoría de los usuarios obtenga mejores resultados con menos tokens que con GPT-5.4
    • Se seguirá ofreciendo un uso generoso en todos los niveles de suscripción
    Publicidad

Benchmarks detallados

  • Coding

    • En SWE-Bench Pro (Public), GPT-5.5 obtiene 58.6%, GPT-5.4 57.7%, Claude Opus 4.7 64.3% y Gemini 3.1 Pro 54.2%
    • En Terminal-Bench 2.0, GPT-5.5 logra 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4% y Gemini 3.1 Pro 68.5%
    • En Expert-SWE (Internal), se presenta a GPT-5.5 con 73.1% y a GPT-5.4 con 68.5%
  • Trabajo profesional

    • En GDPval (wins or ties), GPT-5.5 obtiene 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3% y Gemini 3.1 Pro 67.3%
    • En FinanceAgent v1.1, GPT-5.5 obtiene 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4% y Gemini 3.1 Pro 59.7%
    • En Investment Banking Modeling Tasks (Internal), GPT-5.5 obtiene 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6% y GPT-5.4 Pro 83.6%
    • En OfficeQA Pro, GPT-5.5 obtiene 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6% y Gemini 3.1 Pro 18.1%
  • Uso de computadora y visión

    • En OSWorld-Verified, GPT-5.5 obtiene 78.7%, GPT-5.4 75.0% y Claude Opus 4.7 78.0%
    • En MMMU Pro (no tools), GPT-5.5 y GPT-5.4 empatan con 81.2%, y Gemini 3.1 Pro obtiene 80.5%
    • En MMMU Pro (with tools), GPT-5.5 obtiene 83.2% y GPT-5.4 82.1%
  • Uso de herramientas

    • En BrowseComp, GPT-5.5 obtiene 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3% y Gemini 3.1 Pro 85.9%
    • En MCP Atlas, GPT-5.5 obtiene 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1% y Gemini 3.1 Pro 78.2%
    • En Toolathlon, GPT-5.5 obtiene 55.6%, GPT-5.4 54.6% y Gemini 3.1 Pro 48.8%
    • En Tau2-bench Telecom, con base en el prompt original, GPT-5.5 obtiene 98.0% y GPT-5.4 92.8%
    • La nota de MCP Atlas indica que son resultados posteriores a la actualización más reciente de abril de 2026 de Scale AI
    • La nota de Tau2-bench Telecom especifica que los resultados fueron evaluados sin prompt adjustment, y que se excluyeron los resultados con prompt adjustment de otros laboratorios
  • Académico

    • En GeneBench, GPT-5.5 obtiene 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2% y GPT-5.4 Pro 25.6%
    • En FrontierMath Tier 1–3, GPT-5.5 obtiene 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8% y Gemini 3.1 Pro 36.9%
    • En FrontierMath Tier 4, GPT-5.5 obtiene 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9% y Gemini 3.1 Pro 16.7%
    • En BixBench, GPT-5.5 obtiene 80.5% y GPT-5.4 74.0%
    • En GPQA Diamond, GPT-5.5 obtiene 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2% y Gemini 3.1 Pro 94.3%
    • En Humanity's Last Exam (no tools), GPT-5.5 obtiene 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9% y Gemini 3.1 Pro 44.4%
    • En Humanity's Last Exam (with tools), GPT-5.5 obtiene 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7% y Gemini 3.1 Pro 51.4%
  • Ciberseguridad

    • En Capture-the-Flags challenge tasks (Internal), GPT-5.5 obtiene 88.1% y GPT-5.4 83.7%
    • En CyberGym, GPT-5.5 obtiene 81.8%, GPT-5.4 79.0% y Claude Opus 4.7 73.1%
    • La nota indica que son resultados que amplían el CTF más difícil descrito en la system card y añaden más desafíos de alta dificultad
  • Contexto largo

    • En Graphwalks BFS 256k f1, GPT-5.5 obtiene 73.7%, GPT-5.4 62.5% y Claude Opus 4.7 76.9%
    • En Graphwalks BFS 1mil f1, GPT-5.5 obtiene 45.4%, GPT-5.4 9.4% y Claude Opus 4.6 41.2%
    • En Graphwalks parents 256k f1, GPT-5.5 obtiene 90.1%, GPT-5.4 82.8% y Claude Opus 4.7 93.6%
    • En Graphwalks parents 1mil f1, GPT-5.5 obtiene 58.5%, GPT-5.4 44.4% y Claude Opus 4.6 72.0%
    • OpenAI MRCR v2 8-needle se presenta por longitud de contexto, con 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5% y 512K-1M 74.0%
    • En el mismo apartado, GPT-5.4 registra respectivamente 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5% y 36.6%
    • En el tramo 128K-256K aparece Claude Opus 4.7 con 59.2%, y en el tramo 512K-1M aparece Claude Opus 4.7 con 32.2%
  • Razonamiento abstracto

    • En ARC-AGI-1 (Verified), GPT-5.5 obtiene 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5% y Gemini 3.1 Pro 98.0%
    • En ARC-AGI-2 (Verified), GPT-5.5 obtiene 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8% y Gemini 3.1 Pro 77.1%
    • Se especifica que las evaluaciones de la familia GPT se realizaron en un entorno de investigación con reasoning effort configurado en xhigh, y que en algunos casos la salida puede diferir ligeramente de la de ChatGPT en producción

1 comentarios

 
GN⁺ 2026-04-24
Opiniones en Hacker News
  • Lo de decir en NVIDIA que perder acceso a GPT-5.5 se siente como perder una extremidad suena mucho más inquietante de lo que probablemente pretendían
    Parece aplicarse a toda esta dependencia de los modelos frontier para programar, y cuanto mejor rinden, más rápido uno empieza a apoyarse en ellos al programar
    Habiéndolo vivido en carne propia, la sensación es bastante incómoda. Ahora mismo, en vez de armarme de paciencia y programar a mano, resolverlo de una sola vez con el modelo es como 10 veces más rápido, y mi papel también cambió
    Que pueda hacer que muchas más cosas funcionen es increíble, pero cuando se acaban los tokens, el trabajo en la práctica también se detiene
    Cuando Claude se cae, me da más apalancamiento salir a caminar que forzarme a escribir código. Si una hora después Claude ya volvió, avanzo más que quedándome atorado con el código que generó el LLM e intentando resolver el problema manualmente hasta agotarme
    En fin, que esta situación siga así me inquieta un poco

    • Se siente como si la teoría del trabajo misma se estuviera dando vuelta por culpa de los LLM
      El mercado hoy se sostiene sobre la idea de que el trabajo está atomizado y tiene poco poder de negociación, mientras que el capital tiene mucho más poder y en la práctica ha fijado el precio del trabajo
      Pero, ¿qué pasa si ese trabajo lo provee otra empresa aún más grande, y además puede cortar ese suministro indefinidamente, a diferencia del trabajo tradicional?
      Ahora el trabajo se volvió otra forma de capital, y el capital no necesita comer
      Las empresas que no usen modelos propios probablemente lo van a aprender por las malas
    • También se puede ver como algo no tan distinto de usar abstracciones de librerías
      Construyes más rápido, escribes menos código tú mismo, y la gestión de estado interno o de memoria la hace la librería por ti
      Habrá quien se sienta incómodo dependiendo de llamadas a librerías en vez de manipular punteros y malloc() directamente, pero para otros es liberador porque les permite enfocarse en arquitectura de más alto nivel sin hundirse en cambios de contexto de bajo nivel
    • Hay una forma intencional de usarlo para no cavar mi tumba demasiado rápido
      A menudo le pido que me haga un CLI autónomo o una herramienta, en lugar de darme una respuesta ya terminada
      También le pregunto cómo llegó a esa conclusión para ampliar mi propia perspectiva, y le hago explicar incluso su forma de clasificar a nivel de metadatos
      Especialmente en codebases grandes, donde la dificultad está menos en el concepto que en el tamaño del grafo de referencias, intento usar esto de una forma que mejore mi capacidad de resolver problemas
    • Si los modelos locales se mantienen a una distancia razonable de los modelos hosteados más recientes, por ejemplo quedándose apenas unos 12 meses atrás, y además el hardware local sigue siendo accesible, entonces el riesgo podría ser limitado
      Porque aunque desaparezcan los modelos hosteados o se vuelvan demasiado caros, solo perderías esa pequeña diferencia de rendimiento
      Claro, ninguna de esas dos suposiciones es para nada obvia, así que más bien es un deseo
    • Pensando en los intereses bursátiles de NVIDIA y OpenAI, tampoco sorprende tanto que digan algo así
      Y honestamente, que todavía se siga repitiendo el lema de la productividad 10x cuesta creerlo
  • El lanzamiento de GPT-5.5 es hoy, pero dicen que la llegada a ChatGPT y Codex se hará de forma gradual durante varias horas
    Por estabilidad del servicio lo van habilitando por etapas como en lanzamientos anteriores, normalmente empezando por Pro/Enterprise y luego bajando a Plus
    Puede que no te aparezca de inmediato, así que recomiendan volver a revisar más tarde
    Esperar al azar puede ser frustrante, pero dicen que lo hacen por estabilidad
    Aclara que trabaja en OpenAI

    • Probé OpenClaw con GPT-5.4 API xhigh, y no había manera de lograr que el modelo hiciera el trabajo
      Quise usarlo como reemplazo después del OAuthgate de Anthropic, pero no lograba completar ni subtareas rápidas, seguras e inofensivas
      La conversación terminaba en un bucle de disculpas del tipo “debí haber hecho X aquí” “cierto, fallé” “entonces hazlo ahora” “debí hacerlo, pero no lo hice”
      Más tarde GLM, Kimi y Minimax lo resolvieron sin problema, lo que lo hizo aún más absurdo, así que no me quedó otra que descartar OpenAI de inmediato
    • Un dashboard público de rollout reduciría muchísimo la confusión
      Mejor aún si la UI mostrara que el modelo existe pero todavía no está habilitado para mi cuenta
      Lo ideal sería hasta tener un ETA, aunque supongo que sería difícil predecirlo si surgen problemas durante el rollout
    • Felicidades por el lanzamiento
      Tengo curiosidad por saber si Images 2.0 también se está habilitando dentro de ChatGPT, o si por un tiempo seguirá siendo una función solo de API/Playground
    • Como usuario Plus, me cuesta animarme a probar Codex sin saber cuánto va a consumir del límite de uso
    • Me pregunto si también saldrá pronto el fine-tuning de GPT-5.5
  • Todavía no hay acceso oficial por API, pero últimamente OpenAI parece estar tolerando de hecho el backdoor de la API de Codex que usa OpenClaw
    https://twitter.com/steipete/status/2046775849769148838 y https://twitter.com/romainhuet/status/2038699202834841962
    Ese backdoor API ya incluye GPT-5.5
    Así que corrí el ejemplo del pelícano en https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    usando el nuevo plugin para LLM https://github.com/simonw/llm-openai-via-codex
    Más tarde subí el reasoning effort a xhigh y salió un pelícano mucho mejor
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • El pelícano con modelo local que publicaste ayer se veía mejor que este
      Aunque bueno, este al menos da risa porque tiene las patas cruzadas
    • Esto honestamente está muy mal
      Ya van por la versión 5.5 y todavía no puede dibujar bien ni un cuadro básico de bicicleta
      La rueda delantera no podría girar hacia un lado de esa forma, y el dibujo no lo refleja bien
    • Que con la configuración por defecto haya usado solo 39 reasoning tokens para lograr eso es bastante sorprendente
      No sé exactamente qué son los reasoning tokens, pero de cualquier forma el número de tokens se ve impactantemente bajo
    • Me pregunto si este tipo de uso directo de la API está permitido según los términos
      Recuerdo que a Anthropic le molestaba muchísimo este tipo de uso
    • Me intriga por qué dibuja mucho peor que otras cosas publicadas recientemente
      Incluso modelos locales open weight como Qwen que mostraron ayer se veían mejor
  • Todos estaban hablando del gating de Mythos de Anthropic y del marketing del 83% en CyberGym, pero OpenAI simplemente soltó GPT-5.5 y marcó 82%
    Que cualquiera pueda probarlo importa mucho más
    Si trabajas en ciberseguridad ofensiva/defensiva, me parece más útil ponerle las manos encima a un modelo realmente publicado que quedarse con marketing inflado
    Nunca pensé decir esto, pero ahora OpenAI vuelve a verse como la opción más abierta

    • El verdadero hype fue cuando todos se dieron cuenta de que apenas Anthropic anunciara Mythos, OpenAI iba a sacar un competidor en cuestión de semanas y Sam ni siquiera iba a bloquear el acceso
      Por eso el sector de seguridad entró en pánico: sentían que quedaban apenas unas dos semanas para contener nuevos zero-days, y que después podía abrirse una temporada abierta en la que los black hats encontrarían y explotarían un montón
    • Comparado con Anthropic, OpenAI siempre fue más abierto
      Anthropic nunca ha publicado un modelo abierto, nunca liberó voluntariamente el código fuente de Claude Code, ni tampoco su tokenizer
    • Da la impresión de que OpenAI se enoja si le haces preguntas de ciberseguridad, te pide subir una identificación oficial del gobierno y, si no lo haces, te enruta silenciosamente a un modelo peor
      La documentación incluso dice que las tareas de ciberseguridad pueden hacer fallback a GPT-5.2 si las detecta el sistema automático
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • Yo ignoro por completo las noticias de hype
      Anthropic me parece casi la encarnación del bluff
      Después de leer a Cialdini hace tiempo, todo el montaje al estilo Anthropic me aburre
      En cambio OpenAI es muy astuto. Cuando Claude despegó, desapareció un tiempo de los titulares, pero ahora, gracias a su enorme base de usuarios, le basta con seguir el ritmo de lanzamientos de Anthropic para hacer que el otro se vea ridículo
      Desde la perspectiva de Anthropic, cada nueva versión de GPT que sale debe sentirse más humillante, y da la impresión de que OpenAI va a terminar dominándolo todo
    • También me da la impresión de que OpenAI redirige las preguntas de ciberseguridad a un modelo más tonto
  • Ojalá vieran la sección de precios/límites de uso de esta página
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    Basta con ver la diferencia de Local Messages entre 5.3, 5.4 y 5.5
    Leí el argumento de que 5.5 es más eficiente y por eso queda cerca del punto de equilibrio con 5.4, pero en cualquier caso la tendencia parece clara: límites más duros y precios más altos

    • En API, el precio de GPT-5.5 es el doble que GPT-5.4, cerca de 4 veces GPT-5.1 y unas 10 veces Kimi-2.6
      La lección que aparentemente sacaron del caso Anthropic es que los desarrolladores se vuelven dependientes, incluso adictos, a los agentes de programación muy rápido, así que están dispuestos a pagar lo que sea por mejoras aunque sean pequeñas
  • El prototipo de arena de mazmorra 3D hecho con Codex y GPT se ve bastante convincente
    Dicen que Codex se encargó de la arquitectura del juego, la implementación en TypeScript/Three.js, el sistema de combate, los encuentros con enemigos y el feedback del HUD, mientras que GPT generó las texturas del entorno y los modelos y animaciones de los personajes salieron de herramientas externas de generación de assets
    Probablemente parte de por qué se ve bien es que la malla no la hizo GPT-5.5 directamente, sino otra herramienta separada
    Viendo esto, parece que se viene una era parecida a la de Flash, donde gamers y desarrolladores aficionados pueden crear rápido conceptos de juego y publicarlos enseguida en la web
    Especialmente con Three.js, que ni siquiera es un motor de juegos pero da la impresión de estar volviéndose una herramienta casi central para diseñarlos con IA

    • Llevo 3 años probando Three.js con IA de forma constante, y con 5.4 sentí un salto especialmente grande
      Solo en el caso de Three.js, fue el mayor salto generacional individual que he visto, especialmente en shaders GLSL, y también mejoró la estructuración de escenas divididas en varias páginas/componentes
      Todavía es difícil generar un shader completo desde cero, pero ya es bastante útil para modificar shaders existentes
      En 5.2 o menos era realmente malo para el patrón one canvas, multiple page, donde mantienes un solo canvas de fondo a través de varias rutas, pero 5.4, aunque todavía necesita algo de guía, responde mucho mejor a prompts de refactorización y optimización
      Tengo ganas de probar qué tal sale 5.5 en la práctica
    • La era tipo Flash ya llegó desde hace rato; el cuello de botella siempre fue la creatividad
    • He recibido mucha ayuda de LLM en juegos y proyectos basados en Three.js, con buenos resultados
      Mi visualización rara de reloj también dependió bastante de eso
      No es un motor de juegos, pero para hacer 3D WebGL en la web es prácticamente el estándar, y por los años que lleva existe una enorme cantidad de datos de entrenamiento
      Antes de los LLM dependía más de Babylon.js, que tiene funciones de nivel más alto
    • Un conocido está haciendo Jamboree
      Antes se llamaba Spielwerk y es una app para crear y compartir juegos en iOS
      Todo está basado en web, así que compartirlo es fácil
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • Los LLM todavía no pueden hacer razonamiento espacial
      No he probado GPT, pero con Claude, por más prompt engineering que le hice, no pudo resolver un cubo de Rubik, y hasta Opus 4.6 solo acertó más o menos el 70% del rompecabezas antes de trabarse
      Además cuesta unos 20 dólares por intento, así que tampoco es sostenible
      Si se lograra un razonamiento tridimensional de verdad, probablemente se podría extender el mismo enfoque a problemas matemáticos que hoy no se pueden resolver
      Estoy pensando en publicar mi servidor MCP de Rubik's Cube para retar a la gente a ver si alguien logra resolver el cubo solo con prompts
  • De este anuncio, más que los benchmarks, me pareció más interesante la parte donde dicen que Codex analizó varias semanas de patrones reales de tráfico, elevó la utilización de GPU y escribió algoritmos heurísticos personalizados para dividir y balancear trabajo, logrando aumentar la velocidad de generación de tokens en más de 20%
    Este tipo de optimización de eficiencia computacional por parte de LLM agénticos parece tener muchísimo impacto, pero se prueba menos que los benchmarks
    Por mi experiencia, en esto Opus todavía va mejor que GPT/Codex, pero como OpenAI está obteniendo beneficios reales maximizando rendimiento bajo presión de costos y capacidad, imagino que van a seguir empujando en esa dirección

    • Estaba haciendo procesamiento de datos de alto rendimiento en Rust y me topé con una barrera donde necesitaba mejorar más de 100x
      Me acordé de aquella famosa optimización de código golf de Intel para FizzBuzz, así que le pasé mi código a gemini pro y le pedí “sugiéreme optimizaciones ingeniosas de ese estilo”, y las propuestas fueron realmente excelentes
      Los LLM siguen sorprendiéndome todos los días
    • Ya existe KernelBench para evaluar optimización de kernels CUDA
      Y además todas las empresas saben que optimizar su propia infraestructura y sus modelos es una vía clave para ganar la competencia, así que asumo que esto se lo están tomando muy en serio
    • El problema con afirmaciones como esta es que son demasiado empíricas y difíciles de reproducir
      Me alegra que se salga de benchmarks tradicionales como MMLU, pero dar cifras así sin experimentos con controles adecuados no ayuda demasiado
  • Si comparas Mythos vs GPT-5.5 por números, la diferencia sigue siendo grande en SWE-bench Pro, pero en lo demás se ven bastante parejos
    SWE-bench Pro 77.8% vs 58.6%
    Terminal-bench-2.0 82.0% vs 82.7%
    GPQA Diamond 94.6% vs 93.6%
    H. Last Exam 56.8% vs 41.4%
    H. Last Exam (tools) 64.7% vs 52.2%
    BrowseComp 86.9% vs 84.4%, Pro 90.1%
    OSWorld-Verified 79.6% vs 78.7%
    La fuente de los números de Mythos es https://www.anthropic.com/glasswing

    • Mythos solo importa cuando realmente se puede usar
      Si pruebas Opus 4.7 ahora mismo, la autonomía se siente fuertemente nerfeada y muy restringida por la llamada seguridad
      Así que no tengo mucha confianza en que sea tan impresionante en la práctica como lo vende Anthropic
    • Según la página de lanzamiento de Anthropic, el equipo de Claude confirmó memorización de SWE-bench, y que el test efectivamente estaba en los datos de entrenamiento
      Está aquí
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • Estuve mirando un poco SWE-bench Verified, y los números de Mythos dejan varias dudas
      Si tomas los envíos oficiales en https://github.com/SWE-bench/experiments/tree/main/evaluatio... y sumas solo modelos desde Sonnet 4 en adelante sobre el total de 500 problemas, la tasa de resolución combinada de todos los modelos daba exactamente 93%
      Entonces, que Mythos haya marcado 93.7% implicaría que resolvió problemas que ningún otro modelo pudo resolver, y al revisar esos problemas la cosa se veía todavía más sospechosa
      El 7% restante parecía prácticamente imposible de resolver sin haber visto de antemano el patch de prueba, y la solución real se desviaba tanto del enunciado que daba la impresión de estar resolviendo otro problema por completo
      No estoy diciendo que Mythos haya hecho trampa, pero sí que quizá recuerda demasiado bien distintos estados del repositorio y es capaz de inferir el verdadero enunciado del problema solo a partir de diffs memorizados internamente
      De otro modo cuesta explicar cómo interpreta con tanta precisión descripciones tan ambiguas
    • Un benchmark único no significa nada
      En todos los benchmarks siempre terminan saliendo resultados raros
  • Sigue decepcionándome que todavía tenga una tasa de alucinación del 86%
    En comparación, Opus anda por 36%
    La fuente es https://artificialanalysis.ai/models?omniscience=omniscience...

    • Que Grok esté en 17% y sea el más bajo, mientras la mayoría de modelos está por encima de 80%, se siente rarísimo
      Según la pregunta, la alucinación a veces parece estar más cerca del 100%, así que este benchmark no resulta intuitivamente muy convincente
    • Aquí hay algo raro; no parece creíble que Haiku salga tan bien parado
    • Esto se lee como una señal de que las empresas quieren ese comportamiento
      Es probable que quien pregunta no entienda del todo el problema, así que parece preferir una respuesta segura y confiada sin importar el resultado
      El objetivo parecería ser vender una impresión de competencia más que la capacidad real de la tecnología
      Los LLM pueden terminar arruinando un producto, pero si la máquina de pensar de un multimillonario puede reemplazar empleados y te dicen que gastes ahí el 75% del presupuesto laboral, pues allá ellos si quieren que los estafen con gusto
  • Este modelo es muy fuerte para tareas de largo plazo, y ahora Codex incluso tiene heartbeats para poder seguir revisando su estado
    Dice que si le das un problema difícil que tarde horas, con restricciones verificables, ahí se nota lo bueno que es
    Aclara que trabaja en OpenAI

    • Suena a muy buena función y tengo ganas de probarla pronto
      Últimamente estoy cansado de que otros modelos, sobre todo Opus, se queden parados a media tarea
    • En evaluaciones internas de Canva, GPT-5.5 resolvió muchos desafíos frontier de tareas largas, y en varios casos fue el primer modelo de IA que probamos en lograrlo
      Felicidades por el lanzamiento
    • Haría falta explicar qué son exactamente los heartbeats