5 puntos por GN⁺ 2026-04-26 | 2 comentarios | Compartir por WhatsApp
  • GPT-5.5 fue lanzado en la Chat Completions API y la Responses API, y también se agregó GPT-5.5 pro para solicitudes de la Responses API orientadas a problemas difíciles donde disponer de más cómputo resulta ventajoso
  • GPT-5.5 admite una ventana de contexto de 1 millón de tokens, entrada de imágenes, salidas estructuradas, llamada de funciones, prompt caching, Batch, tool search, computer use integrado, hosted shell, apply patch, Skills, MCP y búsqueda web
  • El valor predeterminado de reasoning effort se estableció en medium, y cuando image_detail no está configurado o está en auto, se mantiene el comportamiento anterior
  • El caché de GPT-5.5 solo funciona en extended prompt caching y no admite in-memory prompt caching: behavioral changes
  • Cambios del 21 de abril
    • Se lanzó GPT Image 2 como el modelo de generación de imágenes más reciente para creación y edición de imágenes
    • GPT Image 2 incluye tamaños de imagen flexibles, entrada de imágenes de alta fidelidad, cobro de imágenes basado en tokens y compatibilidad con Batch API con 50% de descuento

2 comentarios

 
ragingwind 2026-04-26

Entonces, desde la 5.4, pro ya no ofrece la Chat Completions API.

 
GN⁺ 2026-04-26
Opiniones de Hacker News
  • Lo probé enseguida por un tema de producción, y GPT-5.5 hizo algo que Claude no solía hacer
    Después del troubleshooting, hizo que usara una sentencia update, y cuando le dije: "ok, envolvamos esto en una transaction y agreguemos rollback", respondió a la antigua usanza con
    BEGIN TRAN;
    -- put the query here
    commit;
    y nada más
    Hacía tiempo que no tenía que empujar de nuevo a un modelo para que hiciera de verdad lo que le pedí, así que esto me sorprendió bastante
    Entiendo que quiera gastar menos tokens, pero estoy pagando por un modelo de última generación, y molesta que salga con esta flojera
    Solo lo probé porque apareció en el selector de modelos de Cursor

    • Desde gpt-5.3-codex, las últimas 2 o 3 generaciones no se sienten como una gran mejora, sino más bien como que cambiaron varias cosas y crearon otros tradeoffs
    • Puede que lo haya entendido mal, pero me da curiosidad saber cuál fue exactamente el problema
      Si el problema fue que solo puso -- put the query here y no repitió la query, no estoy seguro de que eso sea necesariamente malo
      Si el objetivo real era obtener la query para ejecutar y dijiste "hagámoslo como transaction", entonces es bastante razonable que te dijera que simplemente pongas begin antes
      Si la query era larga, también ahorra tokens, y se parece a cuando sale permission denied y, en vez de reescribir todo el comando, te dicen que le pongas sudo al inicio
      En cambio, si esperabas que el modelo ejecutara realmente la query y respondió en modo "aquí está, ejecútalo tú", entonces sí, eso es claramente flojo y entiendo que saque de onda
    • OpenAI parece ser por fin la primera empresa en alcanzar una inteligencia al nivel de poner al usuario a trabajar
      Da esa impresión de comportamiento emergente
      Bromas aparte, la obsesión de OpenAI con optimizar la inteligencia por token me recuerda a la época anterior al M1, cuando Apple estaba demasiado obsesionada con hacer las MacBook ultradelgadas
      Se siente como perseguir una sola métrica hasta el final y sacrificar todo lo demás
      GPT-5.3+ claramente está entre los modelos más inteligentes, pero a veces es tan flojo que trabajar con él se vuelve desesperante
    • No termino de captar si el ejemplo de arriba es bueno o malo
    • GPT-5.5 sí que rompe todos los benchmarks en una cosa: la confianza que tiene en el usuario
  • Acabo de correrlo con mi benchmark de Wordpress+GravityForms, y hasta en rendimiento quedó en el fondo del leaderboard, con la peor relación costo-beneficio: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Sé que es solo un benchmark, pero no entiendo cómo puede salir tan mal

    • Se siente como si un junior que anda trasteando en el garage en un área donde tiene poca experiencia hubiera armado una prueba floja y luego la llamara benchmark
      Hoy en día el significado de las palabras se deshace demasiado fácil, así que esto pasa seguido
      Incluso foros donde antes había mucha gente haciendo trabajo técnico de verdad ahora se sienten llenos de masas de vibe researchers; cuando se pasa cierto umbral de popularidad, esto suele pasar
      HN todavía parece uno de los últimos bastiones donde queda exploración seria, pero viendo el comentario original, tampoco es inmune del todo
    • En tu benchmark, gemma4-e4b sale 50% mejor que gemma4-26b, y eso suena a que algo está mal
    • En tu benchmark, Opus 4.7 sale muchísimo peor que Sonnet 4.6; incluso si fuera cierto en ese benchmark, no representa el rendimiento general del modelo
    • Hasta viajaste en el tiempo para traer este benchmark
      Este tipo de benchmarking sí me gusta bastante
      Me da curiosidad cómo evaluaste el judge benchmark, y yo también quisiera armar algo parecido por mi cuenta
    • Esto se parece más a un benchmark de qué tan bien hace vibe coding un modelo
      El prompt es extremadamente delgado, pero los criterios de evaluación son muchísimos
  • Los precios por longitud de contexto están así
    Entrada: $5/M hasta 272K, $10/M por encima de eso
    Salida: $30/M hasta 272K, $45/M por encima de eso
    Lectura de caché: $0.50/M hasta 272K, $1/M por encima de eso
    Pasando de 272K, claramente sale más caro que Opus 4.7, y al menos para mi trabajo no me pareció que fuera tan eficiente con los tokens como para compensarlo
    No alcanzó a cubrir esa diferencia de precio
    GPT-5.4 tenía como fortalezas un contexto de 400k y una compaction confiable, pero ambas cosas parecen haber retrocedido un poco
    Aun así, todavía no me animo a afirmar que la confiabilidad de la compaction realmente haya empeorado
    La salida de frontend también sigue tendiendo hacia esa plantilla azulada tan llamativa, llena de tarjetas por todos lados
    Es un estilo que ya se veía sospechosamente desde Horizon Alpha/Beta, antes del lanzamiento de GPT-5; en ese momento la adherencia a la tarea era tan buena que valía la pena tolerar ese gran defecto
    Pero si GPT-5.5 supuestamente es una foundation completamente nueva, sí se siente raro que esa parte siga siendo tan limitada

  • Los resultados del benchmark general de razonamiento para código de GPT 5.5 ya están en https://gertlabs.com/
    Durante las próximas 24 horas seguirán agregando live decision y evals agentic más pesadas, pero ya no parece probable que cambie la posición en el leaderboard
    GPT 5.5 es el modelo público más inteligente, y claramente es más rápido que su predecesor

  • Ayer decían esto

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Pero hoy ya salieron con esto
    Un día sí cuenta como "very soon", pero me da curiosidad qué significaban exactamente esas safeguards y security requirements

    • Cuando dicen que algo se retrasa por safeguards, normalmente solo significa que no tienen capacidad de cómputo completa disponible en este momento
    • GPT-5.5 ya estaba en la API exclusiva de Codex, y además dijeron explícitamente que se podía usar para otras cosas
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      Así que me da la impresión de que ese hecho pudo haber acelerado este lanzamiento
    • Cuesta ver por qué alguien esperaría algo distinto a futuro cuando la persona que ha mentido tan abiertamente sobre temas de seguridad sigue dirigiendo la empresa
      Ya hubo antecedentes

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman no ha sido completamente honesto varias veces sobre qué tan importante es la safety en OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • No sé si solo me pasa a mí, pero en cada noticia como esta siento que OpenAI mueve comentaristas pagados o bots para pegarle a Claude y empujar la idea de que Codex es muchísimo mejor
    Son demasiados, y varias de esas afirmaciones no cuadran si usas Claude todos los días

    • Sí, se siente rarísimo
      Se parece a cómo todo el mundo parece haber olvidado que OpenAI traicionó a la democracia al decidir colaborar con armas autónomas sin supervisión y vigilancia masiva doméstica
    • A mí también me parece bastante obvio
      Al menos empezó a notarse por fuera justo después del hype de Opus 4.6
    • Claro que hacen eso
      Hoy todas las empresas que empujan su producto andan en algo parecido
  • Soy usuario Enterprise y todavía solo me aparece 5.4
    En el anuncio de ayer dijeron que el rollout total tomaría algunas horas, pero OpenAI tiene que mejorar su GTM para manejar mejor las expectativas

    • Acabo de refrescar y ya me sale 5.5
      Qué bueno que lo liberaron rápido
      La próxima vez tendré que quejarme antes
  • Es el segundo modelo que saca 25/25 en mi benchmark
    El primero fue Opus 4.7, y los resultados están aquí: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Más barato que Opus y más lento

  • En la página de la API aparece knowledge cutoff como 2025-12-01, pero si se lo preguntas directamente al modelo responde que es junio de 2024
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • No entiendo por qué este tema sigue saliendo tanto
      Desde hace tiempo, preguntarle al propio modelo por la fecha de cutoff es de las formas menos confiables de comprobarlo
      Incluso pudo haber aprendido cosas como este mismo tipo de comentario
      Basta con preguntarle por algún hecho ocurrido justo antes de 2025-12-01
      Si se puede, mejor del lado de eventos deportivos
    • No sé si de verdad se puede confiar en lo que dice el modelo
      En las páginas de API de modelos anteriores muchas veces también aparecía el cutoff de junio de 2024, así que puede que solo esté repitiendo eso
    • El modelo no sabe su propia cutoff date a menos que se lo digan en el system prompt
      La forma correcta de comprobar el cutoff real es preguntarle por cosas que no existían o no habían ocurrido antes de esa fecha
      Probándolo unas cuantas veces por encima, el cutoff de conocimiento general de 5.5 todavía parece estar más o menos a inicios de 2025
    • Entonces, ¿se podría probar con quién ganó la elección presidencial de EE. UU. de 2024?
  • La combinación GPT 5.5 + Codex está realmente muy bien
    Ya sea para hacer preguntas, armar planes o implementar código, ahora casi se lo dejo sin dudar
    Opus 4.7 me hace seguir verificando todo dos veces
    No sigue bien las instrucciones de CLAUDE.md, alucina bastante, y si no encuentra la respuesta tiende por defecto a inventársela, y eso pesa mucho
    El año pasado, cuando la gente decía que OpenAI se estaba quedando atrás, que era code red, fue cuestión de nada; viendo la situación ahora, todo cambió por completo