5 puntos por GN⁺ 4 일 전 | 2 comentarios | Compartir por WhatsApp
  • GPT-5.5 es el modelo más reciente agregado a Chat Completions API y Responses API, y GPT-5.5 pro también se añadió a las solicitudes de Responses API para problemas difíciles donde contar con más cómputo resulta ventajoso
  • Ofrece amplio soporte para ventana de contexto de 1 millón de tokens, entrada de imágenes, salidas estructuradas, llamadas a funciones, prompt caching, Batch, tool search, computer use integrado, hosted shell, apply patch, Skills, MCP y búsqueda web
  • El valor predeterminado de reasoning effort se estableció en medium, y cuando image_detail no está configurado o está en auto, se mantiene el comportamiento anterior
  • El caching de GPT-5.5 solo funciona con extended prompt caching y no admite in-memory prompt caching
  • La reciente serie de cambios en la API ya va más allá de los lanzamientos de modelos y se extiende a image, audio, realtime, video y herramientas para agents; la familia GPT-5.5 se ubica entre las incorporaciones principales más recientes

Registro de cambios

Abril de 2026

  • 24 de abril

    • Se lanzó GPT-5.5 en Chat Completions API y Responses API, y también se agregó GPT-5.5 pro a las solicitudes de Responses API para problemas difíciles donde más cómputo resulta ventajoso
    • GPT-5.5 admite una ventana de contexto de 1 millón de tokens, entrada de imágenes, salidas estructuradas, llamadas a funciones, prompt caching, Batch, tool search, computer use integrado, hosted shell, apply patch, Skills, MCP y búsqueda web
    • Como cambio principal, el valor predeterminado de reasoning effort se estableció en medium
    • Cuando image_detail no está configurado o está en auto, se usa el comportamiento anterior
    • El caching de GPT-5.5 solo funciona con extended prompt caching y no admite in-memory prompt caching
  • 21 de abril

    • Se lanzó GPT Image 2 como el modelo de generación de imágenes más reciente para creación y edición de imágenes
    • GPT Image 2 incluye tamaños de imagen flexibles, entrada de imágenes de alta fidelidad, cobro de imágenes basado en tokens y soporte para Batch API con 50% de descuento
  • 15 de abril

    • Se agregaron nuevas funciones a Agents SDK
      • Es posible ejecutar agents en un sandbox controlado
      • Se puede inspeccionar y personalizar el harness de código abierto
      • Se puede controlar cuándo se crea la memory y dónde se almacena

Marzo de 2026

  • 17 de marzo

    • Se lanzaron GPT-5.4 mini y GPT-5.4 nano en Chat Completions API y Responses API
    • GPT-5.4 mini ofrece rendimiento de nivel GPT-5.4 en una forma más rápida y eficiente, orientada a cargas de trabajo de alto volumen
    • GPT-5.4 nano está optimizado para tareas simples de gran volumen donde la velocidad y el costo son lo más importante
    • GPT-5.4 mini admite tool search, computer use integrado y compaction
    • GPT-5.4 nano admite compaction, pero no tool search ni computer use
  • 16 de marzo

    • El slug gpt-5.3-chat-latest se actualizó para apuntar al modelo más reciente que usa actualmente ChatGPT
  • 13 de marzo

    • Se actualizó el codificador de imágenes para corregir un pequeño bug que ocurría en la entrada input_image de GPT-5.4
    • Esto puede mejorar la calidad en algunos casos de uso de comprensión de imágenes
    • No se requiere ninguna acción adicional
  • 12 de marzo

    • Se amplió la Sora API para agregar character reference reutilizable, generaciones más largas de hasta 20 segundos, salida 1080p para sora-2-pro, video extension y soporte de Batch API para POST /v1/videos
    • La generación en 1080p de sora-2-pro se cobra a $0.70 por segundo
    • Más detalles: video generation guide
  • Actualización del 12 de marzo

    • Se agregó POST /v1/videos/edits para editar videos existentes
    • POST /v1/videos/{video_id}/remix es la ruta que esto reemplaza y su soporte se descontinuará en 6 meses
    • Más detalles: edit existing videos
  • 5 de marzo

    • Se lanzó GPT-5.4 en Chat Completions API y Responses API, y se agregó GPT-5.4 pro a Responses API para problemas difíciles donde más cómputo resulta ventajoso
    • Junto con esto se lanzó tool search para Responses API, lo que permite que el modelo posponga una surface grande de tools hasta el tiempo de ejecución para reducir el uso de tokens, preservar el rendimiento del caché y mejorar la latencia
    • Se agregó a GPT-5.4 soporte para computer use integrado mediante la herramienta computer de Responses API, lo que permite interacción de UI basada en capturas de pantalla
    • Para flujos de trabajo de agents de mayor duración, ofrece una ventana de contexto de 1 millón de tokens y soporte nativo para Compaction
  • 3 de marzo

    • Se lanzó gpt-5.3-chat-latest en Chat Completions API y Responses API
    • Este modelo apunta al snapshot GPT-5.3 Instant que actualmente usa ChatGPT
    • Más detalles: gpt-5.3-chat-latest

Febrero de 2026

  • 24 de febrero

    • Se amplió el alcance del soporte de input_file para poder recibir más formatos de archivos de documentos, presentaciones, hojas de cálculo, código y texto
    • Más detalles: file inputs
  • 24 de febrero Responses API

    • Se agregó phase a la Responses API
    • Los mensajes del assistant ahora se etiquetan distinguiendo entre la explicación intermedia commentary y la respuesta final final_answer
    • Más detalles: phase
  • 24 de febrero gpt-5.3-codex

    • Se lanzó gpt-5.3-codex en la Responses API
    • Más detalles: gpt-5.3-codex
  • 23 de febrero

    • Se incorporó WebSocket mode a la Responses API
    • Más detalles: websocket mode
  • 23 de febrero modelos de audio y en tiempo real

    • Se lanzó gpt-realtime-1.5 en la Realtime API
    • Se lanzó gpt-audio-1.5 en la Chat Completions API
  • 10 de febrero GPT Image Batch

    • La Batch API ahora es compatible con gpt-image-1.5, chatgpt-image-latest, gpt-image-1 y gpt-image-1-mini
  • 10 de febrero gpt-5.2-chat-latest

    • El slug de gpt-5.2-chat-latest se actualizó para apuntar al modelo más reciente que usa actualmente ChatGPT
  • 10 de febrero compaction

  • 10 de febrero Skills

    • Se incorporó soporte para Skills en la Responses API
    • Skills es compatible tanto con ejecución local como con ejecución basada en hosted container
  • 10 de febrero Hosted Shell

    • Se introdujo la nueva herramienta Hosted Shell y también se agregó soporte de red dentro del contenedor
  • 9 de febrero

    • Se agregó soporte para solicitudes application/json a /v1/images/edits del modelo GPT image
    • Las solicitudes JSON usan referencias image_url o file_id para images y mask opcional en lugar de multipart upload
  • 3 de febrero

    • Se optimizó la pila de inferencia para clientes de API, haciendo que GPT-5.2 y GPT-5.2-Codex se ejecuten aproximadamente un 40% más rápido
    • El modelo y los pesos del modelo no cambian

Enero de 2026

  • 15 de enero

    • Se anunció Open Responses
    • Es una especificación open source para una interfaz de LLM interoperable y multiproveedor construida sobre la Responses API de OpenAI
  • 14 de enero

    • Se lanzó gpt-5.2-codex en la Responses API
    • GPT-5.2-Codex es una variante de GPT-5.2 optimizada para tareas de codificación agentic en Codex o entornos similares
    • Más detalles: gpt-5.2-codex
  • 13 de enero Realtime SIP

    • Se agregó un rango de IP de SIP dedicado a la Realtime API
    • sip.api.openai.com realiza enrutamiento GeoIP y envía el tráfico SIP a la región más cercana
    • Más detalles: dedicated SIP IP ranges
  • 13 de enero actualización de slugs de modelos

    • Los slugs de gpt-realtime-mini y gpt-audio-mini se actualizaron para apuntar al snapshot 2025-12-15
    • Si necesitas snapshots de modelos anteriores, puedes usar gpt-realtime-mini-2025-10-06 y gpt-audio-mini-2025-10-06
    • El slug de sora-2 se actualizó para apuntar a sora-2-2025-12-08
    • Si necesitas el snapshot anterior de sora-2, puedes usar sora-2-2025-10-06
    • Los slugs de gpt-4o-mini-tts y gpt-4o-mini-transcribe se actualizaron para apuntar al snapshot 2025-12-15
    • Si necesitas snapshots de modelos anteriores, puedes usar gpt-4o-mini-tts-2025-03-20 y gpt-4o-mini-transcribe-2025-03-20
    • Actualmente, para obtener los mejores resultados, se recomienda usar gpt-4o-mini-transcribe en lugar de gpt-4o-transcribe
  • 9 de enero

    • Se corrigió un problema en /v1/images/edits donde gpt-image-1.5 y chatgpt-image-latest usaban por error high fidelity incluso cuando fidelity se configuraba explícitamente en low

Diciembre de 2025

  • 19 de diciembre

    • Se agregan gpt-image-1.5 y chatgpt-image-latest a la herramienta de generación de imágenes de la Responses API
  • 16 de diciembre

  • 15 de diciembre

    • Se lanzan cuatro nuevos snapshots de audio con fecha
    • Esta actualización mejora la confiabilidad, la calidad y la fidelidad de voz de las aplicaciones en tiempo real basadas en voz
    • Más información: updates audio models
    • gpt-realtime-mini-2025-12-15
    • gpt-audio-mini-2025-12-15
    • gpt-4o-mini-transcribe-2025-12-15
    • gpt-4o-mini-tts-2025-12-15
    • Este lanzamiento también incluye soporte para Custom voices para clientes elegibles
  • 11 de diciembre GPT-5.2

    • Se lanza GPT-5.2 como el modelo flagship más reciente de la familia GPT-5
    • Frente a GPT-5.1, mejora la inteligencia general, el seguimiento de instrucciones, la precisión y la eficiencia de tokens, la multimodalidad especialmente en visión, la generación de código especialmente de UI frontend, el tool calling y la gestión de contexto en la API, y la comprensión y generación de hojas de cálculo
    • Se agregan el nivel de reasoning effort xhigh, un reasoning summary conciso y una nueva gestión de contexto con compaction
  • 11 de diciembre client-side compaction

    • Se lanza client-side compaction
    • En conversaciones de larga duración de la Responses API, se puede reducir el contexto enviado en cada turno con el endpoint /responses/compact
  • 4 de diciembre

    • Se lanza gpt-5.1-codex-max en la Responses API
    • GPT-5.1-Codex es el modelo de codificación más inteligente, optimizado para tareas de agentic coding de horizonte largo
    • Más información: gpt-5.1-codex-max

Noviembre de 2025

  • 20 de noviembre

    • Se agrega soporte para entrada de teclas DTMF en la Realtime API
    • Se pueden recibir eventos DTMF mientras se usa una conexión sideband de Realtime
    • Más información: dtmf_event_received
  • 13 de noviembre GPT-5.1

    • Se lanza GPT-5.1 como el modelo flagship más reciente de la familia GPT-5
    • Fue entrenado para destacar especialmente en steerability, respuestas más rápidas en situaciones que requieren menos pensamiento, generación de código y casos de uso de programación, y workflows agénticos
    • GPT-5.1 usa por defecto la nueva configuración de reasoning none para responder más rápido en situaciones que requieren menos pensamiento
    • Este valor predeterminado es distinto del valor anterior medium de GPT-5
  • 13 de noviembre RBAC

  • 13 de noviembre GPT-5.1-Codex

    • Se lanzan gpt-5.1-codex y gpt-5.1-codex-mini en la Responses API
    • GPT-5.1-Codex es una variante de GPT-5.1 optimizada para tareas de agentic coding en Codex o entornos similares
    • Más información: gpt-5.1-codex
  • 13 de noviembre extended prompt caching

    • Se lanza extended prompt cache retention
    • Mantiene activo el prefijo en caché por más tiempo, hasta 24 horas
    • Cuando la memoria se llena, descarga los tensores key/value al almacenamiento local de la GPU para aumentar considerablemente la capacidad de almacenamiento disponible para caché

Octubre de 2025

Septiembre de 2025

  • 26 de septiembre

    • Se agregó soporte para imágenes y archivos en tool call output de la Responses API
  • 23 de septiembre

    • Se lanzó gpt-5-codex como modelo de propósito especial
    • Fue construido y optimizado para el uso de Codex CLI

Agosto de 2025

  • 28 de agosto

  • 21 de agosto

    • Se agregó soporte para connectors en la Responses API
    • Un connector es un wrapper de MCP mantenido por OpenAI para servicios populares como apps de Google y Dropbox, y puede usarse para dar al modelo acceso de lectura a los datos almacenados en esos servicios
  • 20 de agosto

    • Se lanzó la Conversations API
    • Junto con la Responses API, permite crear y administrar conversaciones de larga duración
    • La forma de migrar de una integración de Assistants API a Responses y Conversations, junto con una comparación lado a lado, puede consultarse en la migration guide
  • 7 de agosto

    • Se lanzaron en la API los modelos de la familia GPT-5 gpt-5, gpt-5-mini, gpt-5-nano
    • Se introdujo el valor minimal de reasoning effort para optimizar respuestas rápidas en los modelos GPT-5 con soporte de reasoning
    • Se introdujo el tipo de tool call custom, que permite entradas y salidas de formato libre

Junio de 2025

  • 27 de junio

    • Se lanzó soporte para Priority processing
    • Ofrece una latencia mucho menor y más consistente que Standard processing, manteniendo la flexibilidad de pago por uso
  • 24 de junio

  • 13 de junio

    • Los nuevos reusable prompts ahora pueden usarse en el Dashboard y en la Responses API
    • En la API, el parámetro prompt puede referenciar plantillas creadas en el Dashboard y puede enviarse junto con el id del prompt, una version opcional y variables dinámicas que pueden incluir entradas de texto, imagen y archivo
    • reusable prompts no se pueden usar en Chat Completions
    • Más información: reusable prompts
  • 10 de junio

    • Se lanzó o3-pro en la Responses API y la Batch API
    • Usa más cómputo que el modelo de razonamiento o3 para responder problemas difíciles con mejor razonamiento y consistencia
    • Se redujo el precio del modelo o3 en todas las solicitudes de API, incluyendo batch y flex processing
  • 4 de junio

  • 3 de junio

Mayo de 2025

  • 20 de mayo herramientas integradas

  • 20 de mayo schema

    • En la Responses API y la Chat Completions API, ahora se puede usar el modo strict en el schema de tools durante parallel tool calling con modelos no fine-tuned
    • También se añadieron nuevas schema features, incluyendo validación de cadenas para email y otros patrones, además de rangos para números y arreglos
  • 15 de mayo

  • 7 de mayo

Abril de 2025

  • 30 de abril

  • 23 de abril

    • Se añadió el modelo de generación de imágenes gpt-image-1
    • Este modelo mejora la calidad y el instruction following, y establece un nuevo estándar para la generación de imágenes
    • Los endpoints de Image Generation y Edit también se actualizaron para admitir nuevos parámetros exclusivos de gpt-image-1
  • 16 de abril

    • Se añadieron o3 y o4-mini, dos modelos de razonamiento de la serie o, a la Chat Completions API y la Responses API
    • Establecen un nuevo estándar en matemáticas, ciencia, programación, tareas de razonamiento visual y redacción de documentación técnica
    • También se lanzó Codex, una herramienta CLI para generación de código
  • 14 de abril

    • Se añadieron gpt-4.1, gpt-4.1-mini y gpt-4.1-nano a la API
    • Ofrecen instruction following, programación y una ventana de contexto más grande de hasta 1 millón de tokens
    • gpt-4.1 y gpt-4.1-mini permiten supervised fine-tuning
    • También se anunció la deprecación de gpt-4.5-preview

Marzo de 2025

  • 20 de marzo

    • Se agregaron los modelos gpt-4o-mini-tts, gpt-4o-transcribe, gpt-4o-mini-transcribe y whisper-1 a la Audio API
  • 19 de marzo

    • Se lanzó o1-pro en la Responses API y la Batch API
    • Fue diseñado para usar más cómputo que el modelo de razonamiento o1, para responder problemas difíciles con mejor razonamiento y mayor consistencia
  • 11 de marzo

    • Se lanzaron varios modelos y herramientas nuevas, además de una nueva API, para workflows agentic
    • Se lanzó la Responses API para crear y usar agentes y herramientas
    • Se lanzaron web search, file search y computer use como conjunto de herramientas integradas para la Responses API
    • Se lanzó Agents SDK, un framework de orquestación para diseñar, construir e implementar agentes
    • Se anunciaron los modelos gpt-4o-search-preview, gpt-4o-mini-search-preview y computer-use-preview
    • Se informó el plan de mover todas las funciones de la Assistants API a la Responses API, que es más fácil de usar, y se indicó que Assistants dejará de estar disponible en 2026 tras alcanzar paridad funcional completa
  • 3 de marzo

    • Se agregó soporte para el campo metadata en los trabajos de fine-tuning

Febrero de 2025

  • 27 de febrero

    • Se lanzó GPT-4.5 como research preview en la Chat Completions API, la Assistants API y la Batch API
    • GPT-4.5 se presenta como el modelo de chat más grande y con mejor rendimiento, y es más fuerte en trabajo creativo y agentic planning gracias a su alto EQ y comprensión de la intención del usuario
  • 25 de febrero

    • Se lanzó la API Usage Dashboard Update
    • Refleja solicitudes de filtros de datos adicionales, como selección de proyecto, selector de fechas e intervalos de tiempo granulares
    • Permite ver mejor el uso en distintos productos y niveles de servicio
  • 5 de febrero

    • Se introdujo la residencia de datos en Europa
    • Más detalles: your data

Enero de 2025

  • 31 de enero

    • Se lanzó o3-mini como un modelo pequeño de razonamiento
    • Está optimizado para tareas de ciencia, matemáticas y programación
  • 21 de enero

    • Se amplió el acceso al o1 model
    • Los modelos de la familia o1 fueron entrenados con aprendizaje por refuerzo para realizar razonamiento complejo

Diciembre de 2024

Noviembre de 2024

  • 20 de noviembre

    • Se lanzó gpt-4o-2024-11-20 en v1/chat/completions
    • Es el modelo más reciente de la familia gpt-4o
  • 4 de noviembre

    • Se lanzó Predicted Outputs
    • Reduce significativamente la latencia de respuesta del modelo en situaciones donde ya se conoce gran parte de la respuesta
    • Se usa especialmente con frecuencia al regenerar documentos y archivos de código con solo cambios menores

Octubre de 2024

  • 30 de octubre

    • Se agregaron cinco nuevos tipos de voz a la Realtime API y a la Chat Completions API
    • Los modelos objetivo son gpt-4o-realtime-preview y gpt-4o-audio-preview, y también se especifica el endpoint v1/chat/completions
  • 17 de octubre

  • 1 de octubre OpenAI DevDay in San Francisco

    • Se presentaron varias funciones en OpenAI DevDay in San Francisco
    • La Realtime API permite crear experiencias rápidas de speech-to-speech en aplicaciones mediante una interfaz WebSockets
    • Model distillation permite afinar un modelo rentable aprovechando la salida de grandes modelos frontier
    • Image fine-tuning permite afinar GPT-4o con imágenes y texto para mejorar capacidades visuales
    • Evals ofrece la ejecución de evaluaciones personalizadas para medir el rendimiento del modelo en tareas específicas
    • Prompt caching ofrece descuentos y tiempos de procesamiento más rápidos para tokens de entrada vistos recientemente
    • Generate in playground permite generar fácilmente prompts, definiciones de funciones y esquemas de salida estructurada con el botón Generate

Septiembre de 2024

  • 26 de septiembre

    • Se presentó el nuevo modelo de moderación omni-moderation-latest
    • Admite imágenes y texto, y en algunas categorías maneja texto e imágenes de forma conjunta
    • Admite dos nuevas categorías de daño solo para texto y también mejora la precisión de las puntuaciones
  • 12 de septiembre

    • Se presentaron o1-preview y o1-mini
    • Ambos modelos son nuevos modelos de lenguaje de gran escala entrenados con aprendizaje por refuerzo y buscan resolver tareas complejas de razonamiento
    • El endpoint aparece como v1/chat/completions

Agosto de 2024

Julio de 2024

  • 24 de julio

    • Se lanzó self-serve SSO configuration
    • Los clientes Enterprise con billing custom y unlimited pueden configurar autenticación adaptada al IDP que prefieran
  • 23 de julio

  • 18 de julio

    • Se presentó GPT-4o mini
    • Se describió como un modelo pequeño de bajo costo para tareas rápidas y ligeras
  • 17 de julio

    • Se lanzó Uploads, lo que permite subir archivos grandes dividiéndolos en varias partes

Junio de 2024

Mayo de 2024

Abril de 2024

Marzo de 2024

Febrero de 2024

Enero de 2024

  • 25 de enero

    • Se presentaron el modelo embedding V3 y un preview actualizado de GPT-4 Turbo
    • Se añadió el parámetro dimensions a Embeddings API

Diciembre de 2023

Noviembre de 2023

Octubre de 2023

2 comentarios

 
ragingwind 3 일 전

Entonces, desde la 5.4, pro ya no ofrece la Chat Completions API.

 
GN⁺ 4 일 전
Opiniones de Hacker News
  • Lo probé enseguida por un tema de producción, y GPT-5.5 hizo algo que Claude no solía hacer
    Después del troubleshooting, hizo que usara una sentencia update, y cuando le dije: "ok, envolvamos esto en una transaction y agreguemos rollback", respondió a la antigua usanza con
    BEGIN TRAN;
    -- put the query here
    commit;
    y nada más
    Hacía tiempo que no tenía que empujar de nuevo a un modelo para que hiciera de verdad lo que le pedí, así que esto me sorprendió bastante
    Entiendo que quiera gastar menos tokens, pero estoy pagando por un modelo de última generación, y molesta que salga con esta flojera
    Solo lo probé porque apareció en el selector de modelos de Cursor

    • Desde gpt-5.3-codex, las últimas 2 o 3 generaciones no se sienten como una gran mejora, sino más bien como que cambiaron varias cosas y crearon otros tradeoffs
    • Puede que lo haya entendido mal, pero me da curiosidad saber cuál fue exactamente el problema
      Si el problema fue que solo puso -- put the query here y no repitió la query, no estoy seguro de que eso sea necesariamente malo
      Si el objetivo real era obtener la query para ejecutar y dijiste "hagámoslo como transaction", entonces es bastante razonable que te dijera que simplemente pongas begin antes
      Si la query era larga, también ahorra tokens, y se parece a cuando sale permission denied y, en vez de reescribir todo el comando, te dicen que le pongas sudo al inicio
      En cambio, si esperabas que el modelo ejecutara realmente la query y respondió en modo "aquí está, ejecútalo tú", entonces sí, eso es claramente flojo y entiendo que saque de onda
    • OpenAI parece ser por fin la primera empresa en alcanzar una inteligencia al nivel de poner al usuario a trabajar
      Da esa impresión de comportamiento emergente
      Bromas aparte, la obsesión de OpenAI con optimizar la inteligencia por token me recuerda a la época anterior al M1, cuando Apple estaba demasiado obsesionada con hacer las MacBook ultradelgadas
      Se siente como perseguir una sola métrica hasta el final y sacrificar todo lo demás
      GPT-5.3+ claramente está entre los modelos más inteligentes, pero a veces es tan flojo que trabajar con él se vuelve desesperante
    • No termino de captar si el ejemplo de arriba es bueno o malo
    • GPT-5.5 sí que rompe todos los benchmarks en una cosa: la confianza que tiene en el usuario
  • Acabo de correrlo con mi benchmark de Wordpress+GravityForms, y hasta en rendimiento quedó en el fondo del leaderboard, con la peor relación costo-beneficio: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Sé que es solo un benchmark, pero no entiendo cómo puede salir tan mal

    • Se siente como si un junior que anda trasteando en el garage en un área donde tiene poca experiencia hubiera armado una prueba floja y luego la llamara benchmark
      Hoy en día el significado de las palabras se deshace demasiado fácil, así que esto pasa seguido
      Incluso foros donde antes había mucha gente haciendo trabajo técnico de verdad ahora se sienten llenos de masas de vibe researchers; cuando se pasa cierto umbral de popularidad, esto suele pasar
      HN todavía parece uno de los últimos bastiones donde queda exploración seria, pero viendo el comentario original, tampoco es inmune del todo
    • En tu benchmark, gemma4-e4b sale 50% mejor que gemma4-26b, y eso suena a que algo está mal
    • En tu benchmark, Opus 4.7 sale muchísimo peor que Sonnet 4.6; incluso si fuera cierto en ese benchmark, no representa el rendimiento general del modelo
    • Hasta viajaste en el tiempo para traer este benchmark
      Este tipo de benchmarking sí me gusta bastante
      Me da curiosidad cómo evaluaste el judge benchmark, y yo también quisiera armar algo parecido por mi cuenta
    • Esto se parece más a un benchmark de qué tan bien hace vibe coding un modelo
      El prompt es extremadamente delgado, pero los criterios de evaluación son muchísimos
  • Los precios por longitud de contexto están así
    Entrada: $5/M hasta 272K, $10/M por encima de eso
    Salida: $30/M hasta 272K, $45/M por encima de eso
    Lectura de caché: $0.50/M hasta 272K, $1/M por encima de eso
    Pasando de 272K, claramente sale más caro que Opus 4.7, y al menos para mi trabajo no me pareció que fuera tan eficiente con los tokens como para compensarlo
    No alcanzó a cubrir esa diferencia de precio
    GPT-5.4 tenía como fortalezas un contexto de 400k y una compaction confiable, pero ambas cosas parecen haber retrocedido un poco
    Aun así, todavía no me animo a afirmar que la confiabilidad de la compaction realmente haya empeorado
    La salida de frontend también sigue tendiendo hacia esa plantilla azulada tan llamativa, llena de tarjetas por todos lados
    Es un estilo que ya se veía sospechosamente desde Horizon Alpha/Beta, antes del lanzamiento de GPT-5; en ese momento la adherencia a la tarea era tan buena que valía la pena tolerar ese gran defecto
    Pero si GPT-5.5 supuestamente es una foundation completamente nueva, sí se siente raro que esa parte siga siendo tan limitada

  • Los resultados del benchmark general de razonamiento para código de GPT 5.5 ya están en https://gertlabs.com/
    Durante las próximas 24 horas seguirán agregando live decision y evals agentic más pesadas, pero ya no parece probable que cambie la posición en el leaderboard
    GPT 5.5 es el modelo público más inteligente, y claramente es más rápido que su predecesor

  • Ayer decían esto

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Pero hoy ya salieron con esto
    Un día sí cuenta como "very soon", pero me da curiosidad qué significaban exactamente esas safeguards y security requirements

    • Cuando dicen que algo se retrasa por safeguards, normalmente solo significa que no tienen capacidad de cómputo completa disponible en este momento
    • GPT-5.5 ya estaba en la API exclusiva de Codex, y además dijeron explícitamente que se podía usar para otras cosas
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      Así que me da la impresión de que ese hecho pudo haber acelerado este lanzamiento
    • Cuesta ver por qué alguien esperaría algo distinto a futuro cuando la persona que ha mentido tan abiertamente sobre temas de seguridad sigue dirigiendo la empresa
      Ya hubo antecedentes

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman no ha sido completamente honesto varias veces sobre qué tan importante es la safety en OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • No sé si solo me pasa a mí, pero en cada noticia como esta siento que OpenAI mueve comentaristas pagados o bots para pegarle a Claude y empujar la idea de que Codex es muchísimo mejor
    Son demasiados, y varias de esas afirmaciones no cuadran si usas Claude todos los días

    • Sí, se siente rarísimo
      Se parece a cómo todo el mundo parece haber olvidado que OpenAI traicionó a la democracia al decidir colaborar con armas autónomas sin supervisión y vigilancia masiva doméstica
    • A mí también me parece bastante obvio
      Al menos empezó a notarse por fuera justo después del hype de Opus 4.6
    • Claro que hacen eso
      Hoy todas las empresas que empujan su producto andan en algo parecido
  • Soy usuario Enterprise y todavía solo me aparece 5.4
    En el anuncio de ayer dijeron que el rollout total tomaría algunas horas, pero OpenAI tiene que mejorar su GTM para manejar mejor las expectativas

    • Acabo de refrescar y ya me sale 5.5
      Qué bueno que lo liberaron rápido
      La próxima vez tendré que quejarme antes
  • Es el segundo modelo que saca 25/25 en mi benchmark
    El primero fue Opus 4.7, y los resultados están aquí: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Más barato que Opus y más lento

  • En la página de la API aparece knowledge cutoff como 2025-12-01, pero si se lo preguntas directamente al modelo responde que es junio de 2024
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • No entiendo por qué este tema sigue saliendo tanto
      Desde hace tiempo, preguntarle al propio modelo por la fecha de cutoff es de las formas menos confiables de comprobarlo
      Incluso pudo haber aprendido cosas como este mismo tipo de comentario
      Basta con preguntarle por algún hecho ocurrido justo antes de 2025-12-01
      Si se puede, mejor del lado de eventos deportivos
    • No sé si de verdad se puede confiar en lo que dice el modelo
      En las páginas de API de modelos anteriores muchas veces también aparecía el cutoff de junio de 2024, así que puede que solo esté repitiendo eso
    • El modelo no sabe su propia cutoff date a menos que se lo digan en el system prompt
      La forma correcta de comprobar el cutoff real es preguntarle por cosas que no existían o no habían ocurrido antes de esa fecha
      Probándolo unas cuantas veces por encima, el cutoff de conocimiento general de 5.5 todavía parece estar más o menos a inicios de 2025
    • Entonces, ¿se podría probar con quién ganó la elección presidencial de EE. UU. de 2024?
  • La combinación GPT 5.5 + Codex está realmente muy bien
    Ya sea para hacer preguntas, armar planes o implementar código, ahora casi se lo dejo sin dudar
    Opus 4.7 me hace seguir verificando todo dos veces
    No sigue bien las instrucciones de CLAUDE.md, alucina bastante, y si no encuentra la respuesta tiende por defecto a inventársela, y eso pesa mucho
    El año pasado, cuando la gente decía que OpenAI se estaba quedando atrás, que era code red, fue cuestión de nada; viendo la situación ahora, todo cambió por completo