Presentación de GPT-5

(openai.com)

14 puntos por GN⁺ 2025-08-08 | 5 comentarios | Compartir por WhatsApp

GPT-5 ofrece un rendimiento que supera a los modelos anteriores en todas las áreas, incluyendo programación, matemáticas, escritura, salud y percepción visual, y es un sistema integrado que combina respuestas rápidas y razonamiento profundo según el contexto
“GPT-5 Thinking” aplica un razonamiento más largo a problemas complejos para mejorar la precisión, y los usuarios del plan Pro pueden aprovechar el máximo nivel de rendimiento con GPT-5 Pro, una versión ampliada
En uso real, redujo de forma importante la tasa de alucinaciones (generación de hechos incorrectos), y mejoró la comprensión multimodal, el seguimiento de instrucciones y la capacidad para realizar tareas complejas conectando herramientas
Se reforzó el soporte para desarrolladores en tareas como generación de UI frontend y depuración a gran escala, y en el área de salud logró la puntuación más alta en HealthBench, actuando como un socio de salud activo
En seguridad, se introdujo el entrenamiento de “safe completion” para reducir rechazos innecesarios, además de incorporar un sistema de defensa multinivel de alto nivel en los ámbitos biológico y químico

Resumen de GPT-5

Sistema integrado

Dentro de un mismo sistema se incluyen un modelo inteligente y eficiente, un modelo de razonamiento profundo (GPT-5 Thinking) y un router en tiempo real que los selecciona según la situación, la complejidad, la necesidad de herramientas y la intención del usuario
Si se supera el límite de uso, las versiones “mini” de cada modelo procesan las consultas restantes
En el futuro, estas funciones se integrarán en un solo modelo

Mejoras en rendimiento y utilidad

Rendimiento muy superior al de GPT-4o en benchmarks generales
Menos alucinaciones, mejor seguimiento de instrucciones y minimización de respuestas complacientes (sycophancy)
Mejoras en tres áreas clave
- Programación: se fortalecieron las capacidades para generar frontends complejos, depurar repositorios de gran escala y crear UI/UX con criterio estético
- Escritura: puede manejar ambigüedad estructural y expresarse con profundidad literaria y ritmo, además de mejorar el apoyo para redactar y editar documentos cotidianos
- Salud: logró la mejor marca en HealthBench y ofrece respuestas seguras y precisas adaptadas al contexto, nivel de conocimiento y región

Resultados de evaluación

Alcanzó SOTA con matemáticas 94.6% (AIME 2025), programación SWE-bench Verified 74.9%, multimodal MMMU 84.2% y salud HealthBench Hard 46.2%
En GPQA, GPT-5 Pro logró la mejor marca con 88.4%
Mejoró de forma notable la capacidad de procesar tareas multimodales, conexión con herramientas y trabajos de múltiples etapas

Razonamiento eficiente

Reduce entre 50~80% el uso de tokens para el mismo nivel de rendimiento
En tareas complejas y de alta dificultad, GPT-5 Thinking reduce claramente la tasa de errores y alucinaciones frente a o3

Mayor confiabilidad y factualidad

En pruebas abiertas de factualidad, la tasa de alucinaciones se redujo 6 veces
Explica con claridad sus límites cuando una tarea es imposible o falta información
La proporción de respuestas sycophantic bajó de 14.5% a menos de 6%

Mejoras de seguridad

El entrenamiento de “safe completion” permite ofrecer respuestas seguras y útiles incluso ante solicitudes con posible riesgo
Se aplicó un sistema de defensa multinivel para escenarios de alto riesgo en biología y química

GPT-5 Pro

Modelo de razonamiento ampliado para las tareas más difíciles
En evaluaciones de expertos, fue preferido un 67.8% por encima de GPT-5 Thinking y redujo 22% los errores clave
Máximo rendimiento en salud, ciencia, matemáticas y programación

Cómo usarlo y acceso

GPT-5 se aplica como modelo predeterminado de ChatGPT y reemplaza modelos anteriores (GPT-4o, o3, etc.)
Es posible forzar el modo de razonamiento escribiendo “think hard about this”
Se desplegará de forma gradual para Plus, Pro, Team y Free, y para Enterprise y Edu una semana después
Los usuarios gratuitos pasan a GPT-5 mini cuando superan el límite

Puntos clave de GPT-5 para desarrolladores

Rendimiento y características

Rendimiento en programación:
- SWE-bench Verified 74.9% (o3: 69.1%), 22% menos uso de tokens, 45% menos llamadas a herramientas
- Aider polyglot 88%, con reducción de un tercio en la tasa de errores al modificar código
- En generación de código frontend, fue preferido 70% frente a o3
Tareas de agentes:
- τ 2-bench telecom 96.7%, con mayor estabilidad en llamadas múltiples y paralelas a herramientas
- Puede mostrar mensajes preliminares para informar visiblemente al usuario sobre el progreso y el plan
Contexto largo:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- Procesa hasta 400 mil tokens de contexto

Nuevas funciones de API

reasoning_effort: ajusta el tiempo de razonamiento en el rango minimal~high
verbosity: establece la longitud predeterminada de la respuesta entre low~high
Herramientas personalizadas: pueden llamarse en texto plano en lugar de JSON y admiten restricciones por expresiones regulares/gramática
Incluye herramientas integradas como llamadas paralelas a herramientas, búsqueda web, búsqueda de archivos y generación de imágenes
Soporta funciones de ahorro de costos como prompt caching y Batch API

Estabilidad y confiabilidad

En los benchmarks LongFact y FactScore, la tasa de alucinaciones se redujo en ~80% frente a o3
Se reforzaron la conciencia de sus propios límites y la capacidad de manejar situaciones inesperadas
Adecuado para tareas de alto riesgo o que requieren precisión (código, datos, toma de decisiones)

Availability & pricing

Tamaños disponibles y endpoints

Tamaños disponibles: gpt-5, gpt-5-mini y gpt-5-nano
Interfaces compatibles: Responses API, Chat Completions API y como valor predeterminado en Codex CLI
Características del modelo: la familia GPT‑5 en la API es un modelo de razonamiento, mientras que el modelo non‑reasoning de ChatGPT se ofrece con un ID separado

Tabla de precios y unidad de cobro

gpt-5: entrada $1.25/millón de tokens, salida $10/millón de tokens
gpt-5-mini: entrada $0.25/millón, salida $2/millón
gpt-5-nano: entrada $0.05/millón, salida $0.40/millón
gpt-5-chat-latest (sin razonamiento): entrada $1.25/millón, salida $10/millón, igual que gpt-5

Resumen de funciones compatibles

Control de razonamiento: en reasoning_effort se puede indicar minimal, low, medium o high para ajustar el equilibrio entre velocidad y precisión
Longitud de respuesta: con verbosity se puede fijar la tendencia base a corta / predeterminada / larga
Tooling: con custom tools se admiten llamadas con argumentos en texto plano y se pueden aplicar restricciones regex/CFG
Funciones de ejecución: soporta llamadas paralelas a herramientas, herramientas integradas (web search, file search, image generation, etc.), streaming y Structured Outputs
Optimización de costos: prompt caching y Batch API ayudan a reducir el costo en tokens y latencia

Canal de despliegue: GPT‑5 se aplica en Microsoft 365 Copilot, Copilot, GitHub Copilot y Azure AI Foundry en general

Ejemplo simple de costos

Al procesar con gpt-5 una carga de 50k de entrada + 5k de salida, el costo total es ≈ $0.1125
- Cálculo: entrada 0.05M × $1.25 = $0.0625, salida 0.005M × $10 = $0.05, total $0.1125
Al procesar la misma tarea con gpt-5-mini, el costo total es ≈ $0.0175
- Entrada 0.05M × $0.25 = $0.0125, salida 0.005M × $2 = $0.01, el total correcto sería $0.0225, pero considerando el precio de salida, la diferencia crece más en cargas donde predomina la entrada
En pipelines con mucho output generativo a gran escala, hay un incentivo importante para elegir modelos con menor costo de salida

Notas guía de selección

Si la precisión es lo más importante y se necesita una cadena compleja de herramientas en un agente backend, conviene considerar gpt-5
Para edición cotidiana de código, agentes ligeros y procesamiento batch a gran escala, gpt-5-mini ofrece un mejor equilibrio entre costo y calidad
Para preprocesamiento, validación de reglas y resúmenes simples con latencia y costo ultrabajos, gpt-5-nano es adecuado

Referencia

Si quieres seguir usando el modelo predeterminado non‑reasoning de ChatGPT, en la API puedes elegir gpt-5-chat-latest
Como las instrucciones explícitas tienen prioridad sobre la longitud por defecto de la respuesta, incluso con verbosity, si se indica una longitud concreta como “ensayo de 5 párrafos”, seguirá esa instrucción

5 comentarios

shakespeares 2025-08-08

Personalmente, me parece que claude-code es mejor para el refactoring.
Cuando le pedí a cursor + GPT5 que hiciera tareas de refactoring como eliminar métodos innecesarios y cosas así, claude-code en cambio los encontraba bien y los eliminaba, mientras que con GPT5 tuve la sensación de que no lograba entender el proyecto en su conjunto.

cgl00 2025-08-08

Se siente que la usabilidad mejoró muchísimo, pero la reacción de que se acercó al AGI, como tanto alborotaban, igual fue una exageración.

laeyoung 2025-08-08

Si vemos solo la parte de programación (SWE-bench), fue 74.9% (thinking), 52.8% (sin thinking), mientras que Claude obtuvo 74.5% (Opus 4.1), 72.5% (Opus 4.0) y 62.3% (Sonnet 3.7).

Si no usas el modo Thinking, queda por debajo de Sonnet, y aun usándolo apenas es un poco mejor que Opus 4.1.

xguru 2025-08-08

Video oficial de anuncio de OpenAI (1 hora 17 minutos) https://www.youtube.com/watch?v=0Uu_VJeVVfo

GN⁺ 2025-08-08

Opiniones en Hacker News

Aunque muchos afirmaban que si una empresa de IA superaba el umbral de la AGI (inteligencia artificial general) se despegaría en solitario, resulta interesante que en la práctica el rendimiento de todos los modelos se está volviendo cada vez más parecido; hoy GPT-5, Claude Opus, Grok 4 y Gemini 2.5 Pro muestran un buen desempeño general, y desde la perspectiva del usuario da la sensación de que la competencia está más reñida que nunca; me gustaría saber qué opinan los investigadores sobre si los servicios de las empresas de IA se parecerán más entre sí o si terminarán diferenciándose
- Vale la pena notar que, por encima de cierto umbral, para el usuario puede volverse difícil distinguir qué modelo es mejor; por ejemplo, igual que un jugador de ajedrez con ELO 1000 tendría problemas para distinguir quién es más fuerte entre Magnus Carlsen y otro gran maestro si jugara contra ambos, este fenómeno de agrupamiento en la evaluación humana podría ser en realidad una ilusión
- La razón por la que se dice que la AGI produciría una singularidad es que podría aprender por sí misma; hoy todavía estamos muy lejos de llegar ahí y, personalmente, creo que es casi nula la probabilidad de que vea AGI durante mi vida; veo una distancia parecida entre los mainframes de los años 70 y los LLM a la que existe hoy entre los LLM y la AGI
- Creo que podría ser directamente imposible simular inteligencia de nivel más alto con un modelo probabilístico de predicción de texto; incluso amigos investigadores en IA no se preocupan por una AGI basada en LLM debido a los límites del aumento de rendimiento frente a más datos (rendimientos decrecientes); la inteligencia humana puede generalizar muy bien con pocos ejemplos, mientras que los LLM sobre todo reproducen respuestas que aparecieron con frecuencia en los datos de entrenamiento; aun así, incluso sin AGI, la tecnología actual de AI/ML/SL puede llegar a un punto en que cambie el mundo, especialmente en áreas como la búsqueda, donde importa reproducir conocimiento amplio
- Antes era pesimista sobre la IA, pero por suerte ahora me inclino en un 70% a pensar que el paradigma tecnológico actual no parece llevar a una extinción por IA en el corto plazo; que la IA actual esté especializada en “imitarnos” y no pueda salir del rango de producción humana promedio es, por ahora, una bendición; aun así, en principio creo que quienes advierten sobre el peligro de la IA tienen argumentos válidos y que debemos tomar la amenaza en serio
- No puedo estar de acuerdo con la idea de que construir una enciclopedia más compleja y darle una interfaz de búsqueda interesante que se sienta humana nos acercará a la AGI; nadie tiene evidencia ni entiende de dónde surge realmente la parte de la inteligencia general (GI); no es más que exageración sin base sólida y fanfarronería para atraer inversión, y considero charlatanes a quienes promocionan la AGI como algo realizable; me sorprende mucho que tantos ingenieros del sector hayan comprado por completo esta lógica, y me hace cuestionar la salud de la industria
Corte de conocimiento de GPT-5: 30 de septiembre de 2024 (unos 10 meses antes del lanzamiento), Gemini 2.5 Pro: enero de 2025 (hace 3 meses), Claude Opus 4.1: marzo de 2025 (hace 4 meses); enlaces relacionados: Comparación de modelos de OpenAI, DeepMind Gemini Pro, Resumen de modelos Claude de Anthropic
- Ahora que existe la búsqueda web, me pregunto si el corte de conocimiento sigue teniendo mucha importancia; más bien podría ser un indicador de cuánto tiempo tomó el post-entrenamiento
- Gemini intenta cubrir el vacío de información posterior al corte de conocimiento con búsquedas web simples en casi todas las consultas
- GPT-5 nano y mini tienen un corte aún más temprano: 30 de mayo de 2024
- Como el modelo puede buscar en la web, no creo que el corte de conocimiento en sí sea tan importante
- Más bien, podría significar que OpenAI no está permitiendo ningún atajo en materia de seguridad
Según la system card de GPT-5, GPT-5 es un sistema integrado que combina varios modelos (para respuestas rápidas, para razonamiento profundo) y un router; durante el chat, el router elige el modelo según prompts como “piensa esto en serio”; por fuera parece un solo sistema, pero en realidad está compuesto por varios submodelos; da la impresión de que adoptaron este enfoque porque entrenar un único modelo gigantesco end-to-end ya se volvió demasiado costoso
- Puede ser una diferencia semántica, pero si los componentes funcionan automáticamente y el usuario solo usa una interfaz, se le puede llamar “sistema integrado”; claro, no es un "modelo integrado"
- Esto vuelve a confirmar una teoría análoga a la 'bitter lesson': dentro de cierto presupuesto, los sistemas especializados diseñados manualmente rinden mucho mejor que un gran sistema generalista
- Según GPT-5 para desarrolladores, en ChatGPT GPT-5 es un sistema que combina varios modelos (de razonamiento, no razonamiento, router, etc.); el GPT-5 de la API ofrece por separado solo el modelo de razonamiento de máximo desempeño; algunos de los modelos no razonadores de ChatGPT se ofrecen como gpt-5-chat-latest y están ajustados con foco en desarrolladores
- Si la dirección correcta es combinar muchos modelos pequeños y especializados, esta estrategia es deseable
- Puede que no sea solo un problema de costos, sino que los datos de entrenamiento utilizables ya se estén agotando, dificultando el aprendizaje efectivo, o que los datos nuevos estén contaminados con contenido generado por IA y ya no sirvan
También hubo errores importantes en benchmarks y las demos no impresionaron tanto como se esperaba, así que incluso en los mercados de apuestas sobre cuál será la mejor IA a fin de año hubo cambios importantes; espero más a Gemini 3.0 o al nuevo modelo de Google, y pienso que en la competencia de LLM podría tener ventaja “el que aparece al final”
- Probé con GPT-5 tareas en las que Opus 4.1 fallaba, y no solo las resolvió, sino que además corrigió errores que había cometido Opus; se siente que es algo serio
- No quiero una situación en la que una empresa monopolista que ya vale billones de dólares termine poseyendo todo el mundo
En pruebas reales se siente como un modelo excelente; al responder preguntas se nota mucho más que en 4.1 u o3 que intenta aprovechar al máximo las tools; por ejemplo, en la primera respuesta hizo nada menos que 6 llamadas a tools para obtener información; ejemplo: Ejemplo de uso de tools
La lógica mostrada en el marketing y en el livestream es autorreferencial, del tipo “es mejor porque es mejor”; todavía falta una explicación clara de por qué GPT-5 necesitaba una actualización mayor de versión; como siempre, será la vibra del resultado en sí lo que determine la confianza en el modelo
- Dicen que ahora “es mejor para programar” porque librerías populares de JS de los últimos 6 meses ya están incluidas en el dataset de entrenamiento más reciente, pero me preocupa si esa forma de mejorar es sostenible
- Hay mucha promoción pero pocos datos/benchmarks reales, así que aunque sea espero impresiones breves de usuarios prácticos como simonw
- He intentado llevar los LLM a sus límites con refactorizaciones complejas de código y similares, pero me cuesta sentir una mejora fundamental de calidad frente a modelos anteriores; a estas alturas parece que la mejora de calidad ya tocó un límite (la zona de desaceleración de la curva S); ofrecer la misma calidad más barato sí es valioso, pero en el uso cotidiano el cambio de calidad no se siente
- La página de lanzamiento de GPT-5 incluye varios resultados de benchmarks (AIME 2025, SWE-bench, etc.); no son resultados particularmente rompedoros
- Ahora da la impresión de que entramos en la era del “quiero el smartphone más nuevo solo porque es el más nuevo”
Según el livestream, la mejora en benchmarks frente a los modelos anteriores es muy pequeña; se entiende que intentaran bajar las expectativas antes del lanzamiento, pero en realidad la mejora fue mucho menor de lo esperado
- Antes del lanzamiento, Sam Altman tuiteó una imagen de la Estrella de la Muerte y eso hizo que subieran las expectativas
- Como las grandes tecnológicas de IA están compitiendo en áreas parecidas sin lograr diferenciarse, parece que OpenAI ahora se enfocará más en optimización de costos y en asistentes para uso cotidiano/empresarial que en una superinteligencia extrema; en cambio, Anthropic y Google tienen más margen en crecimiento y pueden invertir en mayor inteligencia; en conclusión, podría salir un modelo más inteligente en series como la o, pero al final los ingresos y la realidad del mercado imponen límites
- GPT-5 es primero en WebDev Arena, con 75 puntos por encima de Gemini 2.5 Pro y 100 puntos por encima de Claude Opus 4; referencia: Leaderboard de lmarena.ai
- Las demos de código se hicieron casi siempre con GPT-5 MAX sobre Cursor, y la mayoría de los usuarios no podrá usar ese modo MAX con frecuencia; habría sido bueno que también hicieran demostraciones con la versión normal
- Recuerdo que hace 2 años Sam dijo que elegirían un progreso gradual en lugar de anuncios impactantes de una sola vez; apenas es el día 1, así que todavía puede haber margen para 10~20% de optimización adicional en los próximos meses
Me confunde cuál es el eje y de este material de presentación Polémica sobre el gráfico relacionado
- Desde el primer gráfico de toda la presentación se ve descuidado y demasiado improvisado; también habría sido mejor incluir una comparación con Opus 4.1; por cierto, la puntuación de Opus 4.1 es 74.5% Noticias de Anthropic Opus 4.1, lo que muestra que incluso tras la actualización Anthropic sigue liderando en esa métrica
En un ejemplo de demo de ChatGPT5 mostraron una explicación incorrecta sobre cómo funciona un ala de avión (airfoil): dijeron que como el aire de arriba tiene que recorrer más distancia, va más rápido, baja la presión, y abajo va más lento, sube la presión y así se genera sustentación; pero en realidad no hay ninguna base física para que el aire de arriba y abajo tenga que llegar al mismo tiempo; artículo relacionado: Universidad de Cambridge, y fue raro que ya desde la primera demo usaran una explicación errónea
- Es una explicación completamente equivocada; si fuera correcta, un airfoil de placa plana no podría generar sustentación, y en la realidad sí lo hace; lo digo desde mi experiencia directa con un doctorado en diseño aeronáutico
- Es una confusión muy famosa, el equals transit time fallacy, así que incluso sin ser experto en ingeniería aeronáutica mucha gente ya ha oído hablar de ese error
- Me parece rara la expresión “nivel PhD”; un verdadero doctorado debería producir ciencia nueva más allá de la información existente, y hasta ahora nunca he visto que un LLM genere ciencia nueva por sí solo; en esencia, un LLM no es más que un gran parser de palabras
- La NASA también tiene un sitio explicando por separado esta explicación incorrecta
- Bartosz es quien mejor explica este tema
GPT-5 tiene una ventana de contexto de 400 mil y una salida máxima de 128 mil tokens, con precio de $1.25 de entrada y $10.00 de salida; documentación oficial si con este rendimiento realmente sale bien evaluado en el problema de needle-in-haystack, sería muchísimo más competitivo que Gemini 2.5 Pro y Claude Opus 4.1, y si además las versiones mini/nano funcionan bien, sería más bien un salto enorme
- gpt-5 tiene corte al 1 de octubre de 2024, mientras que mini/nano al 31 de mayo de 2024; la familia 4.1 anterior admitía 1M/32k tokens, y el esquema de precios deja los tokens de entrada 37% más baratos y los de salida 25% más caros; solo la línea nano tiene entrada 50% más barata y el mismo precio de salida
- Si vas a usar la API, también hay que considerar el costo de la verificación de identidad (tiempo, trámites, etc.)