Presentación de GPT-5
(openai.com)- GPT-5 ofrece un rendimiento que supera a los modelos anteriores en todas las áreas, incluyendo programación, matemáticas, escritura, salud y percepción visual, y es un sistema integrado que combina respuestas rápidas y razonamiento profundo según el contexto
- “GPT-5 Thinking” aplica un razonamiento más largo a problemas complejos para mejorar la precisión, y los usuarios del plan Pro pueden aprovechar el máximo nivel de rendimiento con GPT-5 Pro, una versión ampliada
- En uso real, redujo de forma importante la tasa de alucinaciones (generación de hechos incorrectos), y mejoró la comprensión multimodal, el seguimiento de instrucciones y la capacidad para realizar tareas complejas conectando herramientas
- Se reforzó el soporte para desarrolladores en tareas como generación de UI frontend y depuración a gran escala, y en el área de salud logró la puntuación más alta en HealthBench, actuando como un socio de salud activo
- En seguridad, se introdujo el entrenamiento de “safe completion” para reducir rechazos innecesarios, además de incorporar un sistema de defensa multinivel de alto nivel en los ámbitos biológico y químico
Resumen de GPT-5
Sistema integrado
- Dentro de un mismo sistema se incluyen un modelo inteligente y eficiente, un modelo de razonamiento profundo (GPT-5 Thinking) y un router en tiempo real que los selecciona según la situación, la complejidad, la necesidad de herramientas y la intención del usuario
- Si se supera el límite de uso, las versiones “mini” de cada modelo procesan las consultas restantes
- En el futuro, estas funciones se integrarán en un solo modelo
Mejoras en rendimiento y utilidad
- Rendimiento muy superior al de GPT-4o en benchmarks generales
- Menos alucinaciones, mejor seguimiento de instrucciones y minimización de respuestas complacientes (sycophancy)
- Mejoras en tres áreas clave
- Programación: se fortalecieron las capacidades para generar frontends complejos, depurar repositorios de gran escala y crear UI/UX con criterio estético
- Escritura: puede manejar ambigüedad estructural y expresarse con profundidad literaria y ritmo, además de mejorar el apoyo para redactar y editar documentos cotidianos
- Salud: logró la mejor marca en HealthBench y ofrece respuestas seguras y precisas adaptadas al contexto, nivel de conocimiento y región
Resultados de evaluación
- Alcanzó SOTA con matemáticas 94.6% (AIME 2025), programación SWE-bench Verified 74.9%, multimodal MMMU 84.2% y salud HealthBench Hard 46.2%
- En GPQA, GPT-5 Pro logró la mejor marca con 88.4%
- Mejoró de forma notable la capacidad de procesar tareas multimodales, conexión con herramientas y trabajos de múltiples etapas
Razonamiento eficiente
- Reduce entre 50~80% el uso de tokens para el mismo nivel de rendimiento
- En tareas complejas y de alta dificultad, GPT-5 Thinking reduce claramente la tasa de errores y alucinaciones frente a o3
Mayor confiabilidad y factualidad
- En pruebas abiertas de factualidad, la tasa de alucinaciones se redujo 6 veces
- Explica con claridad sus límites cuando una tarea es imposible o falta información
- La proporción de respuestas sycophantic bajó de 14.5% a menos de 6%
Mejoras de seguridad
- El entrenamiento de “safe completion” permite ofrecer respuestas seguras y útiles incluso ante solicitudes con posible riesgo
- Se aplicó un sistema de defensa multinivel para escenarios de alto riesgo en biología y química
GPT-5 Pro
- Modelo de razonamiento ampliado para las tareas más difíciles
- En evaluaciones de expertos, fue preferido un 67.8% por encima de GPT-5 Thinking y redujo 22% los errores clave
- Máximo rendimiento en salud, ciencia, matemáticas y programación
Cómo usarlo y acceso
- GPT-5 se aplica como modelo predeterminado de ChatGPT y reemplaza modelos anteriores (GPT-4o, o3, etc.)
- Es posible forzar el modo de razonamiento escribiendo “think hard about this”
- Se desplegará de forma gradual para Plus, Pro, Team y Free, y para Enterprise y Edu una semana después
- Los usuarios gratuitos pasan a GPT-5 mini cuando superan el límite
Puntos clave de GPT-5 para desarrolladores
Rendimiento y características
-
Rendimiento en programación:
- SWE-bench Verified 74.9% (o3: 69.1%), 22% menos uso de tokens, 45% menos llamadas a herramientas
- Aider polyglot 88%, con reducción de un tercio en la tasa de errores al modificar código
- En generación de código frontend, fue preferido 70% frente a o3
-
Tareas de agentes:
- τ 2-bench telecom 96.7%, con mayor estabilidad en llamadas múltiples y paralelas a herramientas
- Puede mostrar mensajes preliminares para informar visiblemente al usuario sobre el progreso y el plan
-
Contexto largo:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- Procesa hasta 400 mil tokens de contexto
Nuevas funciones de API
reasoning_effort: ajusta el tiempo de razonamiento en el rangominimal~highverbosity: establece la longitud predeterminada de la respuesta entrelow~high- Herramientas personalizadas: pueden llamarse en texto plano en lugar de JSON y admiten restricciones por expresiones regulares/gramática
- Incluye herramientas integradas como llamadas paralelas a herramientas, búsqueda web, búsqueda de archivos y generación de imágenes
- Soporta funciones de ahorro de costos como prompt caching y Batch API
Estabilidad y confiabilidad
- En los benchmarks LongFact y FactScore, la tasa de alucinaciones se redujo en ~80% frente a o3
- Se reforzaron la conciencia de sus propios límites y la capacidad de manejar situaciones inesperadas
- Adecuado para tareas de alto riesgo o que requieren precisión (código, datos, toma de decisiones)
Availability & pricing
Tamaños disponibles y endpoints
- Tamaños disponibles:
gpt-5,gpt-5-miniygpt-5-nano - Interfaces compatibles: Responses API, Chat Completions API y como valor predeterminado en Codex CLI
- Características del modelo: la familia GPT‑5 en la API es un modelo de razonamiento, mientras que el modelo non‑reasoning de ChatGPT se ofrece con un ID separado
Tabla de precios y unidad de cobro
gpt-5: entrada $1.25/millón de tokens, salida $10/millón de tokensgpt-5-mini: entrada $0.25/millón, salida $2/millóngpt-5-nano: entrada $0.05/millón, salida $0.40/millóngpt-5-chat-latest(sin razonamiento): entrada $1.25/millón, salida $10/millón, igual quegpt-5
Resumen de funciones compatibles
- Control de razonamiento: en
reasoning_effortse puede indicarminimal,low,mediumohighpara ajustar el equilibrio entre velocidad y precisión - Longitud de respuesta: con
verbosityse puede fijar la tendencia base a corta / predeterminada / larga - Tooling: con custom tools se admiten llamadas con argumentos en texto plano y se pueden aplicar restricciones regex/CFG
- Funciones de ejecución: soporta llamadas paralelas a herramientas, herramientas integradas (web search, file search, image generation, etc.), streaming y Structured Outputs
- Optimización de costos: prompt caching y Batch API ayudan a reducir el costo en tokens y latencia
- Canal de despliegue: GPT‑5 se aplica en Microsoft 365 Copilot, Copilot, GitHub Copilot y Azure AI Foundry en general
Ejemplo simple de costos
- Al procesar con
gpt-5una carga de 50k de entrada + 5k de salida, el costo total es ≈ $0.1125- Cálculo: entrada 0.05M × $1.25 = $0.0625, salida 0.005M × $10 = $0.05, total $0.1125
- Al procesar la misma tarea con
gpt-5-mini, el costo total es ≈ $0.0175- Entrada 0.05M × $0.25 = $0.0125, salida 0.005M × $2 = $0.01, el total correcto sería $0.0225, pero considerando el precio de salida, la diferencia crece más en cargas donde predomina la entrada
- En pipelines con mucho output generativo a gran escala, hay un incentivo importante para elegir modelos con menor costo de salida
Notas guía de selección
- Si la precisión es lo más importante y se necesita una cadena compleja de herramientas en un agente backend, conviene considerar
gpt-5 - Para edición cotidiana de código, agentes ligeros y procesamiento batch a gran escala,
gpt-5-miniofrece un mejor equilibrio entre costo y calidad - Para preprocesamiento, validación de reglas y resúmenes simples con latencia y costo ultrabajos,
gpt-5-nanoes adecuado
Referencia
- Si quieres seguir usando el modelo predeterminado non‑reasoning de ChatGPT, en la API puedes elegir
gpt-5-chat-latest - Como las instrucciones explícitas tienen prioridad sobre la longitud por defecto de la respuesta, incluso con
verbosity, si se indica una longitud concreta como “ensayo de 5 párrafos”, seguirá esa instrucción
5 comentarios
Personalmente, me parece que
claude-codees mejor para el refactoring.Cuando le pedí a cursor + GPT5 que hiciera tareas de refactoring como eliminar métodos innecesarios y cosas así,
claude-codeen cambio los encontraba bien y los eliminaba, mientras que con GPT5 tuve la sensación de que no lograba entender el proyecto en su conjunto.Se siente que la usabilidad mejoró muchísimo, pero la reacción de que se acercó al AGI, como tanto alborotaban, igual fue una exageración.
Si vemos solo la parte de programación (SWE-bench), fue 74.9% (
thinking), 52.8% (sinthinking), mientras que Claude obtuvo 74.5% (Opus 4.1), 72.5% (Opus 4.0) y 62.3% (Sonnet 3.7).Si no usas el modo Thinking, queda por debajo de Sonnet, y aun usándolo apenas es un poco mejor que Opus 4.1.
Video oficial de anuncio de OpenAI (1 hora 17 minutos) https://www.youtube.com/watch?v=0Uu_VJeVVfo
Opiniones en Hacker News
Aunque muchos afirmaban que si una empresa de IA superaba el umbral de la AGI (inteligencia artificial general) se despegaría en solitario, resulta interesante que en la práctica el rendimiento de todos los modelos se está volviendo cada vez más parecido; hoy GPT-5, Claude Opus, Grok 4 y Gemini 2.5 Pro muestran un buen desempeño general, y desde la perspectiva del usuario da la sensación de que la competencia está más reñida que nunca; me gustaría saber qué opinan los investigadores sobre si los servicios de las empresas de IA se parecerán más entre sí o si terminarán diferenciándose
Vale la pena notar que, por encima de cierto umbral, para el usuario puede volverse difícil distinguir qué modelo es mejor; por ejemplo, igual que un jugador de ajedrez con ELO 1000 tendría problemas para distinguir quién es más fuerte entre Magnus Carlsen y otro gran maestro si jugara contra ambos, este fenómeno de agrupamiento en la evaluación humana podría ser en realidad una ilusión
La razón por la que se dice que la AGI produciría una singularidad es que podría aprender por sí misma; hoy todavía estamos muy lejos de llegar ahí y, personalmente, creo que es casi nula la probabilidad de que vea AGI durante mi vida; veo una distancia parecida entre los mainframes de los años 70 y los LLM a la que existe hoy entre los LLM y la AGI
Creo que podría ser directamente imposible simular inteligencia de nivel más alto con un modelo probabilístico de predicción de texto; incluso amigos investigadores en IA no se preocupan por una AGI basada en LLM debido a los límites del aumento de rendimiento frente a más datos (rendimientos decrecientes); la inteligencia humana puede generalizar muy bien con pocos ejemplos, mientras que los LLM sobre todo reproducen respuestas que aparecieron con frecuencia en los datos de entrenamiento; aun así, incluso sin AGI, la tecnología actual de AI/ML/SL puede llegar a un punto en que cambie el mundo, especialmente en áreas como la búsqueda, donde importa reproducir conocimiento amplio
Antes era pesimista sobre la IA, pero por suerte ahora me inclino en un 70% a pensar que el paradigma tecnológico actual no parece llevar a una extinción por IA en el corto plazo; que la IA actual esté especializada en “imitarnos” y no pueda salir del rango de producción humana promedio es, por ahora, una bendición; aun así, en principio creo que quienes advierten sobre el peligro de la IA tienen argumentos válidos y que debemos tomar la amenaza en serio
No puedo estar de acuerdo con la idea de que construir una enciclopedia más compleja y darle una interfaz de búsqueda interesante que se sienta humana nos acercará a la AGI; nadie tiene evidencia ni entiende de dónde surge realmente la parte de la inteligencia general (GI); no es más que exageración sin base sólida y fanfarronería para atraer inversión, y considero charlatanes a quienes promocionan la AGI como algo realizable; me sorprende mucho que tantos ingenieros del sector hayan comprado por completo esta lógica, y me hace cuestionar la salud de la industria
Corte de conocimiento de GPT-5: 30 de septiembre de 2024 (unos 10 meses antes del lanzamiento), Gemini 2.5 Pro: enero de 2025 (hace 3 meses), Claude Opus 4.1: marzo de 2025 (hace 4 meses); enlaces relacionados: Comparación de modelos de OpenAI, DeepMind Gemini Pro, Resumen de modelos Claude de Anthropic
Ahora que existe la búsqueda web, me pregunto si el corte de conocimiento sigue teniendo mucha importancia; más bien podría ser un indicador de cuánto tiempo tomó el post-entrenamiento
Gemini intenta cubrir el vacío de información posterior al corte de conocimiento con búsquedas web simples en casi todas las consultas
GPT-5 nano y mini tienen un corte aún más temprano: 30 de mayo de 2024
Como el modelo puede buscar en la web, no creo que el corte de conocimiento en sí sea tan importante
Más bien, podría significar que OpenAI no está permitiendo ningún atajo en materia de seguridad
Según la system card de GPT-5, GPT-5 es un sistema integrado que combina varios modelos (para respuestas rápidas, para razonamiento profundo) y un router; durante el chat, el router elige el modelo según prompts como “piensa esto en serio”; por fuera parece un solo sistema, pero en realidad está compuesto por varios submodelos; da la impresión de que adoptaron este enfoque porque entrenar un único modelo gigantesco end-to-end ya se volvió demasiado costoso
Puede ser una diferencia semántica, pero si los componentes funcionan automáticamente y el usuario solo usa una interfaz, se le puede llamar “sistema integrado”; claro, no es un "modelo integrado"
Esto vuelve a confirmar una teoría análoga a la 'bitter lesson': dentro de cierto presupuesto, los sistemas especializados diseñados manualmente rinden mucho mejor que un gran sistema generalista
Según GPT-5 para desarrolladores, en ChatGPT GPT-5 es un sistema que combina varios modelos (de razonamiento, no razonamiento, router, etc.); el GPT-5 de la API ofrece por separado solo el modelo de razonamiento de máximo desempeño; algunos de los modelos no razonadores de ChatGPT se ofrecen como gpt-5-chat-latest y están ajustados con foco en desarrolladores
Si la dirección correcta es combinar muchos modelos pequeños y especializados, esta estrategia es deseable
Puede que no sea solo un problema de costos, sino que los datos de entrenamiento utilizables ya se estén agotando, dificultando el aprendizaje efectivo, o que los datos nuevos estén contaminados con contenido generado por IA y ya no sirvan
También hubo errores importantes en benchmarks y las demos no impresionaron tanto como se esperaba, así que incluso en los mercados de apuestas sobre cuál será la mejor IA a fin de año hubo cambios importantes; espero más a Gemini 3.0 o al nuevo modelo de Google, y pienso que en la competencia de LLM podría tener ventaja “el que aparece al final”
Probé con GPT-5 tareas en las que Opus 4.1 fallaba, y no solo las resolvió, sino que además corrigió errores que había cometido Opus; se siente que es algo serio
No quiero una situación en la que una empresa monopolista que ya vale billones de dólares termine poseyendo todo el mundo
En pruebas reales se siente como un modelo excelente; al responder preguntas se nota mucho más que en 4.1 u o3 que intenta aprovechar al máximo las tools; por ejemplo, en la primera respuesta hizo nada menos que 6 llamadas a tools para obtener información; ejemplo: Ejemplo de uso de tools
La lógica mostrada en el marketing y en el livestream es autorreferencial, del tipo “es mejor porque es mejor”; todavía falta una explicación clara de por qué GPT-5 necesitaba una actualización mayor de versión; como siempre, será la vibra del resultado en sí lo que determine la confianza en el modelo
Dicen que ahora “es mejor para programar” porque librerías populares de JS de los últimos 6 meses ya están incluidas en el dataset de entrenamiento más reciente, pero me preocupa si esa forma de mejorar es sostenible
Hay mucha promoción pero pocos datos/benchmarks reales, así que aunque sea espero impresiones breves de usuarios prácticos como simonw
He intentado llevar los LLM a sus límites con refactorizaciones complejas de código y similares, pero me cuesta sentir una mejora fundamental de calidad frente a modelos anteriores; a estas alturas parece que la mejora de calidad ya tocó un límite (la zona de desaceleración de la curva S); ofrecer la misma calidad más barato sí es valioso, pero en el uso cotidiano el cambio de calidad no se siente
La página de lanzamiento de GPT-5 incluye varios resultados de benchmarks (AIME 2025, SWE-bench, etc.); no son resultados particularmente rompedoros
Ahora da la impresión de que entramos en la era del “quiero el smartphone más nuevo solo porque es el más nuevo”
Según el livestream, la mejora en benchmarks frente a los modelos anteriores es muy pequeña; se entiende que intentaran bajar las expectativas antes del lanzamiento, pero en realidad la mejora fue mucho menor de lo esperado
Antes del lanzamiento, Sam Altman tuiteó una imagen de la Estrella de la Muerte y eso hizo que subieran las expectativas
Como las grandes tecnológicas de IA están compitiendo en áreas parecidas sin lograr diferenciarse, parece que OpenAI ahora se enfocará más en optimización de costos y en asistentes para uso cotidiano/empresarial que en una superinteligencia extrema; en cambio, Anthropic y Google tienen más margen en crecimiento y pueden invertir en mayor inteligencia; en conclusión, podría salir un modelo más inteligente en series como la o, pero al final los ingresos y la realidad del mercado imponen límites
GPT-5 es primero en WebDev Arena, con 75 puntos por encima de Gemini 2.5 Pro y 100 puntos por encima de Claude Opus 4; referencia: Leaderboard de lmarena.ai
Las demos de código se hicieron casi siempre con GPT-5 MAX sobre Cursor, y la mayoría de los usuarios no podrá usar ese modo MAX con frecuencia; habría sido bueno que también hicieran demostraciones con la versión normal
Recuerdo que hace 2 años Sam dijo que elegirían un progreso gradual en lugar de anuncios impactantes de una sola vez; apenas es el día 1, así que todavía puede haber margen para 10~20% de optimización adicional en los próximos meses
Me confunde cuál es el eje y de este material de presentación Polémica sobre el gráfico relacionado
En un ejemplo de demo de ChatGPT5 mostraron una explicación incorrecta sobre cómo funciona un ala de avión (airfoil): dijeron que como el aire de arriba tiene que recorrer más distancia, va más rápido, baja la presión, y abajo va más lento, sube la presión y así se genera sustentación; pero en realidad no hay ninguna base física para que el aire de arriba y abajo tenga que llegar al mismo tiempo; artículo relacionado: Universidad de Cambridge, y fue raro que ya desde la primera demo usaran una explicación errónea
Es una explicación completamente equivocada; si fuera correcta, un airfoil de placa plana no podría generar sustentación, y en la realidad sí lo hace; lo digo desde mi experiencia directa con un doctorado en diseño aeronáutico
Es una confusión muy famosa, el equals transit time fallacy, así que incluso sin ser experto en ingeniería aeronáutica mucha gente ya ha oído hablar de ese error
Me parece rara la expresión “nivel PhD”; un verdadero doctorado debería producir ciencia nueva más allá de la información existente, y hasta ahora nunca he visto que un LLM genere ciencia nueva por sí solo; en esencia, un LLM no es más que un gran parser de palabras
La NASA también tiene un sitio explicando por separado esta explicación incorrecta
Bartosz es quien mejor explica este tema
GPT-5 tiene una ventana de contexto de 400 mil y una salida máxima de 128 mil tokens, con precio de $1.25 de entrada y $10.00 de salida; documentación oficial si con este rendimiento realmente sale bien evaluado en el problema de needle-in-haystack, sería muchísimo más competitivo que Gemini 2.5 Pro y Claude Opus 4.1, y si además las versiones mini/nano funcionan bien, sería más bien un salto enorme
gpt-5 tiene corte al 1 de octubre de 2024, mientras que mini/nano al 31 de mayo de 2024; la familia 4.1 anterior admitía 1M/32k tokens, y el esquema de precios deja los tokens de entrada 37% más baratos y los de salida 25% más caros; solo la línea nano tiene entrada 50% más barata y el mismo precio de salida
Si vas a usar la API, también hay que considerar el costo de la verificación de identidad (tiempo, trámites, etc.)