GPT-5: características principales, precios y tarjeta del sistema

(simonwillison.net)

3 puntos por GN⁺ 2025-08-08 | Aún no hay comentarios. | Compartir por WhatsApp

GPT‑5 funciona como un sistema integrado en el que un enrutador en tiempo real cambia de modelo según el contexto de la conversación, y en la API se ofrecen Regular·Mini·Nano con 4 niveles de razonamiento: Minimal·Low·Medium·High.
Soporta un límite de 272,000 tokens de entrada y 128,000 tokens de salida; la entrada acepta texto e imagen y la salida es solo texto.
El precio está fijado de forma agresiva: la tarifa de entrada es la mitad de la de GPT‑4o y se aplica un descuento del 90% en caché de tokens para entradas reutilizadas en pocos minutos.
En la tarjeta del sistema se prioriza la reducción de alucinaciones, la mejora de la ejecución de instrucciones y la minimización de la adulación, junto con entrenamiento de Safe‑Completions orientado a respuestas dentro de un rango seguro en lugar de rechazos binarios.
En seguridad, la resistencia al prompt injection mejoró, pero sigue habiendo una brecha sin resolver: con 56.8% de tasa de éxito en 10 intentos (k=10). En la API es posible controlar el flujo de tokens de razonamiento con el resumen de razonamiento y la opción reasoning_effort=minimal.

GPT‑5 : análisis de características principales, precio y tarjeta del sistema

Simon Willison, con acceso de vista previa durante 2 semanas, usó GPT‑5 de forma diaria y concluyó que, aunque no hubo un salto dramático, en general es muy competente: comete errores con poca frecuencia y funciona bien como modelo predeterminado consistente.
Este texto es el primer episodio de una serie y resume lo que se puede extraer de las características clave, el precio y la tarjeta del sistema.

Características clave del modelo

En el entorno de ChatGPT, GPT‑5 integra un modelo rápido general y un modelo de razonamiento profundo, y actúa como una configuración híbrida donde un enrutador en tiempo real escoge el modelo adecuado según el tipo de conversación, dificultad, necesidad de herramientas y señales de intención explícita.

El texto de la tarjeta del sistema indica que el real‑time router elige el modelo según el tipo de conversación, complejidad, necesidad de herramientas y señales de intención como “think hard”, y cuando se agota el límite de uso, lo reemplaza por la versión mini de cada modelo.
En la API está simplificado a Regular·Mini·Nano; cada modelo admite 4 niveles de razonamiento: Minimal·Low·Medium·High.
El límite de contexto es de 272,000 tokens de entrada y 128,000 tokens de salida, y los tokens de razonamiento ocultos también se cuentan como tokens de salida.
Las entradas y salidas se componen de entrada de texto e imagen, y solo salida de texto; el corte de conocimiento es GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
En el uso de GPT‑5 completo, percibí una tendencia a responder de manera precisa y calmada, y casi no sentí la necesidad de reintentar con otro modelo.

Posicionamiento en la familia de modelos de OpenAI

Según la tabla de mapeo de la tarjeta del sistema, el lineup anterior se reemplaza por la familia GPT‑5.
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
thinking‑pro hoy se muestra en ChatGPT como “GPT‑5 Pro” y solo se ofrece en el nivel de $200 al mes, usando parallel test‑time compute.
La separación de funcionalidades se mantiene: la entrada/salida de audio y la generación de imágenes siguen a cargo de GPT‑4o Audio/Realtime y GPT Image 1/DALL‑E, respectivamente.

Los precios son agresivamente competitivos

El precio está planteado de forma agresiva.
- GPT‑5: entrada $1.25/millón, salida $10/millón
- GPT‑5 Mini: entrada $0.25/millón, salida $2.00/millón
- GPT‑5 Nano: entrada $0.05/millón, salida $0.40/millón
La tarifa de entrada es la mitad de la de GPT‑4o, y la de salida es la misma.
Los tokens de razonamiento se facturan como tokens de salida, así que el costo total cambia según el nivel de razonamiento, incluso con el mismo prompt.
Se ofrece un descuento del 90% en caché de tokens, por lo que en interfaces de chat con reenvío frecuente de contexto conversacional el ahorro en costos es significativo.
En la tabla comparativa con competidores se muestran Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro con precios de entrada de $2.5–$15/millón y salida de $10–$75/millón, lo que evidencia la ventaja de precios de la familia GPT‑5.
Tuve un caso en que dejé que GPT‑5 ordenara automáticamente una tabla de comparación de precios y terminó ordenando mal algunos valores; al construir la tabla y ordenarla con Python se corrigió.

Más notas de la tarjeta del sistema

La composición de datos de entrenamiento incluye web pública, datos de socios y datos generados por usuarios y entrenadores humanos, y se describe, a nivel de principios, que se aplica filtrado para reducir la privacidad de datos personales.
Como eje de mejora principal se destacan la reducción de alucinaciones, la mejora en el cumplimiento de instrucciones y la minimización de la adulación; también identifica las tres principales áreas de uso de ChatGPT como writing·coding·health, y refuerza el rendimiento en esas áreas.
Safe‑Completions es un entrenamiento de seguridad centrado en la salida que prioriza la seguridad del output en lugar del rechazo binario, y para consultas de doble uso donde es difícil inferir la intención del usuario (biología, seguridad) busca reducir riesgos detallados sin perder utilidad.
En cuanto a la Sycophancy, aplican entrenamiento post-hoc con evaluación y señales de recompensa basadas en la distribución de conversaciones de producción para reducir la inclinación a la complacencia.
En factualidad, junto con la navegación activada por defecto, entrenan para reducir la tasa de alucinaciones al responder con conocimiento interno sin herramientas.
Para prevenir mentiras, diseñaron recompensas para que reconozca honestamente “no se puede” ante tareas imposibles; también hicieron evaluaciones de simulación desactivando deliberadamente herramientas como la navegación para suprimir respuestas ilusorias.

Inyección de prompts en la tarjeta del sistema

Se incluye el resultado de que dos equipos red team externos realizaron evaluación de prompt injection enfocándose en vulnerabilidades a nivel de sistema y rutas de conectores.
En el cuadro comparativo, la tasa de éxito de ataque de gpt‑5‑thinking fue de 56.8% con k=10 intentos, por debajo del 60~90% de Claude 3.7 y varios otros modelos; sin embargo, aún atraviesa más de la mitad de los casos y sigue lejos de estar completamente resuelto.
En conclusión, pese a las mejoras del modelo, se recomienda considerar las defensas de diseño del producto y las barreras de seguridad (guardrails) como requisitos esenciales.

Trazas de razonamiento en la API

Al inicio, el autor creía que no era posible exponer rastros de razonamiento, pero en la Responses API ya puede recibirse un resumen de razonamiento mediante reasoning: { "summary": "auto" }.
Sin esa opción, en niveles de razonamiento profundos se consumen muchos tokens de razonamiento antes de la salida visible, lo que puede percibirse como latencia; con reasoning_effort=minimal se puede inducir una respuesta por streaming más rápida.

Y algunos SVG de pelícanos

En el benchmark diario de SVG del autor, la generación de un “pelícano montando bicicleta” con GPT‑5 (razonamiento Medium por defecto) mostró un detalle de bicicleta y precisión de forma superiores, con vectores de buena legibilidad.
GPT‑5 Mini mostró una riqueza alta de color y degradados, pero presentó un error estructural con dos cuellos de pelícano.
GPT‑5 Nano simplifica la forma de la bicicleta y del pelícano, produciendo resultados a nivel de resumen funcional.

Resumen práctico

Selección de modelo: comenzar con Regular y, si alcanza, bajar a Mini/Nano; para problemas profundos conviene considerar la familia thinking con nivel de razonamiento alto.
Control de costos: una estrategia efectiva es combinar caché de tokens del 90%, reasoning_effort=minimal y prompts de sistema cortos con contexto resumido para reducir tokens de salida y tokens de razonamiento.
Diseño de seguridad: la inyección de prompts sigue siendo un riesgo, por lo que conviene acompañar con defensas sistémicas como reducción de permisos de conectores, validación de salida y plantillas de salida segura.
Aplicación por dominio: basado en reportes de reducción de alucinaciones y adulación en writing·coding·health, se recomienda usar por defecto un flujo con browsing + evidencia en trabajos de documentación de trabajo, revisión de código y QA de salud, que son tareas narrativas de alto riesgo

GPT-5: características principales, precios y tarjeta del sistema

GPT‑5 : análisis de características principales, precio y tarjeta del sistema

Características clave del modelo

Posicionamiento en la familia de modelos de OpenAI

Los precios son agresivamente competitivos

Más notas de la tarjeta del sistema

Inyección de prompts en la tarjeta del sistema

Trazas de razonamiento en la API

Y algunos SVG de pelícanos

Resumen práctico

Lecturas relacionadas

Aún no hay comentarios.