GPT-5: características principales, precios y tarjeta del sistema
(simonwillison.net)- GPT‑5 funciona como un sistema integrado en el que un enrutador en tiempo real cambia de modelo según el contexto de la conversación, y en la API se ofrecen Regular·Mini·Nano con 4 niveles de razonamiento: Minimal·Low·Medium·High.
- Soporta un límite de 272,000 tokens de entrada y 128,000 tokens de salida; la entrada acepta texto e imagen y la salida es solo texto.
- El precio está fijado de forma agresiva: la tarifa de entrada es la mitad de la de GPT‑4o y se aplica un descuento del 90% en caché de tokens para entradas reutilizadas en pocos minutos.
- En la tarjeta del sistema se prioriza la reducción de alucinaciones, la mejora de la ejecución de instrucciones y la minimización de la adulación, junto con entrenamiento de Safe‑Completions orientado a respuestas dentro de un rango seguro en lugar de rechazos binarios.
- En seguridad, la resistencia al prompt injection mejoró, pero sigue habiendo una brecha sin resolver: con 56.8% de tasa de éxito en 10 intentos (k=10). En la API es posible controlar el flujo de tokens de razonamiento con el resumen de razonamiento y la opción reasoning_effort=minimal.
GPT‑5 : análisis de características principales, precio y tarjeta del sistema
- Simon Willison, con acceso de vista previa durante 2 semanas, usó GPT‑5 de forma diaria y concluyó que, aunque no hubo un salto dramático, en general es muy competente: comete errores con poca frecuencia y funciona bien como modelo predeterminado consistente.
- Este texto es el primer episodio de una serie y resume lo que se puede extraer de las características clave, el precio y la tarjeta del sistema.
Características clave del modelo
- En el entorno de ChatGPT, GPT‑5 integra un modelo rápido general y un modelo de razonamiento profundo, y actúa como una configuración híbrida donde un enrutador en tiempo real escoge el modelo adecuado según el tipo de conversación, dificultad, necesidad de herramientas y señales de intención explícita.
El texto de la tarjeta del sistema indica que el real‑time router elige el modelo según el tipo de conversación, complejidad, necesidad de herramientas y señales de intención como “think hard”, y cuando se agota el límite de uso, lo reemplaza por la versión mini de cada modelo.
- En la API está simplificado a Regular·Mini·Nano; cada modelo admite 4 niveles de razonamiento: Minimal·Low·Medium·High.
- El límite de contexto es de 272,000 tokens de entrada y 128,000 tokens de salida, y los tokens de razonamiento ocultos también se cuentan como tokens de salida.
- Las entradas y salidas se componen de entrada de texto e imagen, y solo salida de texto; el corte de conocimiento es GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
- En el uso de GPT‑5 completo, percibí una tendencia a responder de manera precisa y calmada, y casi no sentí la necesidad de reintentar con otro modelo.
Posicionamiento en la familia de modelos de OpenAI
- Según la tabla de mapeo de la tarjeta del sistema, el lineup anterior se reemplaza por la familia GPT‑5.
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
- thinking‑pro hoy se muestra en ChatGPT como “GPT‑5 Pro” y solo se ofrece en el nivel de $200 al mes, usando parallel test‑time compute.
- La separación de funcionalidades se mantiene: la entrada/salida de audio y la generación de imágenes siguen a cargo de GPT‑4o Audio/Realtime y GPT Image 1/DALL‑E, respectivamente.
Los precios son agresivamente competitivos
- El precio está planteado de forma agresiva.
- GPT‑5: entrada $1.25/millón, salida $10/millón
- GPT‑5 Mini: entrada $0.25/millón, salida $2.00/millón
- GPT‑5 Nano: entrada $0.05/millón, salida $0.40/millón
- La tarifa de entrada es la mitad de la de GPT‑4o, y la de salida es la misma.
- Los tokens de razonamiento se facturan como tokens de salida, así que el costo total cambia según el nivel de razonamiento, incluso con el mismo prompt.
- Se ofrece un descuento del 90% en caché de tokens, por lo que en interfaces de chat con reenvío frecuente de contexto conversacional el ahorro en costos es significativo.
- En la tabla comparativa con competidores se muestran Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro con precios de entrada de $2.5–$15/millón y salida de $10–$75/millón, lo que evidencia la ventaja de precios de la familia GPT‑5.
- Tuve un caso en que dejé que GPT‑5 ordenara automáticamente una tabla de comparación de precios y terminó ordenando mal algunos valores; al construir la tabla y ordenarla con Python se corrigió.
Más notas de la tarjeta del sistema
- La composición de datos de entrenamiento incluye web pública, datos de socios y datos generados por usuarios y entrenadores humanos, y se describe, a nivel de principios, que se aplica filtrado para reducir la privacidad de datos personales.
- Como eje de mejora principal se destacan la reducción de alucinaciones, la mejora en el cumplimiento de instrucciones y la minimización de la adulación; también identifica las tres principales áreas de uso de ChatGPT como writing·coding·health, y refuerza el rendimiento en esas áreas.
- Safe‑Completions es un entrenamiento de seguridad centrado en la salida que prioriza la seguridad del output en lugar del rechazo binario, y para consultas de doble uso donde es difícil inferir la intención del usuario (biología, seguridad) busca reducir riesgos detallados sin perder utilidad.
- En cuanto a la Sycophancy, aplican entrenamiento post-hoc con evaluación y señales de recompensa basadas en la distribución de conversaciones de producción para reducir la inclinación a la complacencia.
- En factualidad, junto con la navegación activada por defecto, entrenan para reducir la tasa de alucinaciones al responder con conocimiento interno sin herramientas.
- Para prevenir mentiras, diseñaron recompensas para que reconozca honestamente “no se puede” ante tareas imposibles; también hicieron evaluaciones de simulación desactivando deliberadamente herramientas como la navegación para suprimir respuestas ilusorias.
Inyección de prompts en la tarjeta del sistema
- Se incluye el resultado de que dos equipos red team externos realizaron evaluación de prompt injection enfocándose en vulnerabilidades a nivel de sistema y rutas de conectores.
- En el cuadro comparativo, la tasa de éxito de ataque de gpt‑5‑thinking fue de 56.8% con k=10 intentos, por debajo del 60~90% de Claude 3.7 y varios otros modelos; sin embargo, aún atraviesa más de la mitad de los casos y sigue lejos de estar completamente resuelto.
- En conclusión, pese a las mejoras del modelo, se recomienda considerar las defensas de diseño del producto y las barreras de seguridad (guardrails) como requisitos esenciales.
Trazas de razonamiento en la API
- Al inicio, el autor creía que no era posible exponer rastros de razonamiento, pero en la Responses API ya puede recibirse un resumen de razonamiento mediante
reasoning: { "summary": "auto" }. - Sin esa opción, en niveles de razonamiento profundos se consumen muchos tokens de razonamiento antes de la salida visible, lo que puede percibirse como latencia; con
reasoning_effort=minimalse puede inducir una respuesta por streaming más rápida.
Y algunos SVG de pelícanos
- En el benchmark diario de SVG del autor, la generación de un “pelícano montando bicicleta” con GPT‑5 (razonamiento Medium por defecto) mostró un detalle de bicicleta y precisión de forma superiores, con vectores de buena legibilidad.
- GPT‑5 Mini mostró una riqueza alta de color y degradados, pero presentó un error estructural con dos cuellos de pelícano.
- GPT‑5 Nano simplifica la forma de la bicicleta y del pelícano, produciendo resultados a nivel de resumen funcional.
Resumen práctico
- Selección de modelo: comenzar con Regular y, si alcanza, bajar a Mini/Nano; para problemas profundos conviene considerar la familia thinking con nivel de razonamiento alto.
- Control de costos: una estrategia efectiva es combinar caché de tokens del 90%, reasoning_effort=minimal y prompts de sistema cortos con contexto resumido para reducir tokens de salida y tokens de razonamiento.
- Diseño de seguridad: la inyección de prompts sigue siendo un riesgo, por lo que conviene acompañar con defensas sistémicas como reducción de permisos de conectores, validación de salida y plantillas de salida segura.
- Aplicación por dominio: basado en reportes de reducción de alucinaciones y adulación en writing·coding·health, se recomienda usar por defecto un flujo con browsing + evidencia en trabajos de documentación de trabajo, revisión de código y QA de salud, que son tareas narrativas de alto riesgo
Aún no hay comentarios.