3 puntos por GN⁺ 2025-08-08 | Aún no hay comentarios. | Compartir por WhatsApp
  • GPT‑5 funciona como un sistema integrado en el que un enrutador en tiempo real cambia de modelo según el contexto de la conversación, y en la API se ofrecen Regular·Mini·Nano con 4 niveles de razonamiento: Minimal·Low·Medium·High.
  • Soporta un límite de 272,000 tokens de entrada y 128,000 tokens de salida; la entrada acepta texto e imagen y la salida es solo texto.
  • El precio está fijado de forma agresiva: la tarifa de entrada es la mitad de la de GPT‑4o y se aplica un descuento del 90% en caché de tokens para entradas reutilizadas en pocos minutos.
  • En la tarjeta del sistema se prioriza la reducción de alucinaciones, la mejora de la ejecución de instrucciones y la minimización de la adulación, junto con entrenamiento de Safe‑Completions orientado a respuestas dentro de un rango seguro en lugar de rechazos binarios.
  • En seguridad, la resistencia al prompt injection mejoró, pero sigue habiendo una brecha sin resolver: con 56.8% de tasa de éxito en 10 intentos (k=10). En la API es posible controlar el flujo de tokens de razonamiento con el resumen de razonamiento y la opción reasoning_effort=minimal.

GPT‑5 : análisis de características principales, precio y tarjeta del sistema

  • Simon Willison, con acceso de vista previa durante 2 semanas, usó GPT‑5 de forma diaria y concluyó que, aunque no hubo un salto dramático, en general es muy competente: comete errores con poca frecuencia y funciona bien como modelo predeterminado consistente.
  • Este texto es el primer episodio de una serie y resume lo que se puede extraer de las características clave, el precio y la tarjeta del sistema.

Características clave del modelo

  • En el entorno de ChatGPT, GPT‑5 integra un modelo rápido general y un modelo de razonamiento profundo, y actúa como una configuración híbrida donde un enrutador en tiempo real escoge el modelo adecuado según el tipo de conversación, dificultad, necesidad de herramientas y señales de intención explícita.

    El texto de la tarjeta del sistema indica que el real‑time router elige el modelo según el tipo de conversación, complejidad, necesidad de herramientas y señales de intención como “think hard”, y cuando se agota el límite de uso, lo reemplaza por la versión mini de cada modelo.

  • En la API está simplificado a Regular·Mini·Nano; cada modelo admite 4 niveles de razonamiento: Minimal·Low·Medium·High.
  • El límite de contexto es de 272,000 tokens de entrada y 128,000 tokens de salida, y los tokens de razonamiento ocultos también se cuentan como tokens de salida.
  • Las entradas y salidas se componen de entrada de texto e imagen, y solo salida de texto; el corte de conocimiento es GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
  • En el uso de GPT‑5 completo, percibí una tendencia a responder de manera precisa y calmada, y casi no sentí la necesidad de reintentar con otro modelo.

Posicionamiento en la familia de modelos de OpenAI

  • Según la tabla de mapeo de la tarjeta del sistema, el lineup anterior se reemplaza por la familia GPT‑5.
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro hoy se muestra en ChatGPT como “GPT‑5 Pro” y solo se ofrece en el nivel de $200 al mes, usando parallel test‑time compute.
  • La separación de funcionalidades se mantiene: la entrada/salida de audio y la generación de imágenes siguen a cargo de GPT‑4o Audio/Realtime y GPT Image 1/DALL‑E, respectivamente.

Los precios son agresivamente competitivos

  • El precio está planteado de forma agresiva.
    • GPT‑5: entrada $1.25/millón, salida $10/millón
    • GPT‑5 Mini: entrada $0.25/millón, salida $2.00/millón
    • GPT‑5 Nano: entrada $0.05/millón, salida $0.40/millón
  • La tarifa de entrada es la mitad de la de GPT‑4o, y la de salida es la misma.
  • Los tokens de razonamiento se facturan como tokens de salida, así que el costo total cambia según el nivel de razonamiento, incluso con el mismo prompt.
  • Se ofrece un descuento del 90% en caché de tokens, por lo que en interfaces de chat con reenvío frecuente de contexto conversacional el ahorro en costos es significativo.
  • En la tabla comparativa con competidores se muestran Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro con precios de entrada de $2.5–$15/millón y salida de $10–$75/millón, lo que evidencia la ventaja de precios de la familia GPT‑5.
  • Tuve un caso en que dejé que GPT‑5 ordenara automáticamente una tabla de comparación de precios y terminó ordenando mal algunos valores; al construir la tabla y ordenarla con Python se corrigió.

Más notas de la tarjeta del sistema

  • La composición de datos de entrenamiento incluye web pública, datos de socios y datos generados por usuarios y entrenadores humanos, y se describe, a nivel de principios, que se aplica filtrado para reducir la privacidad de datos personales.
  • Como eje de mejora principal se destacan la reducción de alucinaciones, la mejora en el cumplimiento de instrucciones y la minimización de la adulación; también identifica las tres principales áreas de uso de ChatGPT como writing·coding·health, y refuerza el rendimiento en esas áreas.
  • Safe‑Completions es un entrenamiento de seguridad centrado en la salida que prioriza la seguridad del output en lugar del rechazo binario, y para consultas de doble uso donde es difícil inferir la intención del usuario (biología, seguridad) busca reducir riesgos detallados sin perder utilidad.
  • En cuanto a la Sycophancy, aplican entrenamiento post-hoc con evaluación y señales de recompensa basadas en la distribución de conversaciones de producción para reducir la inclinación a la complacencia.
  • En factualidad, junto con la navegación activada por defecto, entrenan para reducir la tasa de alucinaciones al responder con conocimiento interno sin herramientas.
  • Para prevenir mentiras, diseñaron recompensas para que reconozca honestamente “no se puede” ante tareas imposibles; también hicieron evaluaciones de simulación desactivando deliberadamente herramientas como la navegación para suprimir respuestas ilusorias.

Inyección de prompts en la tarjeta del sistema

  • Se incluye el resultado de que dos equipos red team externos realizaron evaluación de prompt injection enfocándose en vulnerabilidades a nivel de sistema y rutas de conectores.
  • En el cuadro comparativo, la tasa de éxito de ataque de gpt‑5‑thinking fue de 56.8% con k=10 intentos, por debajo del 60~90% de Claude 3.7 y varios otros modelos; sin embargo, aún atraviesa más de la mitad de los casos y sigue lejos de estar completamente resuelto.
  • En conclusión, pese a las mejoras del modelo, se recomienda considerar las defensas de diseño del producto y las barreras de seguridad (guardrails) como requisitos esenciales.

Trazas de razonamiento en la API

  • Al inicio, el autor creía que no era posible exponer rastros de razonamiento, pero en la Responses API ya puede recibirse un resumen de razonamiento mediante reasoning: { "summary": "auto" }.
  • Sin esa opción, en niveles de razonamiento profundos se consumen muchos tokens de razonamiento antes de la salida visible, lo que puede percibirse como latencia; con reasoning_effort=minimal se puede inducir una respuesta por streaming más rápida.

Y algunos SVG de pelícanos

  • En el benchmark diario de SVG del autor, la generación de un “pelícano montando bicicleta” con GPT‑5 (razonamiento Medium por defecto) mostró un detalle de bicicleta y precisión de forma superiores, con vectores de buena legibilidad.
  • GPT‑5 Mini mostró una riqueza alta de color y degradados, pero presentó un error estructural con dos cuellos de pelícano.
  • GPT‑5 Nano simplifica la forma de la bicicleta y del pelícano, produciendo resultados a nivel de resumen funcional.

Resumen práctico

  • Selección de modelo: comenzar con Regular y, si alcanza, bajar a Mini/Nano; para problemas profundos conviene considerar la familia thinking con nivel de razonamiento alto.
  • Control de costos: una estrategia efectiva es combinar caché de tokens del 90%, reasoning_effort=minimal y prompts de sistema cortos con contexto resumido para reducir tokens de salida y tokens de razonamiento.
  • Diseño de seguridad: la inyección de prompts sigue siendo un riesgo, por lo que conviene acompañar con defensas sistémicas como reducción de permisos de conectores, validación de salida y plantillas de salida segura.
  • Aplicación por dominio: basado en reportes de reducción de alucinaciones y adulación en writing·coding·health, se recomienda usar por defecto un flujo con browsing + evidencia en trabajos de documentación de trabajo, revisión de código y QA de salud, que son tareas narrativas de alto riesgo

Aún no hay comentarios.

Aún no hay comentarios.