3 puntos por GN⁺ 2025-08-08 | 1 comentarios | Compartir por WhatsApp
  • GPT‑5 funciona como un sistema integrado en el que un enrutador en tiempo real cambia de modelo según el contexto de la conversación, y en la API se ofrecen Regular·Mini·Nano con 4 niveles de razonamiento: Minimal·Low·Medium·High.
  • Soporta un límite de 272,000 tokens de entrada y 128,000 tokens de salida; la entrada acepta texto e imagen y la salida es solo texto.
  • El precio está fijado de forma agresiva: la tarifa de entrada es la mitad de la de GPT‑4o y se aplica un descuento del 90% en caché de tokens para entradas reutilizadas en pocos minutos.
  • En la tarjeta del sistema se prioriza la reducción de alucinaciones, la mejora de la ejecución de instrucciones y la minimización de la adulación, junto con entrenamiento de Safe‑Completions orientado a respuestas dentro de un rango seguro en lugar de rechazos binarios.
  • En seguridad, la resistencia al prompt injection mejoró, pero sigue habiendo una brecha sin resolver: con 56.8% de tasa de éxito en 10 intentos (k=10). En la API es posible controlar el flujo de tokens de razonamiento con el resumen de razonamiento y la opción reasoning_effort=minimal.

GPT‑5 : análisis de características principales, precio y tarjeta del sistema

  • Simon Willison, con acceso de vista previa durante 2 semanas, usó GPT‑5 de forma diaria y concluyó que, aunque no hubo un salto dramático, en general es muy competente: comete errores con poca frecuencia y funciona bien como modelo predeterminado consistente.
  • Este texto es el primer episodio de una serie y resume lo que se puede extraer de las características clave, el precio y la tarjeta del sistema.

Características clave del modelo

  • En el entorno de ChatGPT, GPT‑5 integra un modelo rápido general y un modelo de razonamiento profundo, y actúa como una configuración híbrida donde un enrutador en tiempo real escoge el modelo adecuado según el tipo de conversación, dificultad, necesidad de herramientas y señales de intención explícita.

    El texto de la tarjeta del sistema indica que el real‑time router elige el modelo según el tipo de conversación, complejidad, necesidad de herramientas y señales de intención como “think hard”, y cuando se agota el límite de uso, lo reemplaza por la versión mini de cada modelo.

  • En la API está simplificado a Regular·Mini·Nano; cada modelo admite 4 niveles de razonamiento: Minimal·Low·Medium·High.
  • El límite de contexto es de 272,000 tokens de entrada y 128,000 tokens de salida, y los tokens de razonamiento ocultos también se cuentan como tokens de salida.
  • Las entradas y salidas se componen de entrada de texto e imagen, y solo salida de texto; el corte de conocimiento es GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30.
  • En el uso de GPT‑5 completo, percibí una tendencia a responder de manera precisa y calmada, y casi no sentí la necesidad de reintentar con otro modelo.

Posicionamiento en la familia de modelos de OpenAI

  • Según la tabla de mapeo de la tarjeta del sistema, el lineup anterior se reemplaza por la familia GPT‑5.
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro hoy se muestra en ChatGPT como “GPT‑5 Pro” y solo se ofrece en el nivel de $200 al mes, usando parallel test‑time compute.
  • La separación de funcionalidades se mantiene: la entrada/salida de audio y la generación de imágenes siguen a cargo de GPT‑4o Audio/Realtime y GPT Image 1/DALL‑E, respectivamente.

Los precios son agresivamente competitivos

  • El precio está planteado de forma agresiva.
    • GPT‑5: entrada $1.25/millón, salida $10/millón
    • GPT‑5 Mini: entrada $0.25/millón, salida $2.00/millón
    • GPT‑5 Nano: entrada $0.05/millón, salida $0.40/millón
  • La tarifa de entrada es la mitad de la de GPT‑4o, y la de salida es la misma.
  • Los tokens de razonamiento se facturan como tokens de salida, así que el costo total cambia según el nivel de razonamiento, incluso con el mismo prompt.
  • Se ofrece un descuento del 90% en caché de tokens, por lo que en interfaces de chat con reenvío frecuente de contexto conversacional el ahorro en costos es significativo.
  • En la tabla comparativa con competidores se muestran Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro con precios de entrada de $2.5–$15/millón y salida de $10–$75/millón, lo que evidencia la ventaja de precios de la familia GPT‑5.
  • Tuve un caso en que dejé que GPT‑5 ordenara automáticamente una tabla de comparación de precios y terminó ordenando mal algunos valores; al construir la tabla y ordenarla con Python se corrigió.

Más notas de la tarjeta del sistema

  • La composición de datos de entrenamiento incluye web pública, datos de socios y datos generados por usuarios y entrenadores humanos, y se describe, a nivel de principios, que se aplica filtrado para reducir la privacidad de datos personales.
  • Como eje de mejora principal se destacan la reducción de alucinaciones, la mejora en el cumplimiento de instrucciones y la minimización de la adulación; también identifica las tres principales áreas de uso de ChatGPT como writing·coding·health, y refuerza el rendimiento en esas áreas.
  • Safe‑Completions es un entrenamiento de seguridad centrado en la salida que prioriza la seguridad del output en lugar del rechazo binario, y para consultas de doble uso donde es difícil inferir la intención del usuario (biología, seguridad) busca reducir riesgos detallados sin perder utilidad.
  • En cuanto a la Sycophancy, aplican entrenamiento post-hoc con evaluación y señales de recompensa basadas en la distribución de conversaciones de producción para reducir la inclinación a la complacencia.
  • En factualidad, junto con la navegación activada por defecto, entrenan para reducir la tasa de alucinaciones al responder con conocimiento interno sin herramientas.
  • Para prevenir mentiras, diseñaron recompensas para que reconozca honestamente “no se puede” ante tareas imposibles; también hicieron evaluaciones de simulación desactivando deliberadamente herramientas como la navegación para suprimir respuestas ilusorias.

Inyección de prompts en la tarjeta del sistema

  • Se incluye el resultado de que dos equipos red team externos realizaron evaluación de prompt injection enfocándose en vulnerabilidades a nivel de sistema y rutas de conectores.
  • En el cuadro comparativo, la tasa de éxito de ataque de gpt‑5‑thinking fue de 56.8% con k=10 intentos, por debajo del 60~90% de Claude 3.7 y varios otros modelos; sin embargo, aún atraviesa más de la mitad de los casos y sigue lejos de estar completamente resuelto.
  • En conclusión, pese a las mejoras del modelo, se recomienda considerar las defensas de diseño del producto y las barreras de seguridad (guardrails) como requisitos esenciales.

Trazas de razonamiento en la API

  • Al inicio, el autor creía que no era posible exponer rastros de razonamiento, pero en la Responses API ya puede recibirse un resumen de razonamiento mediante reasoning: { "summary": "auto" }.
  • Sin esa opción, en niveles de razonamiento profundos se consumen muchos tokens de razonamiento antes de la salida visible, lo que puede percibirse como latencia; con reasoning_effort=minimal se puede inducir una respuesta por streaming más rápida.

Y algunos SVG de pelícanos

  • En el benchmark diario de SVG del autor, la generación de un “pelícano montando bicicleta” con GPT‑5 (razonamiento Medium por defecto) mostró un detalle de bicicleta y precisión de forma superiores, con vectores de buena legibilidad.
  • GPT‑5 Mini mostró una riqueza alta de color y degradados, pero presentó un error estructural con dos cuellos de pelícano.
  • GPT‑5 Nano simplifica la forma de la bicicleta y del pelícano, produciendo resultados a nivel de resumen funcional.

Resumen práctico

  • Selección de modelo: comenzar con Regular y, si alcanza, bajar a Mini/Nano; para problemas profundos conviene considerar la familia thinking con nivel de razonamiento alto.
  • Control de costos: una estrategia efectiva es combinar caché de tokens del 90%, reasoning_effort=minimal y prompts de sistema cortos con contexto resumido para reducir tokens de salida y tokens de razonamiento.
  • Diseño de seguridad: la inyección de prompts sigue siendo un riesgo, por lo que conviene acompañar con defensas sistémicas como reducción de permisos de conectores, validación de salida y plantillas de salida segura.
  • Aplicación por dominio: basado en reportes de reducción de alucinaciones y adulación en writing·coding·health, se recomienda usar por defecto un flujo con browsing + evidencia en trabajos de documentación de trabajo, revisión de código y QA de salud, que son tareas narrativas de alto riesgo

1 comentarios

 
GN⁺ 2025-08-08
Comentarios de Hacker News
  • Me alegra mucho que se vea más confiable, y aunque sea realmente impresionante, si pienso en la imagen de GPT-5 que la gente ha esperado durante los últimos dos años, me decepciona un poco que se haya quedado en mejoras graduales y estables en vez de una innovación de gran escala que cambie el paradigma. También se siente como si el enfoque de solo ampliar la escala se hubiera topado con un límite. Si de verdad bastara con meter más recursos de cómputo para mejorar, creo que OpenAI no habría pasado tiempo ajustando de forma incremental su sistema de enrutamiento de usuarios tradicional para mejorar las interacciones promedio. Yo también era escéptico de la idea de que basta con aumentar datos y cómputo para llegar a AGI. En general, por la mayor opacidad dentro de la industria y una sensación de que en el anuncio queda más lenguaje de marketing que información concreta, el problema principal es que nadie sabe en qué estado está realmente el modelo hoy. Con inversiones masivas, esto quizá sea inevitable. Tampoco se puede descartar que en el futuro salga un modelo realmente enorme.
    • Creo que la innovación silenciosa de fondo está ocurriendo en el uso de herramientas y en la capacidad multimodal. La inteligencia general está cambiando de forma gradual, pero la capacidad de usar herramientas en múltiples pasos y de interactuar con el mundo real ha mejorado de forma dramática en comparación con hace un año. Espero que este tipo de feedback termine viniendo como una inteligencia aún mejor.
    • Cada vez más parece que escalar no es la solución mágica. Me pregunto si los inversionistas empezarían a financiar a quienes han defendido esta dirección con evidencia. No entiendo por qué insistir solo en una vía (LLM a AGI). En un mercado ya saturado de grandes jugadores, no veo la necesidad de invertir en otra startup de LLM. Aunque un LLM llegue a AGI en algún momento, siempre puede surgir una forma más rápida y barata. Ir sin plan B también es riesgoso. Pienso que la curva en S de la tecnología aplica también a la IA. Aun teniendo colegas con formación matemática/científica más familiarizados con marcos cuantitativos, yo también dudo de que “escalar más” sea la respuesta.
    • Parece demostrado que GPT puede aprender de todo tipo de información y usarla para tareas diversas. Pero para que sea útil de verdad, siempre hace falta esfuerzo extra para pensar cómo aplicarlo a cada problema. Si uno pudiera preguntar a GPT “crea una startup de mil millones de dólares en un año con mil dólares” y obtener una respuesta, alguien ya lo habría hecho. Por un buen tiempo, al final la gente seguirá teniendo que sudar la gota gorda. En el corto y mediano plazo, entrenar para reducir errores repetidos parece tener sentido práctico.
    • Considero que el rendimiento se está duplicando cada 4 a 7 meses. Esa tendencia sigue. Ese ritmo ya me parece descabellado. Esperar algo más sería caer justamente en el hype. No veo eso como estancamiento, aunque el rendimiento se duplique 2 o 3 veces al año. Enlace relacionado
    • En realidad, aunque es una mejora incremental en perspectiva de rendimiento, el salto en términos de simplificación del producto ya era una de las rutas que se discutía para GPT-5 desde hacía seis meses. Siento que la IA seguirá siendo una batalla de mejoras graduales y finas.
  • Personalmente me resulta confuso que OpenAI diga que la alucinación se redujo de forma notoria. Por mi experiencia, incluso en preguntas muy simples o difíciles, Claude 4 (Sonnet, Opus) sigue alucinando casi a diario.
    • En las demos de presentación también hubo varias alucinaciones (y eso ocurre cada vez que uso Claude y GPT, tanto en versión paga como gratuita). Si no las ves, casi diría que es o mentira o incompetencia. El problema central de los LLM es que, al entrenarse para aprender preferencias humanas, se optimizan hacia errores encubiertos (stealthy errors). Yo soy muy cuidadoso con usar herramientas que tengan esos fallos furtivos, aunque la tasa de error general sea baja. Eso desacelera todo y hace que el debugging sea muy pesado. Es como un bug de indentación en Python: parece invisible desde afuera. Ese tipo de error de origen sí se puede atrapar rápido por el mensaje de error, pero en los LLM no, por eso el problema. Al final, esto parece impulsar una cultura de pasarlo por alto con un “LGTM”.
    • Cuando alguien dice “estás equivocado”, Claude o ChatGPT se derrumban y siguen repitiendo alucinaciones, y no pueden sostener una afirmación segura por sí mismos, tanto si aciertan como si se equivocan.
    • Creo que Simon, porque lleva mucho tiempo usando LLM, ha desarrollado intuición para enmarcar las preguntas de modo que haya menos alucinaciones.
    • Creo que depende de la entrada. El Claude 4 que usé alucinaba con mucha frecuencia, y especialmente al generar JSON, a menudo generaba resultados con muchos errores sintácticos con mucha seguridad.
  • “¿Tú eres GPT-5?” “No, soy 4o, 5 todavía no ha salido.” “Hoy salió.” “Ah, cierto, soy GPT-5.” Y luego, “<i>Has alcanzado el límite de uso gratuito de 4o</i>”, todo mezclado en una confusión entre realidad y la información interna del modelo.
  • La política de precios agresiva de OpenAI me parece algo inesperada. Si no hubiera una competencia real, no habría razón para usar esos números. Me parece que significa que la competencia se intensificó bastante.
    • En el mercado de apps va ganando de forma aplastante, pero en la parte de API está perdiendo frente a Anthropic. Artículo relacionado
    • Tal vez se deba al impacto de perder clientes PRO recientemente (yo incluido). Siento que el modelo PRO no tenía 10x el valor de precio frente a PLUS. Con la aparición de nuevos competidores como z.ai, la diferenciación del servicio se está volviendo más difícil.
    • Esto me parece una mejora de apenas ~5%. Creo que no hay salida sino competir con Gemini 2.5 Pro en precio, y el cambio de valor por defecto de Cursor también lo refleja.
    • El modelo Nano de 5 centavos es un cambio bastante interesante. Gracias a eso, incluso Google podría bajar precios por un tiempo, después de haber subido sus tarifas lentamente últimamente.
    • También podría ser que esta política simplemente se lanzó porque se necesitan más datos.
  • En API, ahora GPT-5 se compone de los modelos regular, mini y nano, y cada uno permite escoger 4 niveles de reasoning (minimal, low, medium, high), lo que me hace pensar que, en comparación con GPT-4.1 que tenía solo 3 opciones (regular, mini, nano), terminó siendo más complejo. Incluso con un solo modelo mini ya tienes de minimal a high cuatro niveles: en total 8 opciones, y en la práctica te preguntas cada vez si conviene ajustar mejor el prompt o cambiar versión/nivel de reasoning.
    • En la práctica, ya había varias opciones por nivel de reasoning: o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium y o4-mini-low. A primera vista, el esquema de GPT-5 parece incluso más simple.
    • Con n=1,2,3 y nivel de reasoning m=0,1,2,3 por modelo, me parece más estructurado. Puedes intuir mejor qué combinación escala a un nivel superior.
    • Lo que interpreto como “más simple” es que antes, en chat service o en la API con modelos chat-optimized, había un harness que cambiaba el modelo y el reasoning level por heurísticas. Ahora, en API, el usuario tiene un modelo mental más claro para elegir tipo de modelo y nivel de esfuerzo de razonamiento. Hay más opciones, pero el modo de elección es más claro.
    • Al final, OpenAI cobra por tokens, así que necesariamente acabas probando muchas versiones.
  • Me intriga por qué desapareció el ajuste directo de parámetros (temperature, top-p) en modelos de reasoning (incluyendo GPT-5). En tareas pequeñas la consistencia importa, y perder esa palanca dificulta responder, y en API siento que el control fino de esas opciones es muy importante para el usuario.
    • Los ajustes del sampler impactan negativamente tanto seguridad como alineación, por eso solo se permiten top_p/top_k y se excluyen tfs, min_p, top_n sigma, etc. La razón de limitar arbitrariamente la temperature al rango 0-2 es la misma. Creo que en open source, en el tema de samplers, están incluso más adelantados. El hecho de que todavía logren sacar este rendimiento de esta manera muestra por qué la tecnología de OpenAI sigue siendo sorprendente.
  • A pesar de ser una compañía de miles de millones de dólares y de tener usos reales en contratación, negocios, educación y otras áreas, me parece una lástima evaluar la equidad del modelo casi solo con un benchmark artificial como BBQ.
  • La imagen de un pelican montado en bicicleta en SVG sigue siendo un problema difícil para la IA, y eso es a la vez divertido e interesante.
    • Me dan ganas de preguntar si se puede dibujar un SVG de un pelicán montado en bicicleta con un editor de texto; en la práctica, eso tampoco es fácil para una persona.
  • A diferencia de antes, se nota más entrenado para usar bien las herramientas y reunir contexto. En comparación con 4.1 y o3, resolvió de manera bastante elegante trayendo de un golpe resultados en seis categorías en el primer turno. Si aumentan las llamadas a herramientas se gastan más tokens, pero con la política de precios agresiva actual parece que eso no será un gran problema. Si diseñas bien el prompt, también puedes reducir la frecuencia de uso de herramientas. Ejemplo relacionado
  • La revisión breve y detallada de Simon ayuda mucho para entender los resultados reales.
  • En respuesta al comentario de que también parece haber menos alucinaciones en los modelos de este año de Claude y o3, el autor añadió una aclaración de su intención en esa parte del post para complementar la explicación.