1 puntos por GN⁺ 2025-08-08 | 1 comentarios | Compartir por WhatsApp
  • La API de GPT-5 se lanzó oficialmente y ofrece a los desarrolladores un nuevo nivel de rendimiento en codificación y trabajo de agentes.
  • En evaluaciones clave como SWE-bench Verified y Aider polyglot registró el mejor rendimiento (SOTA), y validó su excelencia en múltiples casos de clientes como Cursor, Windsurf y Vercel.
  • Demostró gran solidez en tareas reales complejas, como trabajos de agentes de ejecución prolongada, integración de herramientas sofisticada y procesamiento de contextos largos.
  • Gracias a parámetros finos como verbosity, reasoning_effort y al soporte de herramientas personalizadas, los desarrolladores pueden controlarlo a medida.
  • Con gpt-5, gpt-5-mini y gpt-5-nano ofrece opciones de costo/rendimiento y se integra con Microsoft y diversas herramientas para desarrolladores.

Lanzamiento e importancia de GPT-5

  • OpenAI anunció públicamente GPT-5 en su plataforma API, destacando que es el modelo con mejor rendimiento en codificación y tareas de agente optimizado hasta ahora.
  • Alcanzó SOTA (mejor rendimiento) en benchmarks clave de programación y fue entrenado en colaboración con testers de startups y empresas reales.
  • Mostró un desempeño sobresaliente como copiloto en tareas reales como generación de código, corrección de errores, edición de código y consultas complejas en bases de código.
  • Mejoró su capacidad para seguir instrucciones detalladas con precisión y para explicar su conducta y planificar antes y después de las llamadas a herramientas.
  • El rendimiento en desarrollo front-end también fue excelente, con una ventaja del 70% en evaluaciones internas frente al modelo anterior.

Principales empresas clientes y casos de uso reales

  • Cursor, Windsurf, Vercel, Manus, Notion y Inditex valoraron muy alto la inteligencia de GPT-5, su facilidad de control, el manejo de errores de herramientas y la calidad del código.
  • En escenarios de despliegue real, mostró mayor estabilidad y eficiencia que modelos anteriores en trabajos de fondo complejos, roles de agente de ejecución prolongada e integración avanzada de herramientas.

Benchmarks y métricas de rendimiento

  • SWE-bench Verified (parches de incidencias de software reales): obtuvo un 74,9% de rendimiento frente a o3, con 22% menos tokens y 45% menos llamadas a herramientas, mejorando la eficiencia.
  • Aider polyglot (evaluación de edición de código): logró 88%, alcanzando una tasa de error aproximadamente de un tercio en comparación con o3.
  • En análisis de bases de código complejas, el LLM grande se puede elevar según la consulta del solicitante, facilitando un uso fácil para desarrolladores e investigadores.
  • La generación de código front-end mostró 70% de ventaja en pruebas, tanto en sentido estético como en precisión.

Trabajo con agentes y resultados de contexto largo

  • En τ2-bench telecom (benchmark de llamadas a herramientas), GPT-5 alcanzó 96,7%, logrando el SOTA más reciente.
  • Demostró alta capacidad de finalización al ejecutar decenas de llamadas a herramientas de forma secuencial o paralela.
  • Obtuvo las puntuaciones más altas en evaluaciones de cumplimiento de instrucciones como COLLIE y Scale MultiChallenge.
  • En Q&A de contexto largo como OpenAI-MRCR y BrowseComp Long Context, superó a o3 y GPT-4.1.
  • Soporta longitudes de contexto de hasta 400.000 tokens, ideal para análisis de documentos o conversaciones a gran escala.

Confiabilidad y seguridad

  • En evaluaciones LongFact y FactScore, redujo los errores factuales en más de un 80% frente a o3.
  • Reconoce y notifica sus propias limitaciones, y mejora la precisión especialmente en preguntas de salud.
  • En usos reales, todavía se recomienda la verificación por parte del desarrollador en áreas críticas.

Control para desarrolladores y nuevas funciones de la API

  • reasoning_effort: permite equilibrar velocidad de respuesta y calidad de razonamiento con los valores minimal/low/medium/high.
    • minimal: respuesta rápida; high: razonamiento lógico de alta calidad.
  • verbosity: ajusta la longitud de salida con low/medium/high.
    • Cuando hay una instrucción explícita, esta tiene prioridad sobre el parámetro.
  • Herramientas personalizadas: también admiten formato de texto sin formato (plaintext), además de JSON, y permiten restringir el formato de entrada de herramientas mediante expresiones regulares o gramática libre de contexto (CFG).
  • Disminuye el riesgo de errores de escape de JSON en bloques grandes de código o reportes, mejorando la facilidad de integración con herramientas de desarrollo.

Diversos modelos de API y política de precios

  • gpt-5: $1.25 por millón de tokens de entrada, $10 por millón de tokens de salida
  • gpt-5-mini: $0.25 por millón de tokens de entrada, $2 por millón de tokens de salida
  • gpt-5-nano: $0.05 por millón de tokens de entrada, $0.40 por millón de tokens de salida
  • Todos los modelos admiten funcionalidades clave como reasoning_effort, verbosity, herramientas personalizadas, llamadas de herramientas en paralelo, herramientas integradas de web/archivos/imágenes y streaming.
  • gpt-5-chat-latest se lanzó como modelo no centrado en razonamiento para ChatGPT con el mismo precio.

Integración y escalabilidad

  • Lanzamiento con integración en diversas plataformas de Microsoft, incluyendo Microsoft 365 Copilot, GitHub Copilot y Azure AI Foundry.
  • Se adoptó como motor central en sistemas de agentes de desarrollador como Cursor, Windsurf, GitHub Copilot y Codex CLI.
  • En evaluaciones internas de alpha testers y en distintos productos de automatización de código y tareas, estableció un nuevo estándar frente a modelos anteriores.

Seguridad, confiabilidad y recursos adicionales

  • La probabilidad de responder incorrectamente (alucinaciones) se redujo notablemente, y explica de forma más honesta sus límites y el proceso de trabajo.
  • La tarjeta del sistema, el blog de investigación interna y otros materiales detallan con transparencia la implementación, la evaluación y las medidas de seguridad.
  • GPT-5 funciona como un socio avanzado de codificación automática y está especializado en la automatización de flujos de trabajo de tipo agentic.

Conclusión

  • GPT-5 es el modelo más poderoso centrado en codificación y trabajo de agentes entre los LLM lanzados hasta ahora, y está optimizado para ambientes de desarrollo y automatización de trabajo reales.
  • Con la API y el sistema de herramientas mejorados, opciones de tamaño y precio, y un alto desempeño medible, abre una nueva era de productividad para desarrolladores y organizaciones.

1 comentarios

 
GN⁺ 2025-08-08
Opinión en Hacker News
  • No siento una diferencia práctica importante en la pericia de desarrollo de software entre Opus y GPT-5, pero para mí lo realmente importante es qué tan bien mantiene el contexto durante mucho tiempo y avanza hacia el objetivo dado. En la ingeniería de software real, eso es lo más importante, así que me interesa mucho tener una métrica de evaluación que mida y valide eso con precisión.
    • En las últimas semanas, en Charlie Labs experimenté resultados bastante buenos con pruebas de mantenimiento de contexto de trabajo prolongado en GPT-5. Cuando les pedí resolver 10 issues reales de GitHub y lo comparé con Claude Code, la brecha de rendimiento fue sorprendente. Los detalles del experimento se pueden ver aquí. En contextos complejos de 30 a 45 minutos, incluso si cambia la dirección, sigue el rumbo; también maneja bien hilos extensos de Linear o GitHub. Aun cuando el número de issues aún es pequeño, fue muy impresionante y planeo seguir ampliándolo para medir rendimiento.
    • Todos los días aparecen objetivos complejos con cambios de contexto frecuentes, y en esos escenarios esa capacidad es crítica. Es una lástima que GitHub Copilot siga siendo una especie de “cosa abandonada” entre las herramientas de asistencia al código existentes; no recibe tanta atención como modelos de Anthropic, OpenAI, Google, etc. Y al usar la función basada en web de GitHub llamada spaces, funcionó mejor para tareas grandes que en el IDE, pero la desventaja fue que recopilar contexto y revisar resultados me llevó más tiempo que hacerlo yo mismo. Creo que justamente ahí su fuerza estará en acumular contexto.
    • Hoy en día, con el contexto que ofrecen los LLM frontier, se resuelve la mayoría de los problemas. Cada vez que fallan, la mayor parte del tiempo se la paso determinando qué contexto faltó. Por eso, lo que necesito es una capacidad de recolección de contexto más enfocada y precisa. En mis casos de uso, suele ser clave centrarse en material realmente relevante de archivos de código, issues, PR y discusiones. Espero que GPT-5 avance en esto; si cuesta menos que Opus y rinde similar o mejor, la expectativa es todavía mayor.
    • La política de precios de GPT-5 mejoró muchísimo frente a Opus y ahora está cerca del nivel de Gemini 2.5 Pro.
    • Si GPT-5 realmente opera con contexto de 400k, creo que sería suficiente para superar a Opus de forma significativa.
  • Estoy probando gpt-5-mini en escenarios de RAG y hasta ahora me parece impresionante. Con la opción reasoning_effort="minimal" no produjo alucinaciones en la parte donde los modelos anteriores sí lo hacían; subí una captura de pantalla aquí. Más adelante haré una evaluación formal.
    • En la pregunta "¿Qué hace un product manager?", GPT-4 dio una respuesta con mucha retórica sobre colaboración interdepartamental, mientras que GPT-5 respondió "No lo sé", y en esa sola frase sentí como si la IA se despertara de verdad.
    • También confirmé que phi-4 y gemma-3n mejoraron en escenarios de RAG: usan solo el contexto provisto y no se fuerzan a responder con contenido que no aparece allí, lo que mejora la prevención de alucinaciones.
    • Para mí, el cambio más grande está aquí. Manejo flujos de trabajo con muchas llamadas a herramientas, y el problema más grave era que el modelo inventaba herramientas falsas. Incluso saltaba las llamadas y respondía directamente sin base. Parece que el entrenamiento está mejorando de forma relevante para penalizar alucinaciones y omisiones de llamadas a herramientas.
  • En la última semana hice experimentos por unas 70 horas con varias herramientas como Cursor y Claude Code. Es realmente impresionante y la confiabilidad es mucho mayor, pero en la práctica lo que sigue funcionando consistentemente es la familia Claude. Esto me parece más importante que los benchmarks, porque se nota más en uso real. Espero que el nuevo modelo de GPT funcione bien en este caso; la competencia se está intensificando y además de precios, vale la pena esperar.
    • Gracias a la actualización reciente del tool de Cursor (1.4), incluso modelos como Gemini usan herramientas con mucha más confiabilidad que antes. Antes fallaban seguido en acciones básicas como editar archivos; ahora casi siempre funcionan correctamente.
    • Creo que esto también depende del stack usado. Vi el video de presentación de Convex de t3.gg video, Convex, y su estructura te ayuda a sacar algo bien hecho desde el primer intento. Al probarlo me pasó exactamente lo mismo. En el futuro, para maximizar la paralelización de varias IAs en el flujo de trabajo de desarrollo, creo que el cambio será crear varios tickets en una herramienta de PM (hoy parece que Linear domina), dejarlos pasar por la IA para filtrar qué puede ejecutarse en paralelo, y luego trabajar varios tickets a la vez desde IDE o Warp. Yo aún no trabajo así al 100%, pero creo que debo cambiar, y para ello el git worktree es obligatorio material relacionado, documentación, blog
    • Me pregunto en qué punto es razonable decir que algo funciona, es "bueno" o "confiable". Con 70 horas puedes llegar hasta un PoC, pero me interesa la calidad cuando se agregan funcionalidades de forma incremental.
    • Aunque los modelos de razonamiento de OpenAI muestren mejor código y resolución de problemas, siento que Claude code es lo más útil en la práctica. Incluso si el modelo base sea más débil, creo que encaja mejor para uso real.
  • Si el desempeño en benchmark es igual de bueno, la política de precios también se vuelve muy atractiva: entrada de tokens $1.25/millón, entrada cacheada $0.125/millón y salida $10/millón. Para referencia, Claude Opus 4.1 cuesta $15/millón de entrada y $75/millón de salida. Ahora lo importante será qué tan bien se compara en uso de herramientas frente a Claude Code. La demo fue buena, pero en Tau2-bench airline salió por debajo de o3, así que no puedo afirmarlo todavía.
    • En pruebas directas de las últimas horas, GPT-5 me parece cada vez mejor frente a Opus 4.1. Después de meses usando el plan 200 de Claude Code, la calidad de salida se había ido desgastando, y pienso que GPT-5 está un paso adelante.
    • También es interesante que, aun con una estructura de dos o más submodelos, se aplique un precio uniforme por token. En la práctica parece diseñado con una predicción de que se use más el modelo barato, y me pregunto si el esquema de precios se sostendrá si el usuario usa más el modelo de mayor rendimiento, o quizá el margen de precio sea lo bastante amplio como para que no importe.
    • Precio no es costo. El precio actual parece fijado deliberadamente bajo para ganar participación de mercado, y podría no reflejar los costos operativos reales. Espero que buena parte de los $40 mil millones recibidos en marzo se destine precisamente a esta guerra de precios.
  • El anuncio dice: “GPT-5 rompió récord al superar el 96.7% en la benchmark de llamadas de herramientas para tareas agentic (τ2-bench telecom)”, pero en la benchmark airline quedó por debajo de o3; parece que destacaron solo la información que les favorece.
    • Desde quien escribió ese gráfico y esa sección, quiero decir que el benchmark fuerte aquí es telecom. retail y airline usan autoevaluación tan estricta que solo una respuesta queda como correcta y puntúa, así muchas soluciones buenas se quedan sin puntos. telecom puntúa por estado de resultado y permite múltiples respuestas correctas, corrigiendo una debilidad de la autoevaluación y dejando una señal de desempeño real más clara. Por eso tiene sentido enfocarse en telecom. También puedes revisar el paper de tau2-bench. Además, en estas evaluaciones no hay puntaje parcial, así que un error pequeño impacta mucho el total; por eso el desempeño real puede ser mayor o menor que el puntaje.
    • Lo que me interesa también es el costo: o3 se maneja bastante caro, así que si GPT-5 sale más barato, puede verse como una mejora significativa incluso si el rendimiento es similar.
    • Dado que en el texto principal también se menciona explícitamente la baja en airline, no creo que sea una trampa de pregunta.
  • Me parece interesante el soporte de CFG (Context-Free Grammar) y regex, y me intriga si hay diferencia con el CFG estilo Lark de llguidance que implementa JSON Schema de OpenAI API, código relacionado
    • Lo más esperado de este anuncio es CFG y salida estructurada. En otros lados (API, Google, OpenAI, etc.) este tema sigue dando problemas en uso real, así que quiero probarlo cuanto antes.
  • Cursor estuvo gratis por unos días. He sido power user de agentic coding en varios IDE/CLI, y la combinación Cursor + GPT-5 se siente muy buena. Recomiendo probarla directamente cuando tengas tiempo.
  • Es sorprendente que se haya incluido una función para forzar CFG directamente en la salida, y eso me resulta muy interesante. Tengo curiosidad de cómo se impone una gramática correcta en la fase de muestreo.
    • Lo supondría como "structured generation" o "guided generation". Si puedes trabajar directamente con un LLM, esta técnica ya se usaba antes. Ejemplo1, Ejemplo2. La clave es que en cada paso de generación solo se le da el conjunto de tokens permitidos por la gramática actual en lugar de todo el vocabulario; por ejemplo, en JSON, tras un {, solo se ofrecen los tokens válidos para esa posición.
    • Solo se dejan en el pool de muestreo tokens válidos por las reglas de producción gramatical; la restricción se aplica en el proceso de inference.
  • Me da la impresión que comparar en benchmark solo con la generación anterior de GPT-5 y no con modelos competidores se siente como cuando Apple compara el iPhone solo con su propia generación anterior.
  • En una prueba de GPT-5 con un problema difícil, Gemini no pudo resolverlo pero sí lo analizó muy bien; sin embargo, luego falló seis veces al corregir el código. Cuando le pasé el resultado de análisis de GPT-5 a Google, Gemini generó de inmediato el código correcto. En conclusión, ChatGPT analiza y revisa bien, pero aún falla en capacidad de codificación real.
    • Yo también, con Gemini (GCA) y CoPilot (Claude), hice el mismo análisis del mismo problema y llegué a la misma solución incorrecta. Aunque señalé el error, siguieron dando una solución aún más equivocada. A ChatGPT todavía no lo he probado, pero pronto lo haré.