- GPT-5 fue evaluado como el mejor modelo para la mayoría de los usuarios generales en ChatGPT, con grandes mejoras en velocidad, simplicidad y calidad de respuesta
- Logró una fuerte competitividad de precios frente a la competencia en la API; en particular, GPT-5-mini es más barato que Google Gemini 2.5 Flash y GPT-5 Standard es 12 veces más barato que Claude 4 Opus
- Destaca en tareas cotidianas, pair programming, investigación y depuración, pero tiene limitaciones en programación agéntica y evaluación de calidad de escritura
- En la revisión del equipo, GPT-5 mostró fortalezas en tareas definidas, fusión de código, redacción de borradores y análisis profundo, pero quedó corto en trabajo autónomo prolongado y desarrollo creativo a gran escala
- En pruebas de benchmark, sobresalió en resolución de problemas específicos, implementación de funciones de apps e investigación, pero en juegos, diseño de UI y consistencia de escritura, Opus 4.1 recibió mejores evaluaciones
GPT-5 en ChatGPT
- La velocidad es su rasgo más destacado: responde de inmediato a consultas simples y, ante solicitudes complejas, se toma más tiempo por su cuenta para ofrecer respuestas más profundas
- Se eliminó el menú de selección de modelo y se adoptó un sistema de cambio automático (auto-switcher), que elige automáticamente entre versiones sin razonamiento y con razonamiento según la solicitud
- Para preguntas simples de conocimiento usa la versión rápida sin razonamiento
- Para solicitudes complejas de generación, código o análisis usa la versión con razonamiento
- Las respuestas están organizadas con subtítulos estructurados, espacios y negritas, con enfoque en la legibilidad
- En Canvas puede generar apps frontend de una sola vez (one-shot), pero existe un límite de 1,000 líneas de código y algunas restricciones funcionales
- Al ofrecer un modelo de reasoning como gratis y predeterminado, eleva la calidad de la experiencia de IA para el público general
GPT-5 en la API
- GPT-5-mini: $0.25 por 1 millón de tokens de entrada → más barato que Google Gemini 2.5 Flash ($0.30)
- GPT-5 Standard: $1.25 por 1 millón de tokens de entrada → igual que Google Gemini 2.5 Pro, y 1/12 del precio de Claude 4 Opus ($15)
- El precio por token de salida es más alto que en o4-mini, pero su capacidad de seguir instrucciones (steerability) es excelente, así que destaca en tareas con indicaciones detalladas
- Por su relación precio-rendimiento, tiene alta probabilidad de atraer a usuarios de APIs rivales
Ingeniería agéntica
- Es sobresaliente en tareas backend precisas, depuración y comprensión de código, pero resulta ineficiente en escritura autónoma de código a largo plazo y en trabajo frontend a gran escala
- Cursor y Codex CLI están diseñados más para pair programming que para desarrollo de delegación completa (fully agentic)
- Frente a Claude Code, le faltan persistencia y autonomía en tareas largas, y procesa menor volumen de trabajo con menor velocidad
Evaluación detallada por caso de uso
- Tareas cotidianas: respuestas rápidas sin necesidad de elegir modelo, manejo integral de preguntas que requieren investigación y menor frecuencia de alucinaciones
- Pair programming: sobresale en corrección de bugs, implementación de funciones y comprensión de codebases grandes, con alta velocidad y precisión
- Escritura: reduce los patrones de frase típicos de la IA y ofrece expresiones más variadas, por lo que es adecuado para redactar borradores; también puede aprender estilos específicos
- Ingeniería agéntica: en proyectos largos y generación autónoma de código se detiene con frecuencia y la calidad de salida es baja
- Edición de textos: muestra poca consistencia al evaluar la calidad de la escritura y la naturalidad de las oraciones, por lo que su confiabilidad es baja
Hallazgos de la mesa redonda del equipo
- Kieran Klaassen (director de Cora): GPT-5 es adecuado para trabajo repetitivo basado en instrucciones detalladas, al nivel de reemplazar a Sonnet 3.5
> "GPT-5 hace lo que le pides. Con cuidado, en pasos pequeños y sin salirse nunca del camino, y ese es precisamente mi problema con él. Es fuerte para programar, pero no está optimizado para lo agéntico. En un proceso de desarrollo iterativo más tradicional, si le dices ‘esto está bien, ahora haz aquello’, es fácil de manejar. Pero esa era la forma de trabajar con IA en 2024. GPT-5 no es un salto hacia el futuro; es un killer de Sonnet 3.5."
- Danny Aziz (director de Spiral): es ideal para tareas de alcance definido, como fusiones complejas de código, pero para revisiones largas y análisis a gran escala sigue prefiriendo Claude
> "El momento mágico de GPT-5 fue cuando fusionó dos codebases complejas. El framework open source que estaba usando no podía hacer la función que quería, así que le pedí que integrara código de otro framework. No lo resolvió de una sola vez, pero sentí una colaboración real mientras avanzábamos hacia el objetivo. Disfruto usar GPT-5 para tareas de programación claras y bien definidas. Para trabajo agéntico de largo aliento, como code review, todavía uso Claude Code, pero cuando me atasco o no quiero pensar demasiado, GPT-5 me lleva hasta el destino."
- Alex Duffy (responsable de educación en IA): para usuarios gratuitos es una gran mejora frente a GPT-4o, y destaca en procesamiento de grandes volúmenes de datos y tareas estructuradas
> "Para los consumidores, GPT-5 es claramente una mejora respecto a GPT-4o. Si eres usuario gratuito, la diferencia se nota mucho. Los usuarios profesionales todavía pueden usar herramientas especializadas como o3 u Opus, pero para los desarrolladores, GPT-5 ofrece el valor de ser un modelo confiable que sigue bien los prompts. En especial, sirve para resumir y organizar grandes volúmenes de información con alta calidad. El precio por token de salida es más alto que en o4-mini, pero a cambio sigue muy bien las instrucciones. GPT-5-mini puede competir en precio con Flash y, si la velocidad acompaña, podría ser un verdadero tapado."
- Naveen Naidu (EIR): resolvió en colaboración con GPT-5 un bug de congelamiento en una app que no había podido solucionar en 4 días
> "En mi app de dictado con IA, ‘Monologue’, no pude encontrar un bug que congelaba la aplicación durante 4 días. Pasé 4 horas solo el domingo con Claude Code y no lo logré. Con GPT-5 colaboré como si fuera un colega para rastrear qué parte estaba fallando, y al final encontramos el bug exacto."
- Katie Parrott (escritora y líder de operaciones de IA): quedó más satisfecha que con Opus al redactar borradores; destaca en entrevistas y diseño de preguntas, pero el vibe coding fue ineficiente
> "Usé GPT-5 para convertir un esquema en un borrador y me gustó. Después de enseñarle el estilo de Every con algunos prompts, le pedí algo con el estilo de ‘una mezcla entre un artículo de The Atlantic y un post popular de Hacker News’, y produjo un resultado sólido. Disminuyeron los patrones trillados típicos de los textos de IA, como ‘It’s not just X, but Y’. También estructuró muy bien la base de preguntas para entrevistas. Para redactar borradores, GPT-5 me satisfizo más que Opus.
> Pero al hacer vibe coding en Codex fue menos eficiente. Intentaba procesar todo solo en unidades pequeñas y yo tenía que presionar ‘continuar’ cada vez. Tampoco explicaba el plan de los siguientes pasos como sí lo hace Claude."
- Yash Poojary (director de Sparkle): deja que desear en programación en Swift, pero es el mejor en análisis técnico complejo, diseño y evaluación de trade-offs
> "A mí solo me importa Swift. GPT-5 no me impresionó al principio. Solo se volvió útil cuando le di ciertos prompts de configuración. Aun así, en programación en Swift no está al nivel de reemplazar a Claude.
> Pero en investigación pura fue el mejor. Por ejemplo, cuando le pregunté cómo encontrar archivos duplicados en Mac, entregó el análisis técnicamente más preciso que he visto en una IA. Era como si un arquitecto de sistemas con IQ de 140 que ya construyó el sistema tres veces me explicara todas las lecciones aprendidas. Para implementación pura usaría Claude, pero para contexto profundo, análisis de trade-offs y discusiones de diseño, usaría GPT-5."
- La mamá de Dan (perspectiva de usuaria general): evaluó que el nivel de información, legibilidad y fluidez está entre lo mejor de ChatGPT
> "Este modelo es realmente asombroso. Es mucho más completo que cualquier respuesta que haya recibido antes en ChatGPT. La información se lee bien y fluye con naturalidad. Este modelo es oro puro."
Resultados detallados de benchmarks
- Evaluación de escritura: poca consistencia en los resultados incluso sobre el mismo texto; menor confiabilidad que Opus
- Creación de juegos one-shot: se ejecuta de forma estable, pero le falta creatividad y diversión; Opus 4.1 fue mejor evaluado
- AI Diplomacy: el rendimiento con prompts básicos es bajo, pero con instrucciones optimizadas iguala a Flash; su fortaleza es la steerability
- Rompecabezas imposible: lo resolvió en 1 minuto 10 segundos, muy por delante de o3
- Creación one-shot de app musical: implementó funciones similares a GarageBand; la UI es simple y se prefirió el diseño de Opus 4
- Otras pruebas: en los benchmarks Pelican on a bicycle y thup se hizo evidente la diferencia de personalidad frente a Claude
Aún no hay comentarios.