Presentación de GPT-5
(openai.com)- GPT-5 ofrece un rendimiento que supera a los modelos anteriores en todas las áreas, incluyendo programación, matemáticas, escritura, salud y percepción visual, y es un sistema integrado que combina respuestas rápidas y razonamiento profundo según el contexto
- “GPT-5 Thinking” aplica un razonamiento más largo a problemas complejos para mejorar la precisión, y los usuarios del plan Pro pueden aprovechar el máximo nivel de rendimiento con GPT-5 Pro, una versión ampliada
- En uso real, redujo de forma importante la tasa de alucinaciones (generación de hechos incorrectos), y mejoró la comprensión multimodal, el seguimiento de instrucciones y la capacidad para realizar tareas complejas conectando herramientas
- Se reforzó el soporte para desarrolladores en tareas como generación de UI frontend y depuración a gran escala, y en el área de salud logró la puntuación más alta en HealthBench, actuando como un socio de salud activo
- En seguridad, se introdujo el entrenamiento de “safe completion” para reducir rechazos innecesarios, además de incorporar un sistema de defensa multinivel de alto nivel en los ámbitos biológico y químico
Resumen de GPT-5
Sistema integrado
- Dentro de un mismo sistema se incluyen un modelo inteligente y eficiente, un modelo de razonamiento profundo (GPT-5 Thinking) y un router en tiempo real que los selecciona según la situación, la complejidad, la necesidad de herramientas y la intención del usuario
- Si se supera el límite de uso, las versiones “mini” de cada modelo procesan las consultas restantes
- En el futuro, estas funciones se integrarán en un solo modelo
Mejoras en rendimiento y utilidad
- Rendimiento muy superior al de GPT-4o en benchmarks generales
- Menos alucinaciones, mejor seguimiento de instrucciones y minimización de respuestas complacientes (sycophancy)
- Mejoras en tres áreas clave
- Programación: se fortalecieron las capacidades para generar frontends complejos, depurar repositorios de gran escala y crear UI/UX con criterio estético
- Escritura: puede manejar ambigüedad estructural y expresarse con profundidad literaria y ritmo, además de mejorar el apoyo para redactar y editar documentos cotidianos
- Salud: logró la mejor marca en HealthBench y ofrece respuestas seguras y precisas adaptadas al contexto, nivel de conocimiento y región
Resultados de evaluación
- Alcanzó SOTA con matemáticas 94.6% (AIME 2025), programación SWE-bench Verified 74.9%, multimodal MMMU 84.2% y salud HealthBench Hard 46.2%
- En GPQA, GPT-5 Pro logró la mejor marca con 88.4%
- Mejoró de forma notable la capacidad de procesar tareas multimodales, conexión con herramientas y trabajos de múltiples etapas
Razonamiento eficiente
- Reduce entre 50~80% el uso de tokens para el mismo nivel de rendimiento
- En tareas complejas y de alta dificultad, GPT-5 Thinking reduce claramente la tasa de errores y alucinaciones frente a o3
Mayor confiabilidad y factualidad
- En pruebas abiertas de factualidad, la tasa de alucinaciones se redujo 6 veces
- Explica con claridad sus límites cuando una tarea es imposible o falta información
- La proporción de respuestas sycophantic bajó de 14.5% a menos de 6%
Mejoras de seguridad
- El entrenamiento de “safe completion” permite ofrecer respuestas seguras y útiles incluso ante solicitudes con posible riesgo
- Se aplicó un sistema de defensa multinivel para escenarios de alto riesgo en biología y química
GPT-5 Pro
- Modelo de razonamiento ampliado para las tareas más difíciles
- En evaluaciones de expertos, fue preferido un 67.8% por encima de GPT-5 Thinking y redujo 22% los errores clave
- Máximo rendimiento en salud, ciencia, matemáticas y programación
Cómo usarlo y acceso
- GPT-5 se aplica como modelo predeterminado de ChatGPT y reemplaza modelos anteriores (GPT-4o, o3, etc.)
- Es posible forzar el modo de razonamiento escribiendo “think hard about this”
- Se desplegará de forma gradual para Plus, Pro, Team y Free, y para Enterprise y Edu una semana después
- Los usuarios gratuitos pasan a GPT-5 mini cuando superan el límite
Puntos clave de GPT-5 para desarrolladores
Rendimiento y características
-
Rendimiento en programación:
- SWE-bench Verified 74.9% (o3: 69.1%), 22% menos uso de tokens, 45% menos llamadas a herramientas
- Aider polyglot 88%, con reducción de un tercio en la tasa de errores al modificar código
- En generación de código frontend, fue preferido 70% frente a o3
-
Tareas de agentes:
- τ 2-bench telecom 96.7%, con mayor estabilidad en llamadas múltiples y paralelas a herramientas
- Puede mostrar mensajes preliminares para informar visiblemente al usuario sobre el progreso y el plan
-
Contexto largo:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- Procesa hasta 400 mil tokens de contexto
Nuevas funciones de API
reasoning_effort: ajusta el tiempo de razonamiento en el rangominimal~highverbosity: establece la longitud predeterminada de la respuesta entrelow~high- Herramientas personalizadas: pueden llamarse en texto plano en lugar de JSON y admiten restricciones por expresiones regulares/gramática
- Incluye herramientas integradas como llamadas paralelas a herramientas, búsqueda web, búsqueda de archivos y generación de imágenes
- Soporta funciones de ahorro de costos como prompt caching y Batch API
Estabilidad y confiabilidad
- En los benchmarks LongFact y FactScore, la tasa de alucinaciones se redujo en ~80% frente a o3
- Se reforzaron la conciencia de sus propios límites y la capacidad de manejar situaciones inesperadas
- Adecuado para tareas de alto riesgo o que requieren precisión (código, datos, toma de decisiones)
Availability & pricing
Tamaños disponibles y endpoints
- Tamaños disponibles:
gpt-5,gpt-5-miniygpt-5-nano - Interfaces compatibles: Responses API, Chat Completions API y como valor predeterminado en Codex CLI
- Características del modelo: la familia GPT‑5 en la API es un modelo de razonamiento, mientras que el modelo non‑reasoning de ChatGPT se ofrece con un ID separado
Tabla de precios y unidad de cobro
gpt-5: entrada $1.25/millón de tokens, salida $10/millón de tokensgpt-5-mini: entrada $0.25/millón, salida $2/millóngpt-5-nano: entrada $0.05/millón, salida $0.40/millóngpt-5-chat-latest(sin razonamiento): entrada $1.25/millón, salida $10/millón, igual quegpt-5
Resumen de funciones compatibles
- Control de razonamiento: en
reasoning_effortse puede indicarminimal,low,mediumohighpara ajustar el equilibrio entre velocidad y precisión - Longitud de respuesta: con
verbosityse puede fijar la tendencia base a corta / predeterminada / larga - Tooling: con custom tools se admiten llamadas con argumentos en texto plano y se pueden aplicar restricciones regex/CFG
- Funciones de ejecución: soporta llamadas paralelas a herramientas, herramientas integradas (web search, file search, image generation, etc.), streaming y Structured Outputs
- Optimización de costos: prompt caching y Batch API ayudan a reducir el costo en tokens y latencia
- Canal de despliegue: GPT‑5 se aplica en Microsoft 365 Copilot, Copilot, GitHub Copilot y Azure AI Foundry en general
Ejemplo simple de costos
- Al procesar con
gpt-5una carga de 50k de entrada + 5k de salida, el costo total es ≈ $0.1125- Cálculo: entrada 0.05M × $1.25 = $0.0625, salida 0.005M × $10 = $0.05, total $0.1125
- Al procesar la misma tarea con
gpt-5-mini, el costo total es ≈ $0.0175- Entrada 0.05M × $0.25 = $0.0125, salida 0.005M × $2 = $0.01, el total correcto sería $0.0225, pero considerando el precio de salida, la diferencia crece más en cargas donde predomina la entrada
- En pipelines con mucho output generativo a gran escala, hay un incentivo importante para elegir modelos con menor costo de salida
Notas guía de selección
- Si la precisión es lo más importante y se necesita una cadena compleja de herramientas en un agente backend, conviene considerar
gpt-5 - Para edición cotidiana de código, agentes ligeros y procesamiento batch a gran escala,
gpt-5-miniofrece un mejor equilibrio entre costo y calidad - Para preprocesamiento, validación de reglas y resúmenes simples con latencia y costo ultrabajos,
gpt-5-nanoes adecuado
Referencia
- Si quieres seguir usando el modelo predeterminado non‑reasoning de ChatGPT, en la API puedes elegir
gpt-5-chat-latest - Como las instrucciones explícitas tienen prioridad sobre la longitud por defecto de la respuesta, incluso con
verbosity, si se indica una longitud concreta como “ensayo de 5 párrafos”, seguirá esa instrucción
Aún no hay comentarios.