14 puntos por GN⁺ 2025-08-08 | Aún no hay comentarios. | Compartir por WhatsApp
  • GPT-5 ofrece un rendimiento que supera a los modelos anteriores en todas las áreas, incluyendo programación, matemáticas, escritura, salud y percepción visual, y es un sistema integrado que combina respuestas rápidas y razonamiento profundo según el contexto
  • “GPT-5 Thinking” aplica un razonamiento más largo a problemas complejos para mejorar la precisión, y los usuarios del plan Pro pueden aprovechar el máximo nivel de rendimiento con GPT-5 Pro, una versión ampliada
  • En uso real, redujo de forma importante la tasa de alucinaciones (generación de hechos incorrectos), y mejoró la comprensión multimodal, el seguimiento de instrucciones y la capacidad para realizar tareas complejas conectando herramientas
  • Se reforzó el soporte para desarrolladores en tareas como generación de UI frontend y depuración a gran escala, y en el área de salud logró la puntuación más alta en HealthBench, actuando como un socio de salud activo
  • En seguridad, se introdujo el entrenamiento de “safe completion” para reducir rechazos innecesarios, además de incorporar un sistema de defensa multinivel de alto nivel en los ámbitos biológico y químico

Resumen de GPT-5

Sistema integrado

  • Dentro de un mismo sistema se incluyen un modelo inteligente y eficiente, un modelo de razonamiento profundo (GPT-5 Thinking) y un router en tiempo real que los selecciona según la situación, la complejidad, la necesidad de herramientas y la intención del usuario
  • Si se supera el límite de uso, las versiones “mini” de cada modelo procesan las consultas restantes
  • En el futuro, estas funciones se integrarán en un solo modelo

Mejoras en rendimiento y utilidad

  • Rendimiento muy superior al de GPT-4o en benchmarks generales
  • Menos alucinaciones, mejor seguimiento de instrucciones y minimización de respuestas complacientes (sycophancy)
  • Mejoras en tres áreas clave
    • Programación: se fortalecieron las capacidades para generar frontends complejos, depurar repositorios de gran escala y crear UI/UX con criterio estético
    • Escritura: puede manejar ambigüedad estructural y expresarse con profundidad literaria y ritmo, además de mejorar el apoyo para redactar y editar documentos cotidianos
    • Salud: logró la mejor marca en HealthBench y ofrece respuestas seguras y precisas adaptadas al contexto, nivel de conocimiento y región

Resultados de evaluación

  • Alcanzó SOTA con matemáticas 94.6% (AIME 2025), programación SWE-bench Verified 74.9%, multimodal MMMU 84.2% y salud HealthBench Hard 46.2%
  • En GPQA, GPT-5 Pro logró la mejor marca con 88.4%
  • Mejoró de forma notable la capacidad de procesar tareas multimodales, conexión con herramientas y trabajos de múltiples etapas

Razonamiento eficiente

  • Reduce entre 50~80% el uso de tokens para el mismo nivel de rendimiento
  • En tareas complejas y de alta dificultad, GPT-5 Thinking reduce claramente la tasa de errores y alucinaciones frente a o3

Mayor confiabilidad y factualidad

  • En pruebas abiertas de factualidad, la tasa de alucinaciones se redujo 6 veces
  • Explica con claridad sus límites cuando una tarea es imposible o falta información
  • La proporción de respuestas sycophantic bajó de 14.5% a menos de 6%

Mejoras de seguridad

  • El entrenamiento de “safe completion” permite ofrecer respuestas seguras y útiles incluso ante solicitudes con posible riesgo
  • Se aplicó un sistema de defensa multinivel para escenarios de alto riesgo en biología y química

GPT-5 Pro

  • Modelo de razonamiento ampliado para las tareas más difíciles
  • En evaluaciones de expertos, fue preferido un 67.8% por encima de GPT-5 Thinking y redujo 22% los errores clave
  • Máximo rendimiento en salud, ciencia, matemáticas y programación

Cómo usarlo y acceso

  • GPT-5 se aplica como modelo predeterminado de ChatGPT y reemplaza modelos anteriores (GPT-4o, o3, etc.)
  • Es posible forzar el modo de razonamiento escribiendo “think hard about this”
  • Se desplegará de forma gradual para Plus, Pro, Team y Free, y para Enterprise y Edu una semana después
  • Los usuarios gratuitos pasan a GPT-5 mini cuando superan el límite

Puntos clave de GPT-5 para desarrolladores

Rendimiento y características

  • Rendimiento en programación:

    • SWE-bench Verified 74.9% (o3: 69.1%), 22% menos uso de tokens, 45% menos llamadas a herramientas
    • Aider polyglot 88%, con reducción de un tercio en la tasa de errores al modificar código
    • En generación de código frontend, fue preferido 70% frente a o3
  • Tareas de agentes:

    • τ 2-bench telecom 96.7%, con mayor estabilidad en llamadas múltiples y paralelas a herramientas
    • Puede mostrar mensajes preliminares para informar visiblemente al usuario sobre el progreso y el plan
  • Contexto largo:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • Procesa hasta 400 mil tokens de contexto

Nuevas funciones de API

  • reasoning_effort: ajusta el tiempo de razonamiento en el rango minimal~high
  • verbosity: establece la longitud predeterminada de la respuesta entre low~high
  • Herramientas personalizadas: pueden llamarse en texto plano en lugar de JSON y admiten restricciones por expresiones regulares/gramática
  • Incluye herramientas integradas como llamadas paralelas a herramientas, búsqueda web, búsqueda de archivos y generación de imágenes
  • Soporta funciones de ahorro de costos como prompt caching y Batch API

Estabilidad y confiabilidad

  • En los benchmarks LongFact y FactScore, la tasa de alucinaciones se redujo en ~80% frente a o3
  • Se reforzaron la conciencia de sus propios límites y la capacidad de manejar situaciones inesperadas
  • Adecuado para tareas de alto riesgo o que requieren precisión (código, datos, toma de decisiones)

Availability & pricing

Tamaños disponibles y endpoints

  • Tamaños disponibles: gpt-5, gpt-5-mini y gpt-5-nano
  • Interfaces compatibles: Responses API, Chat Completions API y como valor predeterminado en Codex CLI
  • Características del modelo: la familia GPT‑5 en la API es un modelo de razonamiento, mientras que el modelo non‑reasoning de ChatGPT se ofrece con un ID separado

Tabla de precios y unidad de cobro

  • gpt-5: entrada $1.25/millón de tokens, salida $10/millón de tokens
  • gpt-5-mini: entrada $0.25/millón, salida $2/millón
  • gpt-5-nano: entrada $0.05/millón, salida $0.40/millón
  • gpt-5-chat-latest (sin razonamiento): entrada $1.25/millón, salida $10/millón, igual que gpt-5

Resumen de funciones compatibles

  • Control de razonamiento: en reasoning_effort se puede indicar minimal, low, medium o high para ajustar el equilibrio entre velocidad y precisión
  • Longitud de respuesta: con verbosity se puede fijar la tendencia base a corta / predeterminada / larga
  • Tooling: con custom tools se admiten llamadas con argumentos en texto plano y se pueden aplicar restricciones regex/CFG
  • Funciones de ejecución: soporta llamadas paralelas a herramientas, herramientas integradas (web search, file search, image generation, etc.), streaming y Structured Outputs
  • Optimización de costos: prompt caching y Batch API ayudan a reducir el costo en tokens y latencia
  • Canal de despliegue: GPT‑5 se aplica en Microsoft 365 Copilot, Copilot, GitHub Copilot y Azure AI Foundry en general

Ejemplo simple de costos

  • Al procesar con gpt-5 una carga de 50k de entrada + 5k de salida, el costo total es ≈ $0.1125
    • Cálculo: entrada 0.05M × $1.25 = $0.0625, salida 0.005M × $10 = $0.05, total $0.1125
  • Al procesar la misma tarea con gpt-5-mini, el costo total es ≈ $0.0175
    • Entrada 0.05M × $0.25 = $0.0125, salida 0.005M × $2 = $0.01, el total correcto sería $0.0225, pero considerando el precio de salida, la diferencia crece más en cargas donde predomina la entrada
  • En pipelines con mucho output generativo a gran escala, hay un incentivo importante para elegir modelos con menor costo de salida

Notas guía de selección

  • Si la precisión es lo más importante y se necesita una cadena compleja de herramientas en un agente backend, conviene considerar gpt-5
  • Para edición cotidiana de código, agentes ligeros y procesamiento batch a gran escala, gpt-5-mini ofrece un mejor equilibrio entre costo y calidad
  • Para preprocesamiento, validación de reglas y resúmenes simples con latencia y costo ultrabajos, gpt-5-nano es adecuado

Referencia

  • Si quieres seguir usando el modelo predeterminado non‑reasoning de ChatGPT, en la API puedes elegir gpt-5-chat-latest
  • Como las instrucciones explícitas tienen prioridad sobre la longitud por defecto de la respuesta, incluso con verbosity, si se indica una longitud concreta como “ensayo de 5 párrafos”, seguirá esa instrucción

Aún no hay comentarios.

Aún no hay comentarios.