1 puntos por GN⁺ 2025-08-08 | Aún no hay comentarios. | Compartir por WhatsApp
  • La API de GPT-5 se lanzó oficialmente y ofrece a los desarrolladores un nuevo nivel de rendimiento en codificación y trabajo de agentes.
  • En evaluaciones clave como SWE-bench Verified y Aider polyglot registró el mejor rendimiento (SOTA), y validó su excelencia en múltiples casos de clientes como Cursor, Windsurf y Vercel.
  • Demostró gran solidez en tareas reales complejas, como trabajos de agentes de ejecución prolongada, integración de herramientas sofisticada y procesamiento de contextos largos.
  • Gracias a parámetros finos como verbosity, reasoning_effort y al soporte de herramientas personalizadas, los desarrolladores pueden controlarlo a medida.
  • Con gpt-5, gpt-5-mini y gpt-5-nano ofrece opciones de costo/rendimiento y se integra con Microsoft y diversas herramientas para desarrolladores.

Lanzamiento e importancia de GPT-5

  • OpenAI anunció públicamente GPT-5 en su plataforma API, destacando que es el modelo con mejor rendimiento en codificación y tareas de agente optimizado hasta ahora.
  • Alcanzó SOTA (mejor rendimiento) en benchmarks clave de programación y fue entrenado en colaboración con testers de startups y empresas reales.
  • Mostró un desempeño sobresaliente como copiloto en tareas reales como generación de código, corrección de errores, edición de código y consultas complejas en bases de código.
  • Mejoró su capacidad para seguir instrucciones detalladas con precisión y para explicar su conducta y planificar antes y después de las llamadas a herramientas.
  • El rendimiento en desarrollo front-end también fue excelente, con una ventaja del 70% en evaluaciones internas frente al modelo anterior.

Principales empresas clientes y casos de uso reales

  • Cursor, Windsurf, Vercel, Manus, Notion y Inditex valoraron muy alto la inteligencia de GPT-5, su facilidad de control, el manejo de errores de herramientas y la calidad del código.
  • En escenarios de despliegue real, mostró mayor estabilidad y eficiencia que modelos anteriores en trabajos de fondo complejos, roles de agente de ejecución prolongada e integración avanzada de herramientas.

Benchmarks y métricas de rendimiento

  • SWE-bench Verified (parches de incidencias de software reales): obtuvo un 74,9% de rendimiento frente a o3, con 22% menos tokens y 45% menos llamadas a herramientas, mejorando la eficiencia.
  • Aider polyglot (evaluación de edición de código): logró 88%, alcanzando una tasa de error aproximadamente de un tercio en comparación con o3.
  • En análisis de bases de código complejas, el LLM grande se puede elevar según la consulta del solicitante, facilitando un uso fácil para desarrolladores e investigadores.
  • La generación de código front-end mostró 70% de ventaja en pruebas, tanto en sentido estético como en precisión.

Trabajo con agentes y resultados de contexto largo

  • En τ2-bench telecom (benchmark de llamadas a herramientas), GPT-5 alcanzó 96,7%, logrando el SOTA más reciente.
  • Demostró alta capacidad de finalización al ejecutar decenas de llamadas a herramientas de forma secuencial o paralela.
  • Obtuvo las puntuaciones más altas en evaluaciones de cumplimiento de instrucciones como COLLIE y Scale MultiChallenge.
  • En Q&A de contexto largo como OpenAI-MRCR y BrowseComp Long Context, superó a o3 y GPT-4.1.
  • Soporta longitudes de contexto de hasta 400.000 tokens, ideal para análisis de documentos o conversaciones a gran escala.

Confiabilidad y seguridad

  • En evaluaciones LongFact y FactScore, redujo los errores factuales en más de un 80% frente a o3.
  • Reconoce y notifica sus propias limitaciones, y mejora la precisión especialmente en preguntas de salud.
  • En usos reales, todavía se recomienda la verificación por parte del desarrollador en áreas críticas.

Control para desarrolladores y nuevas funciones de la API

  • reasoning_effort: permite equilibrar velocidad de respuesta y calidad de razonamiento con los valores minimal/low/medium/high.
    • minimal: respuesta rápida; high: razonamiento lógico de alta calidad.
  • verbosity: ajusta la longitud de salida con low/medium/high.
    • Cuando hay una instrucción explícita, esta tiene prioridad sobre el parámetro.
  • Herramientas personalizadas: también admiten formato de texto sin formato (plaintext), además de JSON, y permiten restringir el formato de entrada de herramientas mediante expresiones regulares o gramática libre de contexto (CFG).
  • Disminuye el riesgo de errores de escape de JSON en bloques grandes de código o reportes, mejorando la facilidad de integración con herramientas de desarrollo.

Diversos modelos de API y política de precios

  • gpt-5: $1.25 por millón de tokens de entrada, $10 por millón de tokens de salida
  • gpt-5-mini: $0.25 por millón de tokens de entrada, $2 por millón de tokens de salida
  • gpt-5-nano: $0.05 por millón de tokens de entrada, $0.40 por millón de tokens de salida
  • Todos los modelos admiten funcionalidades clave como reasoning_effort, verbosity, herramientas personalizadas, llamadas de herramientas en paralelo, herramientas integradas de web/archivos/imágenes y streaming.
  • gpt-5-chat-latest se lanzó como modelo no centrado en razonamiento para ChatGPT con el mismo precio.

Integración y escalabilidad

  • Lanzamiento con integración en diversas plataformas de Microsoft, incluyendo Microsoft 365 Copilot, GitHub Copilot y Azure AI Foundry.
  • Se adoptó como motor central en sistemas de agentes de desarrollador como Cursor, Windsurf, GitHub Copilot y Codex CLI.
  • En evaluaciones internas de alpha testers y en distintos productos de automatización de código y tareas, estableció un nuevo estándar frente a modelos anteriores.

Seguridad, confiabilidad y recursos adicionales

  • La probabilidad de responder incorrectamente (alucinaciones) se redujo notablemente, y explica de forma más honesta sus límites y el proceso de trabajo.
  • La tarjeta del sistema, el blog de investigación interna y otros materiales detallan con transparencia la implementación, la evaluación y las medidas de seguridad.
  • GPT-5 funciona como un socio avanzado de codificación automática y está especializado en la automatización de flujos de trabajo de tipo agentic.

Conclusión

  • GPT-5 es el modelo más poderoso centrado en codificación y trabajo de agentes entre los LLM lanzados hasta ahora, y está optimizado para ambientes de desarrollo y automatización de trabajo reales.
  • Con la API y el sistema de herramientas mejorados, opciones de tamaño y precio, y un alto desempeño medible, abre una nueva era de productividad para desarrolladores y organizaciones.

Aún no hay comentarios.

Aún no hay comentarios.