1 puntos por GN⁺ 2025-08-08 | Aún no hay comentarios. | Compartir por WhatsApp
  • Vibechart es una herramienta de visualización que permite crear gráficos de la manera que quieras, no solo con criterios tradicionales como hechos, valor estético o utilidad.
  • Interpretación de los gráficos utilizados durante el anuncio de GPT-5

Comparativa de rendimiento de GPT-5 (Academic / SWE-bench)

  • Elemento de prueba: SWE-bench Verified (precisión en la resolución de problemas de ingeniería de software)
  • Without thinking / With thinking: Diferencia de rendimiento según se use o no el “modo de razonamiento” (emplear más tiempo de inferencia)
    • GPT-5: 52,8% sin razonamiento, 74,9% en modo de razonamiento
    • OpenAI o3: 69,1%
    • GPT-4o: 30,8%
  • Aquí, GPT-5 queda por encima de o3 al usar el modo de razonamiento.

Deception evals across models (Evaluación de engaño)

  • Prueba de cuánto un modelo muestra conductas de engaño.
  • Coding deception: GPT-5 (modo de razonamiento) 50,0%, o3 47,4%
  • CharXiv missing image: GPT-5 9,0%, o3 86,7%
  • Production traffic: GPT-5 2,1%, o3 4,8%
  • Por categoría, GPT-5 tiene una tasa de engaño más alta en algunas áreas y mucho más baja en otras

Es decir, GPT-5 es mejor que o3 en “modo de razonamiento”, pero en otros aspectos (por ejemplo, posibilidad de engaño) es peor o similar

Aún no hay comentarios.

Aún no hay comentarios.