Vibechart
(vibechart.net)- Vibechart es una herramienta de visualización que permite crear gráficos de la manera que quieras, no solo con criterios tradicionales como hechos, valor estético o utilidad.
- Interpretación de los gráficos utilizados durante el anuncio de GPT-5
Comparativa de rendimiento de GPT-5 (Academic / SWE-bench)
- Elemento de prueba: SWE-bench Verified (precisión en la resolución de problemas de ingeniería de software)
- Without thinking / With thinking: Diferencia de rendimiento según se use o no el “modo de razonamiento” (emplear más tiempo de inferencia)
- GPT-5: 52,8% sin razonamiento, 74,9% en modo de razonamiento
- OpenAI o3: 69,1%
- GPT-4o: 30,8%
- Aquí, GPT-5 queda por encima de o3 al usar el modo de razonamiento.
Deception evals across models (Evaluación de engaño)
- Prueba de cuánto un modelo muestra conductas de engaño.
- Coding deception: GPT-5 (modo de razonamiento) 50,0%, o3 47,4%
- CharXiv missing image: GPT-5 9,0%, o3 86,7%
- Production traffic: GPT-5 2,1%, o3 4,8%
- Por categoría, GPT-5 tiene una tasa de engaño más alta en algunas áreas y mucho más baja en otras
Es decir, GPT-5 es mejor que o3 en “modo de razonamiento”, pero en otros aspectos (por ejemplo, posibilidad de engaño) es peor o similar
Aún no hay comentarios.