Vibechart

(vibechart.net)

1 puntos por GN⁺ 2025-08-08 | 1 comentarios | Compartir por WhatsApp

Vibechart es una herramienta de visualización que permite crear gráficos de la manera que quieras, no solo con criterios tradicionales como hechos, valor estético o utilidad.
Interpretación de los gráficos utilizados durante el anuncio de GPT-5

Comparativa de rendimiento de GPT-5 (Academic / SWE-bench)

Elemento de prueba: SWE-bench Verified (precisión en la resolución de problemas de ingeniería de software)
Without thinking / With thinking: Diferencia de rendimiento según se use o no el “modo de razonamiento” (emplear más tiempo de inferencia)
- GPT-5: 52,8% sin razonamiento, 74,9% en modo de razonamiento
- OpenAI o3: 69,1%
- GPT-4o: 30,8%
Aquí, GPT-5 queda por encima de o3 al usar el modo de razonamiento.

Deception evals across models (Evaluación de engaño)

Prueba de cuánto un modelo muestra conductas de engaño.
Coding deception: GPT-5 (modo de razonamiento) 50,0%, o3 47,4%
CharXiv missing image: GPT-5 9,0%, o3 86,7%
Production traffic: GPT-5 2,1%, o3 4,8%
Por categoría, GPT-5 tiene una tasa de engaño más alta en algunas áreas y mucho más baja en otras

Es decir, GPT-5 es mejor que o3 en “modo de razonamiento”, pero en otros aspectos (por ejemplo, posibilidad de engaño) es peor o similar

1 comentarios

GN⁺ 2025-08-08

Opinión de Hacker News

La versión con números y tamaños de barras más creíbles está en la sección "evaluation" de la publicación de anuncio de GPT-5 de OpenAI (enlace). Así que, aunque podría ser un simple error, da mala impresión que una empresa que gasta miles de millones prometiendo innovar toda actividad humana ni siquiera pueda hacer una diapositiva correcta.
- Es como si se probaran el alimento que ellos mismos venden; si ese es el pienso que hacen, este es el resultado.
- Puede que la IA nueva haya generado las gráficas.
- La gente de OpenAI está entre lo mejor del sector, y me cuesta creer que hayan cometido un error de este nivel.
Al principio pensé que era una métrica de vibe coding, pero no era; sí era WakaTime.
Creo que también debería incluirse la gráfica de "Coding deception", porque es muy engañosa (50.0 no es realmente menor que 47.4) (enlace)
- Pegué la imagen de esa gráfica en ChatGPT-5 y pregunté: "¿Te parece que hay un error en esta gráfica? ¿Puedes encontrarlo?" ChatGPT respondió: "En el primer 'Coding deception', la barra rosa de GPT-5 (versión thinking) aparece con 50.0% y la barra blanca de OpenAI o3 con 47.4%, pero visualmente la barra blanca se dibuja más corta que la rosa. La cifra es un poco menor, pero visualmente no cuadra." Al final sentí que debí haber usado a ChatGPT para revisar la diapositiva.
- Tardé bastante en descifrar qué estaba mal tanto en el post enviado como en el enlace de arriba. No entiendo qué idea tenían al hacerlo. Ahora me pregunto si la IA está haciendo las gráficas y nadie las revisa.
- Esto está tan claramente mal que empiezo a pensar que alguien etiquetó la gráfica incorrectamente. Tal vez esté siendo demasiado optimista.
- Ya lo agregué a la gráfica.
- Entiendo esta parte más o menos. La 'deception' en una LLM es una característica indeseable, así que para la audiencia menos significa 'mejor'. Pero no encuentro cómo representar eso bien en un gráfico cuando se compara con otras métricas que no tienen propiedad de "menos es más" (y además está el problema de que el eje no empieza en 0), así que al final parece un resultado totalmente absurdo.
Me pregunto cómo pasó esto. Supongo que al final entró un ejecutivo senior y dijo: "Si se ve que el modelo nuevo apenas mejora al modelo viejo, ajustemos el eje Y para que parezca una mejora mucho mayor".
- Es aterrador darse cuenta de que gente tan incompetente tenga tanto dinero y poder.
- Tal vez hasta le pidieron a GPT-5 que ajustara las diapositivas.
- Se siente una sensación de urgencia alrededor de OpenAI, así que no sorprende que este exceso de hype venga de la cúpula.
- Esto es estándar en la industria. Por ejemplo, Nvidia lo usa cada vez que lanza una GPU nueva. Apple también lo hace en las CPU de la serie M. Incluso exageran comparando con modelos de varias generaciones atrás.
Yo siempre apostaría por gráficas con más rosa que gris.
OpenAI ya sabía desde el principio que los "datos" también son parte del marketing, y los ha tratado así. No creo que esto sea intencional, pero desde la época de dota 2 ya sabían muy bien cómo mostrar datos exagerando resultados y ocultando fracasos.
Es una dinámica similar a la demo del vidrio del Cybertruck.
La columna de 69.1 tiene la misma altura que la columna de 30.8. Probablemente fue un error por el que clonaron 30.8, solo cambiaron el número y olvidaron ajustar la altura, y al parecer pasaron apenas la comprobación de que fue inferior al modelo nuevo. Pero la altura de la columna 50.0 tampoco se explica así.
- A simple vista, esa barra parece tener una altura de 15% aproximadamente. Quizá era 15 y colocaron 50. Tal error debería verse más en una presentación de clase de preparatoria que en el discurso de apertura de la startup más mediática de la historia. Por cierto, todos los involucrados en esta presentación tienen garantizado un bono de 1.5 millones de dólares. Da pena pensarlo.
- No entiendo por qué, en una presentación profesional, hicieron las barras y las etiquetas por separado manualmente. Tampoco era para darle algún estilo raro; si algo así pasa en una gráfica de barras tan básica, es difícil explicar esto sin pensar que fue deliberado.
Me dejó riendo ver a todos intentando engañar la autojustificación de los demás.