La precisión de o1-preview cae cerca de 30% con una ligera variación de los problemas de Putnam

(openreview.net)

1 puntos por GN⁺ 2025-01-02 | 1 comentarios | Compartir por WhatsApp

Introducción al benchmark Putnam-AXIOM
- Putnam-AXIOM es un benchmark desafiante para evaluar la capacidad de razonamiento matemático de los modelos de lenguaje de gran escala (LLM).
- Incluye los 236 problemas de la William Lowell Putnam Mathematical Competition y sus soluciones paso a paso.
- Para prevenir la contaminación de datos, se creó el benchmark Putnam-AXIOM Variation aplicando una variación funcional a 52 problemas.
- Al cambiar programáticamente elementos del problema (variables, constantes, etc.), se pueden generar infinitamente nuevos problemas que no existen en línea.
Importancia del benchmark y resultados
- La precisión de la mayoría de los modelos cae considerablemente en los problemas transformados en comparación con los originales.
- El modelo o1-preview de OpenAI obtuvo un 41,95% de precisión en Putnam-AXIOM Original, pero sufrió una caída de precisión de alrededor del 30% en el dataset transformado.
Retroalimentación de los revisores
- Revisor 9XA: El benchmark está diseñado para minimizar el ruido en la formulación de problemas, en la verificación de igualdad de respuestas y otros aspectos, pero el nivel de prevención de contaminación podría no ser suficiente. Puede perder fuerza al aplicarse la variación funcional solo a 53 problemas.
- Revisor krr4: El dataset se compone de 236 ejemplos, por lo que podría carecer de persuasión como benchmark. La baja precisión de la mayoría de modelos sugiere que la dificultad de los problemas debería ser más gradual/jerárquica.
- Revisor Nbvs: Es una buena contribución al ofrecer un conjunto de problemas exigentes para evaluar la capacidad de resolución matemática. La variación de problemas puede ser una buena estrategia para reducir la pérdida de dificultad en el sistema de evaluación basado en cajas actual.
- Revisor MsMi: Un benchmark de razonamiento difícil en el que incluso modelos potentes no se desempeñan bien. Exigir el uso del comando "\boxed{}" limita la expresividad del benchmark.
Preguntas y sugerencias adicionales
- Pregunta sobre cuántos problemas se calificaron incorrectamente por no usar correctamente el comando "\boxed{}".
- Pregunta sobre un método algorítmico para seguir editando problemas y mantener un dataset que ningún modelo pueda memorizar.

1 comentarios

GN⁺ 2025-01-02

Opiniones en Hacker News

Recuerdo que cuando apareció por primera vez este problema, la gente se entusiasmó porque ChatGPT acertó la pregunta de “¿qué pesa más, 10 libras de plumas o 10 libras de ladrillos?”
Pero, por supuesto, la acertó, y es muy probable que ese problema estuviera en los datos de entrenamiento.
Si solo cambias los sustantivos o modificas los números para que en realidad un lado pese más, el desempeño se vuelve irregular.
Acabo de preguntar en chatgpt.com: “¿qué pesa más, una bolsa de lingotes de acero de 9.99 libras o una bolsa de algodón esponjoso de 10.01 libras?”, y en su primera respuesta dijo que los lingotes de acero pesaban más, pero al final dijo que el algodón pesaba un poco más, dando una respuesta correcta e incorrecta a la vez.
Para evaluar bien esta capacidad, necesariamente hay que salirse de los datos de entrenamiento, y los problemas que se te ocurren en 5 segundos suelen ser cosas ya vistas con frecuencia o que a otras personas también se les ocurren fácilmente.
En cuanto uno se aparta un poco de los caminos conocidos, el desempeño matemático se ve mucho menos impresionante.
- En ChatGPT Plus, en una sesión nueva y tomando solo la primera respuesta sin intentar engañarlo, GPT-4, GPT-4o y GPT o1 responden correctamente que la bolsa de algodón de 10.01 libras pesa más que la bolsa de lingotes de acero de 9.99 libras.
  Lo explican diciendo que, independientemente del material o la densidad, es una comparación de pesos en la misma unidad, por lo que 10.01 es mayor que 9.99.
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  Hasta ahora, o1-mini está manejando bien todas las tareas que la gente en este hilo decía que los LLM no podían hacer.
- Si lo intentas sin suscripción, actualmente es muy probable que recibas una respuesta generada en su mayoría por 4o-mini.
  Ese no es o1, o1-mini ni el o1-preview anterior, que son la familia de modelos de razonamiento tratada en el artículo enlazado.
  Puede que ni siquiera sea 4o, el modelo principal sin razonamiento; el “4o auto” que aparece en las cuentas gratuitas parece más bien un mecanismo para elegir modelos automáticamente de forma costo-eficiente, no un nombre de modelo.
  Sin una suscripción a ChatGPT, ya no es posible, como antes, elegir un modelo específico con límites de uso.
- Le pregunté a Claude 3.5 Sonnet el acertijo clásico del médico, y aunque la respuesta mejoró al agregar un proceso de razonamiento, también mostró señales de que en realidad no lo entiende.
  Ante la pregunta: “Una mujer y su hijo tuvieron un accidente de tránsito; la mujer murió, y el médico que vio al niño dijo: ‘No puedo operarlo, este niño es mi hijo’. ¿Cómo es posible?”, respondió: “El médico es el padre del niño” y explicó que era un acertijo clásico que muestra sesgos de género.
  Pero la intención original del acertijo era señalar que el médico podía ser la madre; incluso añadió la posibilidad de padres del mismo sexo, pero se desvió del punto central.
- La primera variante que conocí fue “¿qué pesa más, 1 libra de plumas o 1 libra de oro?”, y esa es una pregunta mucho más difícil.
  La respuesta que escuché era que el oro se mide en peso troy y las plumas en peso avoirdupois, por lo que una libra troy tiene 12 onzas y una libra avoirdupois tiene 16 onzas, así que las plumas pesan más.
  Todo eso es cierto, pero la respuesta está incompleta.
  Así como una libra avoirdupois es más pesada que una libra troy, una onza avoirdupois es más ligera que una onza troy.
  Solo que esa diferencia no es lo bastante grande como para revertir la diferencia entre 16 onzas y 12 onzas.
  Si no se reconoce la diferencia entre las onzas, la respuesta oficial queda tan equivocada como la respuesta ingenua.
Un experimento que sería difícil en la práctica, pero que me gustaría hacer, es entrenar un modelo con todo el material digitalizado anterior a 1905 —artículos, cartas, libros, transmisiones, clases, etc.— y luego preguntarle por la equivalencia masa-energía.
Si diera una respuesta clara, creo que podría cerrar el debate sobre si el reconocimiento de patrones es una forma de inteligencia.
- En el momento en que se considera que la masa y la energía podrían ser equivalentes, solo con análisis dimensional quedan muy pocas opciones para la fórmula.
  Lo interesante de E=mc^2 no es la fórmula en sí, sino la afirmación de que la masa es una forma de energía y las observaciones circundantes sobre el universo.
  La verdadera intuición de 1905 estuvo más cerca de plantear la pregunta correcta e imaginar que el principio de equivalencia realmente podía cumplirse.
  Gran parte de las matemáticas ya existía antes de 1905 y podría entrar en los datos de entrenamiento de una IA: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- Escuché una idea parecida en un podcast con Adam Brown.
  La idea es que, si una IA pudiera derivar la teoría de la relatividad especial usando solo libros y artículos anteriores a Einstein, habríamos alcanzado el siguiente hito de nivel “game changer” en el avance del razonamiento artificial.
- Las disputas de patentes también deberían resolverse así.
  Si un LLM puede descubrirlo, entonces debería considerarse que no tiene novedad.
- También me pregunto si los datos anteriores a 1905 son suficientes siquiera para que un modelo diga “hello world” de forma estable.
  No creo que existan los terabytes de datos de entrenamiento necesarios para un LLM decente; probablemente solo haya del orden de gigabytes.
En tareas reales, el desempeño de los LLM se siente muy parecido al de un estudiante que estudia a última hora para un examen al estilo asiático.
Tiene la capacidad de vomitarlo todo perfectamente, pero no conceptos con significado.
- o3 acertó el 25% de problemas inéditos de FrontierMath.
  Es cierto que rinde mejor cuando la respuesta está directamente en el dataset, pero en cuanto a la novedad de los problemas reservados ya superó al humano promedio.
- Basta con mirar el JEE Advanced.
- Al final, parece más bien otra prueba de que hemos logrado reproducir perfectamente la estupidez humana.
Parece que, si cambias muy poco la entrada, el modelo vuelve a la pregunta que esperaba y se equivoca.
Si la cambias un poco más y agregas una técnica de prompt genérica como “primero descompón en hechos conocidos, trae el conocimiento de contexto relevante y luego evalúa desde varios ángulos antes de concluir; no escribas de inmediato la primera conclusión obvia”, la respuesta probablemente mejore mucho.
Esto parece menos “los LLM son razonadores tontos que ni siquiera pueden resolver estos problemas sin memorización” y más “cuando intentas engañar a un LLM desde un patrón esperado, da una mala respuesta inmediata”.
Es cierto que los LLM memorizan, pero eso tiene dos caras.
Si haces algo demasiado parecido a un problema memorizado, la percepción puede tambalearse, como cuando un humano reacciona instintivamente ante algo que parece una cara y luego lo vuelve a evaluar.
Es interesante, pero hay que señalar algunas cosas
Primero, o1 supera el 40% incluso en problemas Putnam modificados, lo cual es un logro difícil de alcanzar incluso para la mayoría de los estudiantes de matemáticas
Segundo, o3 resolvió el 25% del dataset de Epoch AI
También hubo un artículo interesante que cuestionaba qué tan difíciles eran realmente esos problemas, pero aun así sigue siendo muy impresionante
La conclusión justa parece ser que los modelos de razonamiento todavía resuelven bien problemas muy difíciles de matemáticas y programación competitiva, pero son más fuertes en problemas que ya han visto
- Los comentarios de este hilo están completamente desconectados del contenido del paper, y el título también parece más bien diseñado para provocar indignación y no refleja el contenido del paper
  El solo hecho de que pueda resolver una parte considerable de esos problemas ya es un logro bastante sorprendente, incluso si a veces cae ante modificaciones menores
  Lanzar palabras como “fraude” o “falso” se parece más a pensamiento ilusorio o evasión de la realidad
Me pregunto si es un secreto a voces que los modelos actuales están siendo hardcodeados para benchmarks aleatorios
De por sí parece raro preguntarle problemas Putnam a un chatbot
- Porque la gente sigue haciéndoles problemas de matemáticas a estos modelos y, si aciertan, lo cita como evidencia de que realmente pueden hacer razonamiento matemático
  Es difícil determinar qué sabe el modelo, así que también es difícil distinguir cuándo simplemente está escupiendo algo específico que aprendió durante el entrenamiento
- No es hardcoding; más bien creo que es muy probable que esos problemas estén de alguna forma dentro de los datos de entrenamiento
- También están aprobando pruebas que, por diseño, no se pueden hardcodear
  Todavía tienen todo tipo de defectos y problemas de consistencia, pero es tonto enojarse porque alguien le enseñó la respuesta a 2+2 y por eso responde “2+2=4”
- Este trabajo se parece a aplicar el paper GSM-Symbolic a Putnam: https://arxiv.org/html/2410.05229v1
  En adelante, el rendimiento de los LLM también debería reportarse junto con benchmarks perturbados
Son detectores de patrones muy eficaces
Si cambias el patrón, dejan de funcionar
Recuerdo que alguien, quizá @tszzl(roon), dijo en X que o1 u o3 todavía fueron entrenados de la manera tradicional, sin cómputo en tiempo de prueba como AlphaGo ni búsqueda Monte Carlo en árbol
Si eso es cierto, siguen prediciendo la siguiente palabra con base en los datos de entrenamiento, y ante pequeñas variaciones es probable que sigan el camino más plausible surgido del entrenamiento
Aun así, si el cómputo en tiempo de prueba todavía no se ha explorado bien, queda un largo margen para mejorar el rendimiento
Además, es difícil especular porque no sabemos qué parte de lo que preguntamos está en los datos de entrenamiento
Incluso en tareas similares, puede hacerlo bien en algunas y fallar en otras
- Vi hace poco dos entrevistas con investigadores de OpenAI, y explicaban que el avance de la serie o, a diferencia de la serie GPT, se centró en el cómputo en tiempo de prueba para diseñarla de modo que “piense” más, en particular para evitar el pattern matching
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 y Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- Creo que sí usan cómputo en tiempo de prueba escalable
  En la presentación de o3 publicaron por separado cifras de precisión con alta y baja cantidad de cómputo, y se siente difícil lograr eso con el mismo modelo sin cómputo en tiempo de prueba
  También creo que la suscripción de 200 dólares sirve para permitir que el cómputo en tiempo de prueba corra por más tiempo antes de forzar una respuesta
  Pero si fuera cierto que no hay cómputo en tiempo de prueba, viendo los experimentos de modelos 1B/3B de Hugging Face, el margen de mejora sería enorme
- OpenAI declaró públicamente que o1 y o3 usan cómputo en tiempo de prueba, y también publicó un gráfico en escala logarítmica donde el rendimiento mejora de forma lineal cuando la cantidad de cómputo crece exponencialmente
  https://openai.com/index/learning-to-reason-with-llms/
  Lo confirmado es que el modelo o el sistema realiza cadena de pensamiento, pero el factor exponencial y el origen de la mejora en el rendimiento de razonamiento probablemente sean un árbol de pensamientos, que hace búsqueda en árbol sobre varias cadenas de razonamiento
  roon seguramente tiene una identidad bien conocida dentro de OpenAI y es empleado, así que es difícil esperar que filtre detalles de implementación en Twitter
Esta contribución al workshop está bien, y el benchmark tiene cierto valor incluso sin la parte de reformulación de problemas
Pero la parte donde solo reformulan unos pocos problemas a veces también se vuelve realmente más confusa para humanos por expresiones malas (fig. 3) o por romper convenciones innecesariamente (fig. 4; para puntos en 2D normalmente se usa P y coordenadas x,y)
Habría sido bueno que mostraran el efecto de la reformulación con aumento de ruido en problemas recientes o con fechas posteriores al entrenamiento, para separar parte de esa confusión
También me da curiosidad cuánto mejor sería o3 en el mismo benchmark
Y el título exacto de esta contribución es “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning”
El paper incluye varios ejemplos de preguntas modificadas
Como hubo un salto considerable de o1-preview a o1, probé algunas muestras en o1 y o1-pro, y la familia o1 actual da respuestas correctas a esos problemas modificados
El estado del arte cambia rápido
- El paper dice que, aunque un LLM dé la respuesta correcta, en varias ocasiones hace grandes saltos sin justificación o llega a la solución correcta tras pasos ilógicos
  Me pregunto si también revisaste esa parte
- Los defensores de los LLM son realmente agotadores
  Ni siquiera hiciste una evaluación rigurosa, y ese conjunto está público desde octubre, así que fácilmente pudo haberse agregado a los datos de entrenamiento
Hay demasiados comentarios negativos que ignoran el hecho de que o3 acertó el 25% en FrontierMath
Es un resultado realmente increíble
Claro que un LLM rinde mejor si la respuesta al problema está directamente en los datos de entrenamiento
Pero eso no significa que no pueda resolverlo cuando la respuesta no está en los datos de entrenamiento
- EpochAI tiene que enviar las preguntas a OpenAI para evaluar el modelo, pero no envía las respuestas correctas
  Que en este benchmark haya saltado de 2% a 25% de la noche a la mañana es un fenómeno bastante interesante
- Es cierto que le fue bien en FrontierMath, pero ese no es el tema de este hilo
  Así que ese comentario no es muy relevante

La precisión de o1-preview cae cerca de 30% con una ligera variación de los problemas de Putnam

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News