La precisión de o1-preview cae cerca de 30% con una ligera variación de los problemas de Putnam
(openreview.net)-
Introducción al benchmark Putnam-AXIOM
- Putnam-AXIOM es un benchmark desafiante para evaluar la capacidad de razonamiento matemático de los modelos de lenguaje de gran escala (LLM).
- Incluye los 236 problemas de la William Lowell Putnam Mathematical Competition y sus soluciones paso a paso.
- Para prevenir la contaminación de datos, se creó el benchmark Putnam-AXIOM Variation aplicando una variación funcional a 52 problemas.
- Al cambiar programáticamente elementos del problema (variables, constantes, etc.), se pueden generar infinitamente nuevos problemas que no existen en línea.
-
Importancia del benchmark y resultados
- La precisión de la mayoría de los modelos cae considerablemente en los problemas transformados en comparación con los originales.
- El modelo o1-preview de OpenAI obtuvo un 41,95% de precisión en Putnam-AXIOM Original, pero sufrió una caída de precisión de alrededor del 30% en el dataset transformado.
-
Retroalimentación de los revisores
- Revisor 9XA: El benchmark está diseñado para minimizar el ruido en la formulación de problemas, en la verificación de igualdad de respuestas y otros aspectos, pero el nivel de prevención de contaminación podría no ser suficiente. Puede perder fuerza al aplicarse la variación funcional solo a 53 problemas.
- Revisor krr4: El dataset se compone de 236 ejemplos, por lo que podría carecer de persuasión como benchmark. La baja precisión de la mayoría de modelos sugiere que la dificultad de los problemas debería ser más gradual/jerárquica.
- Revisor Nbvs: Es una buena contribución al ofrecer un conjunto de problemas exigentes para evaluar la capacidad de resolución matemática. La variación de problemas puede ser una buena estrategia para reducir la pérdida de dificultad en el sistema de evaluación basado en cajas actual.
- Revisor MsMi: Un benchmark de razonamiento difícil en el que incluso modelos potentes no se desempeñan bien. Exigir el uso del comando "\boxed{}" limita la expresividad del benchmark.
-
Preguntas y sugerencias adicionales
- Pregunta sobre cuántos problemas se calificaron incorrectamente por no usar correctamente el comando "\boxed{}".
- Pregunta sobre un método algorítmico para seguir editando problemas y mantener un dataset que ningún modelo pueda memorizar.
1 comentarios
Opiniones de Hacker News
Hay comentarios de que ChatGPT respondió correctamente en la época a la pregunta de si una pluma de 10 libras o un ladrillo de 10 libras era más pesado, pero señalan que su rendimiento cae cuando el problema se modifica ligeramente
Hay la opinión de realizar un experimento entrenando el modelo con todos los datos digitalizados antes de 1905 y preguntándole por la ecuación de equivalencia masa-energía
Hay opiniones de que el rendimiento real de los LLM se parece al repaso intensivo de estudiantes para exámenes de estilo asiático
Hay comentarios de que una ligera variación en la entrada puede hacer que el modelo vuelva a la pregunta esperada y entregue una respuesta incorrecta
Hay opiniones de que los LLM todavía son excelentes para resolver problemas matemáticos y de programación competitiva muy difíciles
Se cuestiona si es un secreto a voces que el modelo está hardcodeado para los benchmarks aleatorios actuales
Hay comentarios de que la reformulación del problema también puede confundir a los humanos
Hay opiniones de que es muy efectivo para matching de patrones, pero no funciona cuando esos patrones cambian
Hay comentarios que apuntan a que OpenAI no afirmó rendimiento en un conjunto de datos específico
Hay opiniones de que hubo una mejora de o1-preview a o1 y que respondió correctamente a problemas reformulados