1 puntos por GN⁺ 2025-01-02 | 1 comentarios | Compartir por WhatsApp
  • Introducción al benchmark Putnam-AXIOM

    • Putnam-AXIOM es un benchmark desafiante para evaluar la capacidad de razonamiento matemático de los modelos de lenguaje de gran escala (LLM).
    • Incluye los 236 problemas de la William Lowell Putnam Mathematical Competition y sus soluciones paso a paso.
    • Para prevenir la contaminación de datos, se creó el benchmark Putnam-AXIOM Variation aplicando una variación funcional a 52 problemas.
    • Al cambiar programáticamente elementos del problema (variables, constantes, etc.), se pueden generar infinitamente nuevos problemas que no existen en línea.
  • Importancia del benchmark y resultados

    • La precisión de la mayoría de los modelos cae considerablemente en los problemas transformados en comparación con los originales.
    • El modelo o1-preview de OpenAI obtuvo un 41,95% de precisión en Putnam-AXIOM Original, pero sufrió una caída de precisión de alrededor del 30% en el dataset transformado.
  • Retroalimentación de los revisores

    • Revisor 9XA: El benchmark está diseñado para minimizar el ruido en la formulación de problemas, en la verificación de igualdad de respuestas y otros aspectos, pero el nivel de prevención de contaminación podría no ser suficiente. Puede perder fuerza al aplicarse la variación funcional solo a 53 problemas.
    • Revisor krr4: El dataset se compone de 236 ejemplos, por lo que podría carecer de persuasión como benchmark. La baja precisión de la mayoría de modelos sugiere que la dificultad de los problemas debería ser más gradual/jerárquica.
    • Revisor Nbvs: Es una buena contribución al ofrecer un conjunto de problemas exigentes para evaluar la capacidad de resolución matemática. La variación de problemas puede ser una buena estrategia para reducir la pérdida de dificultad en el sistema de evaluación basado en cajas actual.
    • Revisor MsMi: Un benchmark de razonamiento difícil en el que incluso modelos potentes no se desempeñan bien. Exigir el uso del comando "\boxed{}" limita la expresividad del benchmark.
  • Preguntas y sugerencias adicionales

    • Pregunta sobre cuántos problemas se calificaron incorrectamente por no usar correctamente el comando "\boxed{}".
    • Pregunta sobre un método algorítmico para seguir editando problemas y mantener un dataset que ningún modelo pueda memorizar.

1 comentarios

 
GN⁺ 2025-01-02
Opiniones de Hacker News
  • Hay comentarios de que ChatGPT respondió correctamente en la época a la pregunta de si una pluma de 10 libras o un ladrillo de 10 libras era más pesado, pero señalan que su rendimiento cae cuando el problema se modifica ligeramente

    • Por ejemplo, dio una respuesta incorrecta a la pregunta de qué era más pesado entre 9.99 libras de acero y 10.01 libras de algodón
    • Para analizar la verdadera capacidad del modelo, es necesario salir de los datos de entrenamiento
  • Hay la opinión de realizar un experimento entrenando el modelo con todos los datos digitalizados antes de 1905 y preguntándole por la ecuación de equivalencia masa-energía

    • Hay expectativa de que esto pueda resolver el debate sobre si el reconocimiento de patrones es una forma de inteligencia
  • Hay opiniones de que el rendimiento real de los LLM se parece al repaso intensivo de estudiantes para exámenes de estilo asiático

    • Solo sería la capacidad de repetir perfectamente sin comprender el significado
  • Hay comentarios de que una ligera variación en la entrada puede hacer que el modelo vuelva a la pregunta esperada y entregue una respuesta incorrecta

    • Si se evalúa el problema desde varios ángulos y se le induce a sacar conclusiones, se puede obtener una mejor respuesta
  • Hay opiniones de que los LLM todavía son excelentes para resolver problemas matemáticos y de programación competitiva muy difíciles

    • Sin embargo, funcionan mejor con problemas que ya han visto antes
  • Se cuestiona si es un secreto a voces que el modelo está hardcodeado para los benchmarks aleatorios actuales

  • Hay comentarios de que la reformulación del problema también puede confundir a los humanos

    • Quieren ver el efecto de reformular problemas recientes
  • Hay opiniones de que es muy efectivo para matching de patrones, pero no funciona cuando esos patrones cambian

    • Señalan que fue entrenado de forma tradicional, sin cómputo en tiempo de prueba ni búsqueda de árbol Monte Carlo
  • Hay comentarios que apuntan a que OpenAI no afirmó rendimiento en un conjunto de datos específico

    • Se llega a la conclusión de que el rendimiento mejora considerablemente con preguntas del conjunto de datos
  • Hay opiniones de que hubo una mejora de o1-preview a o1 y que respondió correctamente a problemas reformulados

    • El SOTA está cambiando rápidamente