2 puntos por GN⁺ 2024-10-13 | 1 comentarios | Compartir por WhatsApp

GSM-Symbolic: entender los límites del razonamiento matemático de los modelos de lenguaje grandes

  • Los avances recientes en los modelos de lenguaje grandes (LLM) han despertado interés en su capacidad de razonamiento formal en matemáticas.
  • El benchmark GSM8K se usa ampliamente para evaluar el razonamiento matemático de los modelos frente a preguntas de nivel primaria.
  • Aunque el desempeño de los LLM en GSM8K ha mejorado mucho en los últimos años, no está claro si realmente ha avanzado su capacidad de razonamiento matemático.
  • Para abordar este problema, se realizó un estudio a gran escala sobre varios modelos recientes, tanto abiertos como cerrados.
  • Para superar las limitaciones de las evaluaciones existentes, se introduce GSM-Symbolic, un benchmark mejorado compuesto por plantillas simbólicas que permiten generar preguntas variadas.
  • GSM-Symbolic permite una evaluación más controlada y ofrece un indicador más confiable para medir la capacidad de razonamiento.
  • Los resultados muestran que los LLM presentan una variabilidad notable al responder distintas instancias de una misma pregunta.
  • En particular, en el benchmark GSM-Symbolic, cambiar solo los valores numéricos de una pregunta reduce el desempeño de todos los modelos.
  • Además, se investiga la fragilidad del razonamiento matemático de estos modelos y se muestra que el desempeño cae considerablemente a medida que aumenta el número de cláusulas en la pregunta.
  • Se plantea la hipótesis de que esto ocurre porque los LLM actuales no pueden realizar un razonamiento lógico genuino, sino que replican pasos de razonamiento presentes en los datos de entrenamiento.
  • Si se agrega una cláusula que parece relevante a la pregunta, aunque no contribuya a la cadena de razonamiento necesaria para la respuesta final, se produce una caída de rendimiento de hasta 65% en todos los modelos recientes.

Resumen de GN⁺

  • Este estudio permite entender con mayor detalle la capacidad y los límites del razonamiento matemático en los modelos de lenguaje grandes.
  • El benchmark GSM-Symbolic ofrece una herramienta para evaluar con mayor precisión la capacidad de razonamiento de los modelos mediante preguntas variadas.
  • El estudio muestra que los LLM tienden a replicar pasos de razonamiento de los datos de entrenamiento más que a realizar razonamiento lógico real.
  • Como otros benchmarks para evaluar la capacidad de razonamiento matemático, se recomiendan MATH y MATHQA.

1 comentarios

 
GN⁺ 2024-10-13
Opinión de Hacker News
  • La caída en el rendimiento de los LLM es similar a la capacidad de resolución de problemas de un estudiante universitario de primer ingreso. Resuelven bien problemas sencillos, pero su precisión baja en problemas que requieren conectar varios pasos. Esto sugiere que los LLM pueden razonar lógicamente a un nivel comparable al de un egresado de preparatoria
    • Por ejemplo, en problemas que incluyen información innecesaria, el rendimiento de los LLM cae de forma notable. Esto también puede pasar en humanos al leer problemas con datos irrelevantes
  • Los estudios sobre la fragilidad del razonamiento matemático muestran que, mientras más cláusulas tenga una pregunta, peor es el rendimiento. Esto podría deberse a que los LLM no pueden hacer un razonamiento lógico genuino
    • En el proceso de tokenización, la predicción de problemas aritméticos simples pierde sentido. Esto sugiere la necesidad de usar herramientas, pero es una señal negativa para el razonamiento lógico genuino
  • Aparecen resultados similares al problema de "Alice in Wonderland". Esto podría ser un problema de modelos que están en un estado intermedio entre el reconocimiento de patrones y el razonamiento
    • Esto sugiere que no se puede confiar en los resultados de benchmarks de LLM sobre matemáticas y razonamiento. Las letras, los números y la estructura de las oraciones del problema influyen mucho en los resultados
  • En el benchmark GSM-Symbolic, cambiar solo los valores numéricos también reduce el rendimiento de todos los modelos. Esto es evidencia de sobreajuste y muestra que los LLM tienen limitaciones fundamentales para aprender razonamiento matemático
  • La forma de "pensar" de los LLM alcanza para pasar la mayoría de los cursos escolares. Pero pueden tener dificultades si un profesor plantea problemas que no dependan de reconocimiento de patrones
  • En acertijos lógicos bien conocidos, los LLM no logran resolver el problema cuando se cambian ciertos elementos. Esto muestra que los LLM no pueden hacer razonamiento formal
  • Aunque los LLM no pueden hacer razonamiento formal, pueden resolver muchos problemas lógicos aplicando "pasos de razonamiento" aprendidos de los datos de entrenamiento. Es una dicotomía interesante
  • Sería interesante ver estudios que muestren los límites del razonamiento matemático en humanos y animales. Puede haber ideas que los humanos no pueden comprender, y eso hace preguntarse si será posible crear máquinas que razonen de formas que los humanos no pueden