GSM-Symbolic: entender los límites del razonamiento matemático de los modelos de lenguaje grandes
- Los avances recientes en los modelos de lenguaje grandes (LLM) han despertado interés en su capacidad de razonamiento formal en matemáticas.
- El benchmark GSM8K se usa ampliamente para evaluar el razonamiento matemático de los modelos frente a preguntas de nivel primaria.
- Aunque el desempeño de los LLM en GSM8K ha mejorado mucho en los últimos años, no está claro si realmente ha avanzado su capacidad de razonamiento matemático.
- Para abordar este problema, se realizó un estudio a gran escala sobre varios modelos recientes, tanto abiertos como cerrados.
- Para superar las limitaciones de las evaluaciones existentes, se introduce GSM-Symbolic, un benchmark mejorado compuesto por plantillas simbólicas que permiten generar preguntas variadas.
- GSM-Symbolic permite una evaluación más controlada y ofrece un indicador más confiable para medir la capacidad de razonamiento.
- Los resultados muestran que los LLM presentan una variabilidad notable al responder distintas instancias de una misma pregunta.
- En particular, en el benchmark GSM-Symbolic, cambiar solo los valores numéricos de una pregunta reduce el desempeño de todos los modelos.
- Además, se investiga la fragilidad del razonamiento matemático de estos modelos y se muestra que el desempeño cae considerablemente a medida que aumenta el número de cláusulas en la pregunta.
- Se plantea la hipótesis de que esto ocurre porque los LLM actuales no pueden realizar un razonamiento lógico genuino, sino que replican pasos de razonamiento presentes en los datos de entrenamiento.
- Si se agrega una cláusula que parece relevante a la pregunta, aunque no contribuya a la cadena de razonamiento necesaria para la respuesta final, se produce una caída de rendimiento de hasta 65% en todos los modelos recientes.
Resumen de GN⁺
- Este estudio permite entender con mayor detalle la capacidad y los límites del razonamiento matemático en los modelos de lenguaje grandes.
- El benchmark GSM-Symbolic ofrece una herramienta para evaluar con mayor precisión la capacidad de razonamiento de los modelos mediante preguntas variadas.
- El estudio muestra que los LLM tienden a replicar pasos de razonamiento de los datos de entrenamiento más que a realizar razonamiento lógico real.
- Como otros benchmarks para evaluar la capacidad de razonamiento matemático, se recomiendan MATH y MATHQA.
1 comentarios
Opinión de Hacker News