-
Impacto del conocimiento procedimental en el razonamiento de los modelos de lenguaje grandes
-
Las capacidades y limitaciones de los modelos de lenguaje grandes (LLM) se han estudiado en detalle en los últimos años. Los LLM muestran capacidad para resolver problemas, pero en comparación con los humanos existe una brecha en el razonamiento, lo que plantea dudas sobre la solidez de sus estrategias de generalización.
-
Debido al enorme volumen de datos utilizados en el diseño de los LLM, es difícil aplicar el método tradicional para medir la generalización, es decir, la separación entre conjuntos de entrenamiento y prueba. Para superar esto, se investigan en los datos de preentrenamiento las estrategias de generalización que usan los LLM al realizar tareas de razonamiento.
-
Usando modelos de dos tamaños (7B y 35B) y 2.5B tokens de preentrenamiento, se identifican los documentos que influyen en la salida del modelo para tres tareas simples de razonamiento matemático, y se comparan con los datos que influyen al responder preguntas fácticas.
-
El modelo utiliza principalmente conjuntos de datos separados para cada pregunta fáctica, pero en distintas preguntas de razonamiento dentro de una misma tarea, a menudo los documentos ejercen una influencia similar, lo que indica la existencia de conocimiento procedimental.
-
Las respuestas a preguntas fácticas aparecen con frecuencia en los datos más influyentes, pero en el caso de las preguntas de razonamiento, ni la respuesta ni las respuestas de los pasos intermedios de razonamiento muestran una alta influencia.
-
Un análisis cualitativo de los documentos principales para preguntas de razonamiento confirma que los documentos influyentes suelen incluir conocimiento procedimental que muestra cómo resolver el problema mediante fórmulas o código.
-
Estos hallazgos sugieren que el enfoque de razonamiento que usan los modelos no es una simple recuperación, sino una estrategia generalizable que sintetiza conocimiento procedimental a partir de documentos que realizan formas similares de razonamiento.
1 comentarios
Comentario de Hacker News
Se señala que los LLM no pueden encontrar ejemplos de todos los problemas en los datos de entrenamiento y que no hay suficientes ejemplos de consulta factual necesarios para una exploración al estilo de recuperación de información
Se señala que, para que una red neuronal pueda imitarlo, los humanos tienen que resolver los problemas paso a paso
Se menciona que los LLM muestran capacidad para resolver problemas, pero que existe una brecha de razonamiento en comparación con los humanos
Se explica que, cuando los modelos de lenguaje responden preguntas de razonamiento, muchas veces recuperan información de un conjunto limitado de documentos
Se afirma que el preentrenamiento de Google cumple un papel importante en el diseño de chips
Se pregunta por qué las imágenes generadas parecen de pesadilla y se sostiene que hacen falta más datos de entrenamiento para razonamiento
A través de la comparación entre AlphaGo y AlphaZero, se explica que el conocimiento procedimental humano ayuda al entrenamiento de ML, aunque podría tener límites
Se sugiere que entrenar con apuntes de estudiantes, exámenes y reseñas de libros podría mejorar a los LLM, y se menciona que eso sería muy interesante