1 puntos por GN⁺ 2024-12-03 | 1 comentarios | Compartir por WhatsApp
  • Impacto del conocimiento procedimental en el razonamiento de los modelos de lenguaje grandes

  • Las capacidades y limitaciones de los modelos de lenguaje grandes (LLM) se han estudiado en detalle en los últimos años. Los LLM muestran capacidad para resolver problemas, pero en comparación con los humanos existe una brecha en el razonamiento, lo que plantea dudas sobre la solidez de sus estrategias de generalización.

  • Debido al enorme volumen de datos utilizados en el diseño de los LLM, es difícil aplicar el método tradicional para medir la generalización, es decir, la separación entre conjuntos de entrenamiento y prueba. Para superar esto, se investigan en los datos de preentrenamiento las estrategias de generalización que usan los LLM al realizar tareas de razonamiento.

  • Usando modelos de dos tamaños (7B y 35B) y 2.5B tokens de preentrenamiento, se identifican los documentos que influyen en la salida del modelo para tres tareas simples de razonamiento matemático, y se comparan con los datos que influyen al responder preguntas fácticas.

  • El modelo utiliza principalmente conjuntos de datos separados para cada pregunta fáctica, pero en distintas preguntas de razonamiento dentro de una misma tarea, a menudo los documentos ejercen una influencia similar, lo que indica la existencia de conocimiento procedimental.

  • Las respuestas a preguntas fácticas aparecen con frecuencia en los datos más influyentes, pero en el caso de las preguntas de razonamiento, ni la respuesta ni las respuestas de los pasos intermedios de razonamiento muestran una alta influencia.

  • Un análisis cualitativo de los documentos principales para preguntas de razonamiento confirma que los documentos influyentes suelen incluir conocimiento procedimental que muestra cómo resolver el problema mediante fórmulas o código.

  • Estos hallazgos sugieren que el enfoque de razonamiento que usan los modelos no es una simple recuperación, sino una estrategia generalizable que sintetiza conocimiento procedimental a partir de documentos que realizan formas similares de razonamiento.

1 comentarios

 
GN⁺ 2024-12-03
Comentario de Hacker News
  • Se señala que los LLM no pueden encontrar ejemplos de todos los problemas en los datos de entrenamiento y que no hay suficientes ejemplos de consulta factual necesarios para una exploración al estilo de recuperación de información

    • No contradice el paper de Apple sobre LLM, y se cree que los LLM solo pueden hacer pequeñas variaciones a partir de ejemplos existentes
    • Se expresa molestia por el uso del término "razonamiento", argumentando que es un término creado por las empresas de LLM para describir la tecnología de forma emocional
    • Se enfatiza que la capacidad de dar instrucciones a una máquina en lenguaje natural es un gran avance
  • Se señala que, para que una red neuronal pueda imitarlo, los humanos tienen que resolver los problemas paso a paso

    • Se explica un beneficio inesperado del entrenamiento con código
  • Se menciona que los LLM muestran capacidad para resolver problemas, pero que existe una brecha de razonamiento en comparación con los humanos

    • Se señala que muchas personas ven a los LLM simplemente como predictores del siguiente token
  • Se explica que, cuando los modelos de lenguaje responden preguntas de razonamiento, muchas veces recuperan información de un conjunto limitado de documentos

    • En cambio, se propone que una estrategia de razonamiento más generalizada debería extraer información de diversos documentos relacionados de forma abstracta con la pregunta
  • Se afirma que el preentrenamiento de Google cumple un papel importante en el diseño de chips

    • Se explica que es natural que los resultados obtenidos al intentarlo sin preentrenamiento no alcancen el nivel actual de la tecnología
  • Se pregunta por qué las imágenes generadas parecen de pesadilla y se sostiene que hacen falta más datos de entrenamiento para razonamiento

    • Se menciona que las demostraciones matemáticas podrían ser el fruto más al alcance dentro de los datos no sintéticos
  • A través de la comparación entre AlphaGo y AlphaZero, se explica que el conocimiento procedimental humano ayuda al entrenamiento de ML, aunque podría tener límites

  • Se sugiere que entrenar con apuntes de estudiantes, exámenes y reseñas de libros podría mejorar a los LLM, y se menciona que eso sería muy interesante