2 puntos por GN⁺ 2024-03-17 | 1 comentarios | Compartir por WhatsApp

Quiet-STaR: cómo enseñar a pensar antes de hablar a un modelo de lenguaje

  • Las personas a veces se detienen para pensar cuando escriben o hablan, y este tipo de razonamiento está implícito en casi todo texto escrito.
  • En Self-Taught Reasoner (STaR), se propone una forma de aprender pensamientos útiles: inferir la justificación a partir de unos pocos ejemplos en preguntas y respuestas, y aprender de las justificaciones que conducen a la respuesta correcta.
  • Quiet-STaR es una generalización de STaR, en la que se entrena al modelo de lenguaje para generar una justificación en cada token con el fin de explicar el texto futuro y así mejorar sus predicciones.

Principales desafíos y soluciones

  • Existen desafíos como el costo computacional de la generación continua de texto, el hecho de que al principio el modelo de lenguaje no sabe cómo generar ni usar pensamientos internos, y la necesidad de predecir más allá del siguiente token individual.
  • Para resolver estos problemas, se propone un algoritmo de muestreo paralelo por token que usa tokens aprendibles para indicar el inicio y el final de los pensamientos, junto con una técnica extendida de teacher-forcing.

Mejora del rendimiento del modelo

  • Las justificaciones generadas ayudan a predecir tokens difíciles y mejoran la capacidad del modelo de lenguaje para responder directamente preguntas difíciles.
  • Tras continuar el preentrenamiento de un modelo de lenguaje con Quiet-STaR sobre un corpus de texto de internet, se encontraron mejoras zero-shot en GSM8K (5.9%→10.9%) y CommonsenseQA (36.3%→47.2%), además de una mejora en la perplejidad de tokens difíciles en texto natural.
  • Estas mejoras se logran sin ajuste fino para esas tareas.

Opinión de GN⁺

  • Quiet-STaR muestra un paso adelante hacia modelos de lenguaje que puedan aprender a razonar de una forma más general y escalable.
  • Esta investigación representa un avance importante para reforzar la comprensión del lenguaje y la capacidad de razonamiento en inteligencia artificial, y puede contribuir al desarrollo de la tecnología de procesamiento de lenguaje natural.
  • Desde una mirada crítica, cuando esta tecnología se aplique a problemas complejos del mundo real podría producir resultados inesperados, por lo que se necesitan más investigaciones y medidas de seguridad.
  • Otros proyectos con funciones similares incluyen la serie GPT de OpenAI y BERT de Google, que también siguen investigando cómo mejorar la comprensión y generación del lenguaje.
  • Entre los aspectos a considerar al adoptar esta tecnología están la calidad y diversidad de los datos de entrenamiento, el uso ético del modelo y el costo computacional; entre sus beneficios potenciales está la creación de modelos de lenguaje más precisos y detallados.

1 comentarios

 
GN⁺ 2024-03-17
Comentarios de Hacker News
  • Si la red está compuesta por unas 50 capas de profundidad, eso significa que esta red puede razonar sobre unas 50 'etapas' de preguntas simbólicas. Puede significar que 50 etapas en el subespacio en el que fue entrenado el modelo pueden lograr más que una sola etapa humana, pero sabemos que los humanos tienen la capacidad de pensar y deliberar más allá de esas etapas.
  • Edsger Dijkstra, aunque tenía el neerlandés como lengua materna, tenía un estilo de inglés muy preciso. Recordaba que desde niño aprendió que debía saber cómo terminar una oración antes de empezarla. Se especula que podría haber una relación causal entre estas dos observaciones.
  • Me hizo pensar que el patrón de razonamiento de 'cadena de pensamiento' que contribuye a mejorar el rendimiento de los sistemas basados en LLM va en paralelo con el modelo de dos sistemas tratado en Pensar rápido, pensar despacio de Kahneman. El 'Sistema 1' corresponde a pensamientos procesados con poco esfuerzo y cómputo, y el 'Sistema 2' se usa para trabajo cognitivo consciente y de alta complejidad. Frente a la crítica de que los LLM parecen usar solo el 'Sistema 1', cuando se guía a un LLM a pensar paso a paso, eso se parece a darle una especie de entorno de pruebas para la toma de decisiones similar al 'Sistema 2'.
  • Este método llena la pieza que faltaba para poder entrenar a la IA en muchas tareas donde se conocen las respuestas, pero faltan los pasos de razonamiento. Con este método, se podría alcanzar capacidad de razonamiento incluso con una pequeña cantidad de datos anotados. Si los pensamientos generados pueden ser difíciles de entender para los humanos, pero aun así ayudan mucho más a obtener la respuesta correcta, entonces podríamos decir que hemos creado algo más inteligente que nosotros mismos.
  • Gran parte del significado de un texto está escondido entre líneas, y si no se entiende por qué aparecen ciertas afirmaciones en un documento, el lector solo tiene una comprensión superficial. Sin embargo, la mayoría de las personas tienen un modelo del mundo y saben, hasta cierto punto, por qué aparecen las afirmaciones en un libro. Por ejemplo, al leer un libro de texto de dinámica de fluidos, quizá no entiendas las matemáticas, pero sí sabes por qué aparece esa afirmación.
  • Existe la pregunta de si los autores de este artículo tienen relación con el modelo Q* de OpenAI, rodeado de rumores, o si simplemente es una coincidencia en el nombre.
  • No citaron un artículo [1] de hace casi 8 años, anterior a su trabajo, sobre modelado de lenguaje que aplicaba cómputo variable (aprendido) en RNN. En ese momento, Microsoft también tenía algo similar para reconocimiento de imágenes.
  • Básicamente esto es lo mismo que intenté hoy por la mañana a nivel de prompt, pero fui más allá al pensar en introducir 'meta-tokens' que ayuden al LLM a reexplorar su contexto. Algunos de estos meta-tokens podrían tener efectos secundarios como resaltar, estructurar, resumir u olvidar partes del contexto. Esto podría no solo darle capacidades lógicas/de razonamiento al LLM, sino también proporcionarle un medio para generar su propia estructura cognitiva.
  • Hay un caso en el que el equipo de Intel intentó usar Base Mistral 7B de una manera inapropiada para evaluación, igual que con NeuralChat.
  • Esta investigación parece muy interesante, y existe la pregunta de si los investigadores podrían publicar el código pronto.