2 puntos por GN⁺ 2024-09-22 | 1 comentarios | Compartir por WhatsApp

Aprendizaje por refuerzo para entrenar la autocorrección de modelos de lenguaje

  • Necesidad de la autocorrección

    • La capacidad de autocorrección de los modelos de lenguaje grandes (LLM) es muy deseable, pero no resulta efectiva en los LLM modernos.
    • Los métodos existentes para entrenar la autocorrección requieren varios modelos o necesitan un modelo más capaz u otra forma de supervisión.
  • Enfoque SCoRe

    • SCoRe es un enfoque de aprendizaje por refuerzo (RL) en línea de múltiples turnos que mejora significativamente la capacidad de autocorrección de los LLM usando datos completamente autogenerados.
    • Para construir SCoRe, se demuestra que una variante de ajuste fino supervisado (SFT) sobre trazas de corrección generadas por modelos offline no es suficiente para inyectar conductas de autocorrección.
    • El entrenamiento mediante SFT sufre por la falta de coincidencia de distribución entre los datos de entrenamiento y las propias respuestas del modelo, o favorece solo modos específicos de conducta de corrección, por lo que no resulta efectivo en pruebas.
  • La solución de SCoRe

    • Ajusta el proceso de aprendizaje para entrenar bajo la distribución de trazas de corrección autogeneradas por el propio modelo y, con una regularización adecuada, aprender estrategias de autocorrección efectivas en pruebas.
    • Ejecuta una primera etapa de RL para generar una inicialización de la política y usa una bonificación de recompensa para amplificar la autocorrección durante el entrenamiento.
  • Resultados de rendimiento

    • Al aplicarse a los modelos Gemini 1.0 Pro y 1.5 Flash, SCoRe logró mejoras en el rendimiento de autocorrección de 15.6% y 9.1% en los benchmarks MATH y HumanEval, respectivamente.

Resumen de GN⁺

  • Este artículo propone un método para mejorar significativamente la capacidad de autocorrección de los modelos de lenguaje grandes mediante aprendizaje por refuerzo.
  • El enfoque SCoRe usa datos autogenerados para resolver el problema de desajuste de distribución del modelo y aprender estrategias de corrección efectivas en pruebas.
  • Esta investigación muestra mejoras de rendimiento sobresalientes, especialmente en los modelos Gemini.
  • La capacidad de autocorrección es un elemento importante para aumentar la confiabilidad y la precisión de los modelos de lenguaje.
  • Un proyecto con funciones similares es la serie GPT de OpenAI.

1 comentarios

 
GN⁺ 2024-09-22
Comentarios de Hacker News
  • Es un enfoque similar al modelo o1 de OpenAI

    • En el artículo no se menciona nada sobre publicar los pesos
    • Fue difícil de entender porque el artículo no explica el tema de forma directa y da muchas vueltas
    • Existe la teoría de entrenar el comportamiento de "autocorrección" para aumentar la tasa de aciertos del LLM en problemas difíciles
    • Intentaron entrenar este comportamiento usando varias técnicas de aprendizaje por refuerzo, pero no funcionó bien
    • La afirmación del artículo es que, cuando el modelo recibe Answer 1, Reasoning, Corrected Answer y la señal de "mejora el Corrected Answer", hay dos maneras de hacerlo
      • Mejorar Reasoning, Corrected Answer
      • Mejorar Answer 1 para que Corrected Answer termine siendo igual a Answer 1
    • Estudios previos muestran que principalmente ocurría lo segundo, por lo que no lograban entrenar el comportamiento deseado
    • El artículo modifica ligeramente la forma de entrenamiento para inducir al modelo a usar la primera opción
    • En la primera etapa, mediante una pérdida por divergencia KL, obligan al modelo a mantener la primera respuesta mientras mejora la segunda
    • En la segunda etapa, se permite cambiar la primera respuesta, pero se ajusta la función de recompensa para dar una recompensa mayor a los "flips"
    • Este método mejora el modelo en general y al mismo tiempo mantiene el comportamiento de autocorrección
    • Existe preocupación por el problema de que, en la etapa 2, el modelo intente empeorar la primera respuesta para maximizar la recompensa
  • El LLM no tiene memoria directa de su propio entrenamiento

    • Las personas verifican cómo/por qué saben algo antes de decir que lo saben
    • Como el LLM no recuerda su entrenamiento, le resulta difícil autocorregirse
  • Hay una pregunta sobre si esto es una especie de destilación de conocimiento

  • Existe la opinión de que no se pueden eliminar las alucinaciones dentro del paradigma autorregresivo de predicción del siguiente token

    • El problema es intentar usar un modelo de lenguaje como si fuera un resolvedor determinista de problemas
  • Hay quejas sobre que los expertos en IA hayan popularizado el concepto de "alucinación"

    • Hace que parezca que la IA atraviesa un proceso de pensamiento profundo
    • La IA solo produce salidas basadas en datos
    • Si un endpoint de API JSON devolviera datos incorrectos, diríamos "esta API está rota"
  • Que un algoritmo inteligente guíe a un predictor no inteligente de la siguiente palabra sigue siendo un algoritmo no inteligente

    • Clasifica la basura de forma más elegante, pero sigue siendo basura
    • Esperaba que el enfoque de aprendizaje por refuerzo reemplazara al enfoque de transformers, pero eso no es más que un sueño