Entrenamiento de autocorrección de modelos de lenguaje mediante aprendizaje por refuerzo
(arxiv.org)Aprendizaje por refuerzo para entrenar la autocorrección de modelos de lenguaje
-
Necesidad de la autocorrección
- La capacidad de autocorrección de los modelos de lenguaje grandes (LLM) es muy deseable, pero no resulta efectiva en los LLM modernos.
- Los métodos existentes para entrenar la autocorrección requieren varios modelos o necesitan un modelo más capaz u otra forma de supervisión.
-
Enfoque SCoRe
- SCoRe es un enfoque de aprendizaje por refuerzo (RL) en línea de múltiples turnos que mejora significativamente la capacidad de autocorrección de los LLM usando datos completamente autogenerados.
- Para construir SCoRe, se demuestra que una variante de ajuste fino supervisado (SFT) sobre trazas de corrección generadas por modelos offline no es suficiente para inyectar conductas de autocorrección.
- El entrenamiento mediante SFT sufre por la falta de coincidencia de distribución entre los datos de entrenamiento y las propias respuestas del modelo, o favorece solo modos específicos de conducta de corrección, por lo que no resulta efectivo en pruebas.
-
La solución de SCoRe
- Ajusta el proceso de aprendizaje para entrenar bajo la distribución de trazas de corrección autogeneradas por el propio modelo y, con una regularización adecuada, aprender estrategias de autocorrección efectivas en pruebas.
- Ejecuta una primera etapa de RL para generar una inicialización de la política y usa una bonificación de recompensa para amplificar la autocorrección durante el entrenamiento.
-
Resultados de rendimiento
- Al aplicarse a los modelos Gemini 1.0 Pro y 1.5 Flash, SCoRe logró mejoras en el rendimiento de autocorrección de 15.6% y 9.1% en los benchmarks MATH y HumanEval, respectivamente.
Resumen de GN⁺
- Este artículo propone un método para mejorar significativamente la capacidad de autocorrección de los modelos de lenguaje grandes mediante aprendizaje por refuerzo.
- El enfoque SCoRe usa datos autogenerados para resolver el problema de desajuste de distribución del modelo y aprender estrategias de corrección efectivas en pruebas.
- Esta investigación muestra mejoras de rendimiento sobresalientes, especialmente en los modelos Gemini.
- La capacidad de autocorrección es un elemento importante para aumentar la confiabilidad y la precisión de los modelos de lenguaje.
- Un proyecto con funciones similares es la serie GPT de OpenAI.
1 comentarios
Comentarios de Hacker News
Es un enfoque similar al modelo o1 de OpenAI
Answer 1, Reasoning, Corrected Answery la señal de "mejora el Corrected Answer", hay dos maneras de hacerloReasoning, Corrected AnswerAnswer 1para queCorrected Answertermine siendo igual aAnswer 1El LLM no tiene memoria directa de su propio entrenamiento
Hay una pregunta sobre si esto es una especie de destilación de conocimiento
Existe la opinión de que no se pueden eliminar las alucinaciones dentro del paradigma autorregresivo de predicción del siguiente token
Hay quejas sobre que los expertos en IA hayan popularizado el concepto de "alucinación"
Que un algoritmo inteligente guíe a un predictor no inteligente de la siguiente palabra sigue siendo un algoritmo no inteligente