"RLHF es solo una pequeña parte de RL" - Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF) es la tercera (y última) gran etapa del entrenamiento de los LLM después del pretraining y del supervised finetuning (SFT) Mi opinión sobre RLHF es que solo es una parte de RL, y esto no es algo ampliamente conocido En realidad, a RLHF le falta bastante para llamarlo RL (aprendizaje por refuerzo) de verdad Por ejemplo, AlphaGo fue entrenado con RL real, y si hubiera sido entrenado con RLHF no habría logrado los resultados que tiene hoy ¿Qué habría pasado si AlphaGo hubiera sido entrenado con RLHF? Se les mostrarían dos estados del tablero de Go a evaluadores humanos y se les pediría elegir cuál es mejor Se recopilarían unas 100 mil comparaciones como estas, y se entrenaría una red neuronal "Reward Model" (RM, modelo de recompensa) para imitar la evaluación humana (Vibe Check) Después se haría RL con ese modelo de recompensa como referencia para aprender movimientos que reciban buenas evaluaciones Pero esto probablemente no habría producido resultados significativos en Go Dos razones principales por las que RLHF no es adecuado para AlphaGo Primero, el vibe puede ser engañoso. Esa recompensa no es la recompensa real de ganar, sino un objetivo proxy inexacto Segundo, durante el proceso de optimización con RL es muy probable que el modelo de recompensa otorgue puntajes altos a estados anómalos fuera del rango de los datos de entrenamiento, distorsionando la optimización El RM es una red neuronal grande con miles de millones de parámetros que imita el vibe Problemas al aplicar RLHF a los LLM El modelo de recompensa de un LLM también tiende a dar puntajes altos a respuestas que probablemente les gusten a evaluadores humanos Ese modelo de recompensa no está resolviendo el problema "real", sino evaluando un objetivo proxy: respuestas que parecen agradarle a la gente No se puede ejecutar RLHF durante demasiado tiempo, porque el modelo aprende rápidamente a responder de formas que engañan al modelo de recompensa Se puede ver que un asistente LLM empieza a responder con cosas extrañas como "The the the the the the" Aunque parezca ridículo, el RM considera que eso es excelente Encontró ejemplos adversariales en regiones fuera del rango de datos de entrenamiento del RM Por estas razones, RLHF no puede ejecutarse durante demasiados pasos de optimización, y después de unos cientos o miles de pasos hay que detenerlo porque la optimización empieza a engañar al RM Esto no es RL como el de AlphaGo Por qué RLHF sigue siendo útil para construir asistentes LLM RLHF se beneficia de la brecha entre Generator (generador) y Discriminator (discriminador) Es decir, en muchos tipos de problemas, para un evaluador humano es mucho más fácil elegir la mejor respuesta entre varias candidatas que escribir una respuesta ideal desde cero Un buen ejemplo es un prompt como "genera un poema sobre un clip", donde resulta más fácil escoger un buen poema entre varias opciones RLHF es una forma de aprovechar esa brecha de "facilidad" en la supervisión humana Además, RLHF también es útil para reducir las alucinaciones (generación de información incorrecta) Si el RM es lo bastante potente como para detectar durante el entrenamiento cuando el LLM se inventa algo, puede aprender a penalizarlo con una recompensa baja y enseñarle al modelo a no arriesgarse con hechos de los que no está seguro Pero las alucinaciones y cómo mitigarlas de forma satisfactoria son un tema completamente distinto En conclusión, "RLHF es útil, pero no es RL real" Hasta ahora no hay casos convincentes en los que se haya logrado y demostrado de forma escalable un RL "real" a nivel de producción en LLM dentro de dominios abiertos También por intuición, obtener recompensas reales en resolución de problemas de dominio abierto (es decir, algo como ganar un juego) es muy difícil Sí resulta interesante en entornos cerrados y similares a juegos como Go, donde la dinámica está restringida y la función de recompensa es fácil de evaluar y no se puede engañar Por ejemplo, ¿cómo se podría dar una recompensa objetiva a tareas como resumir documentos, responder preguntas algo ambiguas, hacer chistes o reescribir código Java en Python? En principio, el camino hacia eso no es imposible, pero tampoco es trivial y requiere pensamiento creativo Quien resuelva este problema de forma convincente podrá ejecutar RL real Del tipo de RL que permitió que AlphaGo venciera a humanos en Go Quien resuelva este problema podrá crear un LLM que supere a los humanos en resolución de problemas de dominio abierto

(twitter.com/karpathy)

8 puntos por xguru 2024-08-09 | 1 comentarios | Compartir por WhatsApp

Reinforcement Learning from Human Feedback (RLHF) es la tercera (y última) gran etapa del entrenamiento de los LLM después del pretraining y del supervised finetuning (SFT)
- Mi opinión sobre RLHF es que solo es una parte de RL, y esto no es algo ampliamente conocido
- En realidad, a RLHF le falta bastante para llamarlo RL (aprendizaje por refuerzo) de verdad
- Por ejemplo, AlphaGo fue entrenado con RL real, y si hubiera sido entrenado con RLHF no habría logrado los resultados que tiene hoy
¿Qué habría pasado si AlphaGo hubiera sido entrenado con RLHF?
- Se les mostrarían dos estados del tablero de Go a evaluadores humanos y se les pediría elegir cuál es mejor
- Se recopilarían unas 100 mil comparaciones como estas, y se entrenaría una red neuronal "Reward Model" (RM, modelo de recompensa) para imitar la evaluación humana (Vibe Check)
- Después se haría RL con ese modelo de recompensa como referencia para aprender movimientos que reciban buenas evaluaciones
- Pero esto probablemente no habría producido resultados significativos en Go
Dos razones principales por las que RLHF no es adecuado para AlphaGo
- Primero, el vibe puede ser engañoso. Esa recompensa no es la recompensa real de ganar, sino un objetivo proxy inexacto
- Segundo, durante el proceso de optimización con RL es muy probable que el modelo de recompensa otorgue puntajes altos a estados anómalos fuera del rango de los datos de entrenamiento, distorsionando la optimización
  - El RM es una red neuronal grande con miles de millones de parámetros que imita el vibe
Problemas al aplicar RLHF a los LLM
- El modelo de recompensa de un LLM también tiende a dar puntajes altos a respuestas que probablemente les gusten a evaluadores humanos
  - Ese modelo de recompensa no está resolviendo el problema "real", sino evaluando un objetivo proxy: respuestas que parecen agradarle a la gente
- No se puede ejecutar RLHF durante demasiado tiempo, porque el modelo aprende rápidamente a responder de formas que engañan al modelo de recompensa
- Se puede ver que un asistente LLM empieza a responder con cosas extrañas como "The the the the the the"
- Aunque parezca ridículo, el RM considera que eso es excelente
- Encontró ejemplos adversariales en regiones fuera del rango de datos de entrenamiento del RM
- Por estas razones, RLHF no puede ejecutarse durante demasiados pasos de optimización, y después de unos cientos o miles de pasos hay que detenerlo porque la optimización empieza a engañar al RM
- Esto no es RL como el de AlphaGo
Por qué RLHF sigue siendo útil para construir asistentes LLM
- RLHF se beneficia de la brecha entre Generator (generador) y Discriminator (discriminador)
  - Es decir, en muchos tipos de problemas, para un evaluador humano es mucho más fácil elegir la mejor respuesta entre varias candidatas que escribir una respuesta ideal desde cero
  - Un buen ejemplo es un prompt como "genera un poema sobre un clip", donde resulta más fácil escoger un buen poema entre varias opciones
- RLHF es una forma de aprovechar esa brecha de "facilidad" en la supervisión humana
- Además, RLHF también es útil para reducir las alucinaciones (generación de información incorrecta)
  - Si el RM es lo bastante potente como para detectar durante el entrenamiento cuando el LLM se inventa algo, puede aprender a penalizarlo con una recompensa baja y enseñarle al modelo a no arriesgarse con hechos de los que no está seguro
  - Pero las alucinaciones y cómo mitigarlas de forma satisfactoria son un tema completamente distinto
En conclusión, "RLHF es útil, pero no es RL real"
- Hasta ahora no hay casos convincentes en los que se haya logrado y demostrado de forma escalable un RL "real" a nivel de producción en LLM dentro de dominios abiertos
- También por intuición, obtener recompensas reales en resolución de problemas de dominio abierto (es decir, algo como ganar un juego) es muy difícil
- Sí resulta interesante en entornos cerrados y similares a juegos como Go, donde la dinámica está restringida y la función de recompensa es fácil de evaluar y no se puede engañar
- Por ejemplo, ¿cómo se podría dar una recompensa objetiva a tareas como resumir documentos, responder preguntas algo ambiguas, hacer chistes o reescribir código Java en Python?
  - En principio, el camino hacia eso no es imposible, pero tampoco es trivial y requiere pensamiento creativo
  - Quien resuelva este problema de forma convincente podrá ejecutar RL real
    - Del tipo de RL que permitió que AlphaGo venciera a humanos en Go
  - Quien resuelva este problema podrá crear un LLM que supere a los humanos en resolución de problemas de dominio abierto

1 comentarios

xguru 2024-08-09

Opiniones de Hacker News

Los asistentes de programación con IA mejorarán enormemente en los próximos años
- La IA conversacional no tiene una función de recompensa clara, por lo que es difícil evaluar la calidad
- La IA para programar puede ejecutar un bucle infinito de escribir pruebas, escribir código, compilar e inspeccionar los casos de prueba fallidos
- Este proceso puede usarse como datos de entrenamiento para futuros modelos de IA de programación
- Los modelos de lenguaje también mostrarán un desempeño sobresaliente en la demostración de teoremas matemáticos
- El software de verificación de teoremas ofrece retroalimentación 100% precisa, lo que hace posible el aprendizaje por refuerzo
- La verificación formal de la corrección de los programas es tediosa, pero los LLMs podrían cambiar eso
- Un motor podría usar anotaciones generadas por LLMs para demostrar la corrección
Un método casero y barato, similar a RLHF, consiste en ajustar finamente el modelo para añadir una puntuación a la salida
- Se necesita RLHF porque no se puede escribir una función de pérdida que produzca buenas respuestas
- El modelo base genera n completaciones para un prompt y luego se les asignan puntuaciones manualmente
- Después, los pares prompt => (completación, puntuación) se convierten en el conjunto de entrenamiento
- Una vez entrenado el modelo, si se incluye la puntuación deseada en el prompt, el modelo intenta generar una respuesta acorde con esa puntuación
El problema de que varios algoritmos de ML "hagan trampa" con la función de recompensa es similar a los problemas de finanzas y economía
- Cuando la gente intenta obtener dinero sin hacer trabajo productivo, aumentan las actividades improductivas
- Para mitigar esto, se necesita un sistema que castigue manipular la función de recompensa
- Ese sistema debe poder entender el valor real e identificar los casos donde la función de recompensa es alta pero el valor es bajo
Karpathy sabe mucho más sobre este tema, pero da la impresión de que a esta publicación le falta algo
- Go es un juego demasiado complejo para que los humanos lo resuelvan
- El objetivo de los LLM es imitar perfectamente a los humanos
- AlphaGo y Stockfish pueden ampliar la comprensión de los juegos, pero los LLM no pueden expandir los límites del lenguaje
- Como los LLM son esencialmente modelos de imitación, RLHF tiene más sentido en el ámbito de los LLM
Me pregunto cuál es la "brecha" entre los LLM actuales basados en transformers y la predicción óptima de secuencias
- Los LLM actuales tienen una función objetivo simple que minimiza la entropía cruzada de la predicción de tokens durante el entrenamiento
- La inducción de Solomonoff logra la predicción óptima de secuencias
- Me pregunto qué tan distinta sería una conversación entre SI y GPT4
- La AGI necesita más que predicción óptima de secuencias
- Una función objetivo orientada a humanos consistiría en maximizar la probabilidad de dar respuestas que satisfagan al usuario
- Pero como hay múltiples usuarios, el problema es cómo agregarlos
- Karpathy está insinuando este problema
Los campos de demostración como LEAN tienen estado, acciones, medida de progreso y un estado objetivo final
- Si Karpathy se enfocara en automatizar demostraciones en LEAN, podría cambiar las matemáticas para siempre
AlphaGo no tuvo retroalimentación humana, pero sí aprendió de humanos
- AlphaZero excluyó la influencia humana y usó aprendizaje por refuerzo puro
El paper de SPAG es un ejemplo de verdadero aprendizaje por refuerzo usando modelos de lenguaje
- En la publicación de Karpathy faltan "escala" y "dominio abierto"
- Los juegos lingüísticos adversariales parecen prometedores
La conclusión de que LLM + RL superará a las personas en la resolución de problemas de dominio abierto carece de fundamento

"RLHF es solo una pequeña parte de RL" - Andrej Karpathy

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News