- Recientemente ha llamado la atención la escalabilidad del aprendizaje por refuerzo (RL), como se ha visto con los grandes modelos de lenguaje (LLM)
- En la práctica, AlphaGo, los LLM y otros muestran un rendimiento potente, pero principalmente usan algoritmos de RL on-policy
- Q-learning, el algoritmo representativo del RL off-policy, escala mal en problemas de horizonte largo debido al problema del sesgo acumulado
- Los resultados experimentales muestran que, incluso aumentando mucho los datos y el cómputo, los algoritmos estándar de la familia de Q-learning tienen límites de rendimiento en tareas complejas de largo plazo
- Solo existen soluciones locales, como los métodos jerárquicos para aliviar el problema del horizonte, por lo que se necesita un nuevo objetivo de RL off-policy que sea escalable de forma fundamental
RL, ¿es escalable?
- Últimamente, objetivos como la predicción del siguiente token en modelos de lenguaje, los modelos de difusión y el aprendizaje contrastivo escalan bien a medida que aumentan los datos y el cómputo
- En juegos, matemáticas, programación y otros campos, el RL también ha mostrado resultados sólidos, y en muchos de esos casos se han usado algoritmos de RL on-policy (por ejemplo, PPO, REINFORCE, etc.)
- El RL on-policy siempre requiere nuevos roll-outs, es decir, solo puede usar datos generados directamente con la política más reciente
- Este enfoque no es un gran problema en simulación o en LLM, pero es muy ineficiente en entornos reales como la robótica
- Por ejemplo, en experimentos con robots puede tomar varios meses obtener suficientes datos, además de requerir intervención manual humana
La aparición del RL off-policy
- El RL off-policy destaca por su eficiencia de muestra, ya que puede reutilizar todos los datos anteriores
- Como ejemplo representativo, Q-learning se usa ampliamente y ha mostrado resultados en tareas como caminata en tiempo real de robots cuadrúpedos
- Q-learning utiliza la minimización de la pérdida temporal-diferencial (TD loss), y casi todo el RL off-policy sigue este principio
- Si se quiere aplicar RL a problemas del mundo real, la pregunta clave es: ¿Q-learning también puede escalar?
Los límites de escalamiento de Q-learning
- El autor sostiene que el Q-learning actual no escala bien cuando aparecen problemas de horizonte largo (más de 100 pasos de decisión)
- Aquí, “escalabilidad” significa si un problema puede resolverse solo invirtiendo más datos y recursos de cómputo, incluso cuando aumenta su profundidad/dificultad (“depth”)
- Como han mostrado varios artículos de forma experimental, no se trata simplemente de aumentar la cantidad de problemas procesables (“width”)
- La tesis del autor: la familia de Q-learning tiene baja escalabilidad en el eje de profundidad (dificultad), y hace falta innovación algorítmica
- Hay dos bases principales para esta afirmación: la ausencia de casos de éxito empíricos y experimentos sistemáticos recientes
Evidencia empírica
- AlphaGo, AlphaZero y MuZero son todos ejemplos de RL on-policy basado en modelos (model-based), no de la familia TD-learning
- OpenAI Five también usa métodos on-policy como PPO
- En RL para LLM, la mayoría de los enfoques dominantes también son variantes on-policy basadas en policy gradient
- Casi no hay casos reales de gran escala comparables a AlphaGo o a los LLM construidos con Q-learning o con RL off-policy similar
- El autor afirma que, tras revisar varios artículos y casos prácticos, no conoce grandes casos de éxito basados en Q-learning
La causa del límite de Q-learning: horizonte y sesgo acumulado
- En Q-learning, los objetivos TD con bootstrap (generar valores objetivo a partir de estimaciones) siempre están sesgados; ese sesgo se acumula a lo largo del horizonte temporal
- En cambio, otros objetivos altamente escalables, como la predicción de tokens, difusión o aprendizaje contrastivo, no tienen sesgo acumulado en sus objetivos de predicción
- A medida que el horizonte (longitud de decisión) se hace más largo, el error acumulado limita la escalabilidad del rendimiento de Q-learning
- Para aliviarlo, en muchos casos se configura un factor de descuento pequeño
- Los métodos de estimación de valor on-policy, como policy gradient, sufren relativamente menos el problema del horizonte gracias a técnicas como GAE
Verificación experimental de los límites de escalabilidad
- En un artículo reciente, para tareas de horizonte ultra largo, se diseñaron tareas difíciles de miles de pasos en OGBench y otros entornos
- Se minimizaron factores de ruido como datos “casi infinitos”, modelos potentes y menor carga en las redes neuronales de representación
- Los métodos existentes de RL offline (BC, IQL, CRL, SAC+BC, etc.) no lograron aprender tareas complejas ni siquiera con datasets gigantescos
- Se hicieron pruebas de ablación sobre todas las variables —datos, tamaño del modelo, tiempo de entrenamiento e hiperparámetros—, pero no se logró superar el límite de rendimiento
- Sin embargo, solo las técnicas que reducen el horizonte (la longitud de decisión) mostraron un efecto claro en la escalabilidad del rendimiento
Efecto de las técnicas de reducción del horizonte
- Solo la reducción del horizonte, como los n-step return y el RL jerárquico, mostró un efecto decisivo en el escalamiento del RL
- Reducir el horizonte no solo acelera el aprendizaje, sino que también mejora de forma drástica el rendimiento final
- Pero este tipo de enfoque no resuelve el problema de raíz, sino que solo reduce el horizonte por un factor constante
- Hace falta un nuevo enfoque algorítmico que elimine la maldición del horizonte
Necesidad de un nuevo objetivo off-policy escalable
- La investigación hasta ahora demuestra que simplemente aumentar el tamaño de los datos o del modelo no basta para superar de forma fundamental la maldición del horizonte
- En última instancia, se necesita una variante de RL off-policy capaz de escalar incluso en problemas de largo plazo de longitud arbitraria
- Si se logra este objetivo, sería posible abordar una gama más amplia de problemas del mundo real, como robótica, LLM y diversos agentes de toma de decisiones
Ideas y propuestas para investigación futura
- Más allá de una jerarquía de dos niveles, podría proponerse una nueva estructura jerárquica simple y escalable capaz de manejar horizontes de longitud arbitraria
- El RL basado en modelos (model-based RL) podría tener potencial de escalabilidad al combinar modelado basado en aprendizaje supervisado con RL on-policy
- También podría ser útil explorar nuevas líneas, como quasimetric RL o contrastive RL, que excluyen por completo TD learning
- El entorno de evaluación y el código generados se abrirán y podrían usarse como benchmark de pruebas de escalamiento para diversos algoritmos nuevos de RL
Agradecimientos
- El autor agradece a varios investigadores que aportaron colaboración y retroalimentación para el artículo y el post
- Se aclara que este contenido se basa en trabajos como el paper [Horizon Reduction Makes RL Scalable] y que representa la opinión personal del autor
1 comentarios
Comentarios en Hacker News
Creo que las limitaciones de escalabilidad de Q-Learning son incluso mayores de lo que menciona el blog. La cantidad de estados que un agente debe manejar normalmente crece de forma exponencial a medida que aumenta el horizonte. Por eso, la demanda de datos para entrenar una Q que cubra esos estados también crece exponencialmente. En cambio, el aprendizaje on-policy solo aprende los estados importantes, así que incluso con un espacio de estados exponencial, los datos de entrenamiento se concentran únicamente en los puntos donde se necesitan, lo que simplifica relativamente el problema
Estoy de acuerdo con el análisis del sesgo de sobreaproximación en Q-learning que menciona el artículo. El operador Max de Q-learning tiende a amplificar el ruido a lo largo del eje temporal. Ha habido casos en los que métodos para mitigar ese sesgo, como en este paper, mejoraron con éxito el rendimiento de agentes de RL. También hay investigaciones que muestran que este fenómeno aparece más en estados que la red visita poco. La fortaleza del deep learning es que, incluso si la cantidad de estados crece exponencialmente, el rendimiento sigue siendo posible si existe una estructura aprendible. La clave es definir el objetivo de entrenamiento correcto, y el artículo sostiene que Q-learning tiene límites en ese aspecto. Me pregunto si sistemas de RL basados en modelos como MuZero podrían ser una solución. MuZero mejora la eficiencia de entrenamiento al reanalizar trayectorias previas, y Monte Carlo Tree Search (MCTS) es una forma con fundamento de reducir el horizonte desplegando varios pasos. Dentro de MCTS también puede aparecer el problema del operador Max, pero conforme la búsqueda se hace más profunda, es posible compensarlo
Creo que este hilo podría ser útil. Desde una perspectiva totalmente no experta, algunos trabajos parecen tener “profundidad” y aun así conservar cierta homogeneidad, y en esos casos quizá se pueda aprender incluso si la calidad de las muestras no es tan buena. A ese tipo de tareas me gustaría llamarlas “ergodic”. Pero también creo que claramente existen tareas que no son así
Me pregunto si esto se parece a la diferencia entre la integración Monte Carlo por rejilla general y la integración Monte Carlo con muestreo por importancia
Comparto impresiones sobre Majorana-1
Me parece una lástima que el blog no mencione enfoques offline como Decision Transformers o Trajectory Transformers. Gracias al mecanismo de atención, evitan el problema de credit assignment y muestran buen rendimiento en tareas de horizonte largo. Muchos investigadores de RL consideran que estos métodos no son “RL de verdad”, porque no pueden asignar crédito fuera de la context window. Por eso suele decirse que son difíciles de aplicar a tareas de horizonte infinito. Pero si la context window supera el millón, me pregunto si en la práctica eso realmente dejaría de ser un gran problema. Ver paper de Decision Transformer, paper de Trajectory Transformer
Creo que resume muy bien la esencia de RL. En pocas palabras, es como seguir moviéndose mientras persigues una meta cuya posición también cambia constantemente según cómo te muevas. Es decir, en el RL basado en valores no existe una respuesta absoluta (ground truth); es un juego de hacer coincidir ambos lados usando solo tus propias estimaciones. Pero no creo que sea una situación desesperada. Al contrario, pienso que RL está a punto de volverse práctico, en parte porque hasta ahora faltaban world models o funciones de dinámica confiables. Ahora también estamos viendo grandes avances en esa parte
Este paper/blog está dirigido a gente que ya tiene conocimientos de RL. Si quieres estudiar RL más a fondo, recomiendo la clase introductoria de David Silver (Deep Mind)
La limitación fundamental del aprendizaje off-policy es que los datos de exploración inicial, si son poco efectivos, aportan muy poco para aprender políticas más avanzadas. Por ejemplo, errores básicos en ajedrez, movimientos sin sentido o conductas incapaces de resolver un rompecabezas. Los datos se vuelven off-policy en el momento en que esas acciones se desvían de la política actual, es decir, de lo que el agente realmente elegiría. Así que, al final, la esencia del problema está en una mejor generalización y en mejorar la eficiencia de muestra
Cuando los humanos aprenden tareas de largo plazo (de horizonte largo), suelen dividir la tarea completa en subtareas de horizonte corto mediante práctica repetida, y luego combinan de forma jerárquica esas habilidades parciales
Los humanos en realidad usan tanto aprendizaje on-policy como off-policy. Aprenden on-policy al explorar directamente las consecuencias de sus acciones, y también aprenden off-policy al observar demostraciones de otros expertos. Pero la diferencia con RL es que los humanos distinguen entre acciones buenas y malas y filtran solo “lo bueno” para aprender. En cambio, en la mayoría del RL off-policy, también se usan acciones malas como datos, lo que termina ralentizando todo el entrenamiento
Me gusta el contenido del blog, pero es una pena que el uso de siglas o términos técnicos no explicados reduzca su utilidad para un público más amplio. Ojalá explicaran mejor la terminología y las siglas para mejorar la accesibilidad
En este tipo de blog posts, donde el contenido es muy sustancioso pero exige mucho conocimiento previo y por eso resulta poco accesible, las herramientas de IA ayudan mucho para explicar o dar una versión más sencilla. Últimamente usé Dia en el navegador y fue efectivo. Incluso si copias y pegas esto en otro modelo de IA, puedes obtener una explicación de todo de forma concisa y aclaraciones sobre las dudas que tengas
Se nota que este tipo de texto está escrito claramente para investigadores de RL. La conclusión es algo como: “¡Alguien encuentre por favor una forma de hacer escalable Q-learning!”
Más bien creo que eso hizo que el artículo fuera más limpio
La fortaleza de técnicas off-policy como Q-Learning es que, incluso con datos casi óptimos (o datos malos), al final convergen a la solución óptima. Por ejemplo, aunque solo juntes datos de partidas de ajedrez sin ninguna estrategia y los uses como entrada de Q-Learning, aun así sería posible aprender la política óptima (aunque más lento que con buenos datos)