Publicación de un libro sobre RLHF
(rlhfbook.com)- Un libro y curso en línea gratuito creado para aprender en un solo lugar RLHF y post-training de modelos de lenguaje, estructurado para que lectores con base cuantitativa puedan seguir todo el proceso de entrenamiento
- El flujo central es la receta de RLHF, y explica de forma conectada instruction tuning, entrenamiento del reward model, rejection sampling, reinforcement learning, on-policy distillation y algoritmos de direct alignment
- Además de los hitos técnicos, también aborda los orígenes de RLHF en campos como economía, filosofía y control óptimo, para ofrecer una visión amplia del contexto en que surgió el concepto
- Como materiales complementarios, se ofrecen un codebase de algoritmos, una biblioteca para comparar completions de modelos por etapa de post-training y una página de curso educativo
- Tras la edición final de abril de 2026 y la incorporación de mejoras de la edición de Manning, pasará a edición impresa, por lo que se espera que en adelante haya menos cambios en el contenido
Un libro para aprender RLHF y post-training
- RLHF se ha convertido en una herramienta importante para construir sistemas modernos de machine learning a gran escala, y el alcance de la discusión se ha ampliado desde los métodos centrales de RLHF hacia un conjunto más amplio de técnicas de post-training
- Comienza con una breve introducción enfocada en modelos de lenguaje y está organizado para que lectores con base cuantitativa comprendan paso a paso los métodos clave del post-training de modelos
- Sigue el procedimiento estándar de RLHF y desarrolla los siguientes temas
- qué hace RLHF y por qué fue creado
- los principales hitos técnicos en una breve historia
- los fundamentos de reinforcement learning necesarios para entender el libro
- la etapa de optimización que va de instruction tuning al entrenamiento del reward model
- rejection sampling, reinforcement learning, on-policy distillation y algoritmos de direct alignment
- La parte final trata preguntas abiertas en áreas menos estudiadas o emergentes, como datos sintéticos, uso de herramientas, entrenamiento de personajes y evaluación
Materiales incluidos e historial de cambios
- Se ofrecen materiales complementarios para aprender los conceptos base de los modelos de lenguaje con post-training
-
Cambios de 2026
- Abril de 2026: edición final para la versión impresa, incorporación de mejoras de la edición de Manning, aclaración de fórmulas y terminología, corrección de erratas y gramática en todos los capítulos, expansión del capítulo de producto
- Marzo de 2026: publicación de la course page con videos de clase, resaltado de sintaxis en PDF, expansión del capítulo de producto
- Febrero de 2026: en el contenido v2 se añadieron el capítulo de direct alignment, nuevos diagramas, una guía rápida de RL, apéndice, barra de búsqueda, soporte para Kindle y correcciones editoriales
- Enero de 2026: reorganización importante de capítulos para ajustarse a la estructura del libro de Manning, biblioteca de ejemplos de código, redirección de las URL anteriores a sus nuevas ubicaciones
- En 2025 y 2024 se fueron agregando gradualmente DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization y bibliography
- El formato de cita de la edición 2026 se ofrece como
@book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}
Aún no hay comentarios.