Publicación de un libro sobre RLHF

(rlhfbook.com)

4 puntos por GN⁺ 2025-02-03 | Aún no hay comentarios. | Compartir por WhatsApp

Un libro y curso en línea gratuito creado para aprender en un solo lugar RLHF y post-training de modelos de lenguaje, estructurado para que lectores con base cuantitativa puedan seguir todo el proceso de entrenamiento
El flujo central es la receta de RLHF, y explica de forma conectada instruction tuning, entrenamiento del reward model, rejection sampling, reinforcement learning, on-policy distillation y algoritmos de direct alignment
Además de los hitos técnicos, también aborda los orígenes de RLHF en campos como economía, filosofía y control óptimo, para ofrecer una visión amplia del contexto en que surgió el concepto
Como materiales complementarios, se ofrecen un codebase de algoritmos, una biblioteca para comparar completions de modelos por etapa de post-training y una página de curso educativo
Tras la edición final de abril de 2026 y la incorporación de mejoras de la edición de Manning, pasará a edición impresa, por lo que se espera que en adelante haya menos cambios en el contenido

Un libro para aprender RLHF y post-training

RLHF se ha convertido en una herramienta importante para construir sistemas modernos de machine learning a gran escala, y el alcance de la discusión se ha ampliado desde los métodos centrales de RLHF hacia un conjunto más amplio de técnicas de post-training
Comienza con una breve introducción enfocada en modelos de lenguaje y está organizado para que lectores con base cuantitativa comprendan paso a paso los métodos clave del post-training de modelos
Sigue el procedimiento estándar de RLHF y desarrolla los siguientes temas
- qué hace RLHF y por qué fue creado
- los principales hitos técnicos en una breve historia
- los fundamentos de reinforcement learning necesarios para entender el libro
- la etapa de optimización que va de instruction tuning al entrenamiento del reward model
- rejection sampling, reinforcement learning, on-policy distillation y algoritmos de direct alignment
La parte final trata preguntas abiertas en áreas menos estudiadas o emergentes, como datos sintéticos, uso de herramientas, entrenamiento de personajes y evaluación

Materiales incluidos e historial de cambios

Se ofrecen materiales complementarios para aprender los conceptos base de los modelos de lenguaje con post-training
- codebase: implementación de los algoritmos que aparecen en el libro
- library: biblioteca para comparar completions de modelos dentro de las etapas de post-training
- course: página del curso educativo
Cambios de 2026
- Abril de 2026: edición final para la versión impresa, incorporación de mejoras de la edición de Manning, aclaración de fórmulas y terminología, corrección de erratas y gramática en todos los capítulos, expansión del capítulo de producto
- Marzo de 2026: publicación de la course page con videos de clase, resaltado de sintaxis en PDF, expansión del capítulo de producto
- Febrero de 2026: en el contenido v2 se añadieron el capítulo de direct alignment, nuevos diagramas, una guía rápida de RL, apéndice, barra de búsqueda, soporte para Kindle y correcciones editoriales
- Enero de 2026: reorganización importante de capítulos para ajustarse a la estructura del libro de Manning, biblioteca de ejemplos de código, redirección de las URL anteriores a sus nuevas ubicaciones
- En 2025 y 2024 se fueron agregando gradualmente DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization y bibliography
- El formato de cita de la edición 2026 se ofrece como @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}

Publicación de un libro sobre RLHF

Un libro para aprender RLHF y post-training

Materiales incluidos e historial de cambios

Cambios de 2026

Lecturas relacionadas

Aún no hay comentarios.