Fundamentos matemáticos del aprendizaje por refuerzo (RL): libro y clases en YouTube

(github.com/MathFoundationRL)

40 puntos por GN⁺ 2025-03-12 | 2 comentarios | Compartir por WhatsApp

Este libro tiene como objetivo presentar de forma accesible, desde una perspectiva matemática, los conceptos básicos, problemas y algoritmos del aprendizaje por refuerzo.
Explica no solo los procedimientos de los algoritmos, sino también por qué fueron diseñados así y por qué son efectivos, desde un punto de vista matemático.
La profundidad matemática está ajustada a un nivel adecuado, y se ofrecen ejemplos que el lector puede revisar de manera selectiva.
Separa las ideas clave de los algoritmos de los elementos complejos para ayudar a que el lector los entienda mejor.
Cada capítulo se construye sobre el anterior y proporciona la base para el siguiente.

Se publicaron clases en video en inglés en YouTube

Contenido

Este libro está compuesto por 10 capítulos y se divide en dos partes: herramientas básicas y algoritmos.
Los capítulos están interrelacionados, por lo que es necesario estudiar primero los capítulos iniciales.

Público objetivo

Este libro está dirigido a estudiantes avanzados de licenciatura, estudiantes de posgrado, investigadores y profesionales interesados en el aprendizaje por refuerzo.
Comienza desde los conceptos básicos para que pueda entenderse incluso sin conocimientos previos de aprendizaje por refuerzo.
Se requiere conocimiento de teoría de probabilidad y álgebra lineal, y las bases matemáticas necesarias están incluidas en el apéndice.

Videos de las clases

Se puede lograr un mejor aprendizaje combinando el libro y los videos de las clases.
Los videos de las clases en chino pueden verse en el canal de Bilibili y en el canal de YouTube, y hasta febrero de 2025 han registrado más de 1,300,000 visualizaciones.
Los videos de las clases en inglés están subidos a YouTube.

Sobre el autor

La información del autor puede consultarse en su página principal y en el sitio web de su grupo de investigación.
Desde 2019 ha impartido cursos de posgrado sobre aprendizaje por refuerzo, y este libro fue preparado a partir de esas notas de clase.
Espera que este libro ayude a los lectores a incorporarse con fluidez al campo del aprendizaje por refuerzo.

Cita

Título del libro: "Mathematical Foundations of Reinforcement Learning"
Autor: S. Zhao
Año de publicación: 2025
Editorial: Springer Nature Press y Tsinghua University Press

Historial de actualizaciones

Febrero de 2025: se alcanzaron más de 5,000 estrellas
Diciembre de 2024: se alcanzaron más de 4,000 estrellas
Octubre de 2024: se completó el diseño de la portada del libro
Septiembre de 2024: revisión final antes de la publicación con Springer
Agosto de 2024: se alcanzaron más de 3,000 estrellas y se añadió código
Junio de 2024: revisión final antes de la publicación
Abril de 2024: se añadió código para el entorno Grid World
Marzo de 2024: se alcanzaron 2,000 estrellas
Marzo de 2024: borrador de la tercera versión en línea
Septiembre de 2023: se alcanzaron más de 1,000 estrellas
Agosto de 2023: borrador de la segunda versión en línea
Noviembre de 2022: prevista la coedición con Springer Nature y Tsinghua University Press
Octubre de 2022: notas de clase y videos publicados en línea
Agosto de 2022: primer borrador en línea

2 comentarios

kipsong133 2025-03-13

Gracias por compartir este buen material.

GN⁺ 2025-03-12

Comentarios de Hacker News

La era de OpenAI Gym en el aprendizaje por refuerzo (RL) tenía la gran ventaja de ser accesible para principiantes. Uno podía aprender RL como hobby en entornos pequeños y aplicarlo a problemas simples como Cartpole. Me pregunto si existen tareas o entornos de aprendizaje de RL igual de accesibles relacionados con los LLMs. También me pregunto si hay algo que se pueda hacer en el área de LLM x RL con una MacBook Air común
- También se recomienda mucho la serie de 6 clases de Pieter Abbeel sobre los fundamentos de Deep RL. Da una buena visión general e intuición
- Las mejores clases sobre aprendizaje por refuerzo y temas relacionados son las de Dimitris Bertsekas
- También se recomiendan mucho los diagramas que ofrecen una excelente visión visual de RL y un video introductorio de 30 minutos en YouTube
- Se espera que surjan muchas startups de hipercrecimiento que usen RL para resolver problemas reales en ingeniería, logística y medicina
- Aunque los LLMs están recibiendo mucha atención en este momento, sorprende que el capital de riesgo no parezca poner un interés especial en las empresas de RL
Otro excelente recurso sobre RL es la colección de libros de texto de Mykel Kochenderfer
- También vale la pena mencionar el libro de texto en desarrollo de Murphy enfocado en RL
- Para quienes estén interesados, hay un repositorio de GitHub que implementa la mayor parte del libro de Sutton
- Gracias por enlazar también el código de MinRL. Mientras hacía investigación en RL, un gran problema era reproducir estudios comparativos y validar mis propias contribuciones. Una librería simple con herramientas de visualización y un sandbox de gridworld que se pueda validar solo con observación es muy útil
Este libro dice que el lector necesita conocimientos de teoría de probabilidad y álgebra lineal. Ese tipo de frase siempre hay que tomarla con cautela y entendiendo que suele estar escrita por fanáticos de las matemáticas. El programador promedio con habilidades matemáticas promedio debería tener cuidado
No sé cómo pasar de entender este material a conseguir un trabajo en esta área. Por ahora sigo como ingeniero de software (SWE)

Fundamentos matemáticos del aprendizaje por refuerzo (RL): libro y clases en YouTube

Contenido

Público objetivo

Videos de las clases

Sobre el autor

Cita

Historial de actualizaciones

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News