- Este libro tiene como objetivo presentar de forma accesible, desde una perspectiva matemática, los conceptos básicos, problemas y algoritmos del aprendizaje por refuerzo.
- Explica no solo los procedimientos de los algoritmos, sino también por qué fueron diseñados así y por qué son efectivos, desde un punto de vista matemático.
- La profundidad matemática está ajustada a un nivel adecuado, y se ofrecen ejemplos que el lector puede revisar de manera selectiva.
- Separa las ideas clave de los algoritmos de los elementos complejos para ayudar a que el lector los entienda mejor.
- Cada capítulo se construye sobre el anterior y proporciona la base para el siguiente.
Contenido
- Este libro está compuesto por 10 capítulos y se divide en dos partes: herramientas básicas y algoritmos.
- Los capítulos están interrelacionados, por lo que es necesario estudiar primero los capítulos iniciales.
Público objetivo
- Este libro está dirigido a estudiantes avanzados de licenciatura, estudiantes de posgrado, investigadores y profesionales interesados en el aprendizaje por refuerzo.
- Comienza desde los conceptos básicos para que pueda entenderse incluso sin conocimientos previos de aprendizaje por refuerzo.
- Se requiere conocimiento de teoría de probabilidad y álgebra lineal, y las bases matemáticas necesarias están incluidas en el apéndice.
Videos de las clases
- Se puede lograr un mejor aprendizaje combinando el libro y los videos de las clases.
- Los videos de las clases en chino pueden verse en el canal de Bilibili y en el canal de YouTube, y hasta febrero de 2025 han registrado más de 1,300,000 visualizaciones.
- Los videos de las clases en inglés están subidos a YouTube.
Sobre el autor
- La información del autor puede consultarse en su página principal y en el sitio web de su grupo de investigación.
- Desde 2019 ha impartido cursos de posgrado sobre aprendizaje por refuerzo, y este libro fue preparado a partir de esas notas de clase.
- Espera que este libro ayude a los lectores a incorporarse con fluidez al campo del aprendizaje por refuerzo.
Cita
- Título del libro: "Mathematical Foundations of Reinforcement Learning"
- Autor: S. Zhao
- Año de publicación: 2025
- Editorial: Springer Nature Press y Tsinghua University Press
Historial de actualizaciones
- Febrero de 2025: se alcanzaron más de 5,000 estrellas
- Diciembre de 2024: se alcanzaron más de 4,000 estrellas
- Octubre de 2024: se completó el diseño de la portada del libro
- Septiembre de 2024: revisión final antes de la publicación con Springer
- Agosto de 2024: se alcanzaron más de 3,000 estrellas y se añadió código
- Junio de 2024: revisión final antes de la publicación
- Abril de 2024: se añadió código para el entorno Grid World
- Marzo de 2024: se alcanzaron 2,000 estrellas
- Marzo de 2024: borrador de la tercera versión en línea
- Septiembre de 2023: se alcanzaron más de 1,000 estrellas
- Agosto de 2023: borrador de la segunda versión en línea
- Noviembre de 2022: prevista la coedición con Springer Nature y Tsinghua University Press
- Octubre de 2022: notas de clase y videos publicados en línea
- Agosto de 2022: primer borrador en línea
2 comentarios
Gracias por compartir este buen material.
Comentarios de Hacker News
La era de OpenAI Gym en el aprendizaje por refuerzo (RL) tenía la gran ventaja de ser accesible para principiantes. Uno podía aprender RL como hobby en entornos pequeños y aplicarlo a problemas simples como Cartpole. Me pregunto si existen tareas o entornos de aprendizaje de RL igual de accesibles relacionados con los LLMs. También me pregunto si hay algo que se pueda hacer en el área de LLM x RL con una MacBook Air común
Otro excelente recurso sobre RL es la colección de libros de texto de Mykel Kochenderfer
Este libro dice que el lector necesita conocimientos de teoría de probabilidad y álgebra lineal. Ese tipo de frase siempre hay que tomarla con cautela y entendiendo que suele estar escrita por fanáticos de las matemáticas. El programador promedio con habilidades matemáticas promedio debería tener cuidado
No sé cómo pasar de entender este material a conseguir un trabajo en esta área. Por ahora sigo como ingeniero de software (SWE)