40 puntos por GN⁺ 2025-03-12 | 2 comentarios | Compartir por WhatsApp
  • Este libro tiene como objetivo presentar de forma accesible, desde una perspectiva matemática, los conceptos básicos, problemas y algoritmos del aprendizaje por refuerzo.
  • Explica no solo los procedimientos de los algoritmos, sino también por qué fueron diseñados así y por qué son efectivos, desde un punto de vista matemático.
  • La profundidad matemática está ajustada a un nivel adecuado, y se ofrecen ejemplos que el lector puede revisar de manera selectiva.
  • Separa las ideas clave de los algoritmos de los elementos complejos para ayudar a que el lector los entienda mejor.
  • Cada capítulo se construye sobre el anterior y proporciona la base para el siguiente.

Contenido

  • Este libro está compuesto por 10 capítulos y se divide en dos partes: herramientas básicas y algoritmos.
  • Los capítulos están interrelacionados, por lo que es necesario estudiar primero los capítulos iniciales.

Público objetivo

  • Este libro está dirigido a estudiantes avanzados de licenciatura, estudiantes de posgrado, investigadores y profesionales interesados en el aprendizaje por refuerzo.
  • Comienza desde los conceptos básicos para que pueda entenderse incluso sin conocimientos previos de aprendizaje por refuerzo.
  • Se requiere conocimiento de teoría de probabilidad y álgebra lineal, y las bases matemáticas necesarias están incluidas en el apéndice.

Videos de las clases

  • Se puede lograr un mejor aprendizaje combinando el libro y los videos de las clases.
  • Los videos de las clases en chino pueden verse en el canal de Bilibili y en el canal de YouTube, y hasta febrero de 2025 han registrado más de 1,300,000 visualizaciones.
  • Los videos de las clases en inglés están subidos a YouTube.

Sobre el autor

  • La información del autor puede consultarse en su página principal y en el sitio web de su grupo de investigación.
  • Desde 2019 ha impartido cursos de posgrado sobre aprendizaje por refuerzo, y este libro fue preparado a partir de esas notas de clase.
  • Espera que este libro ayude a los lectores a incorporarse con fluidez al campo del aprendizaje por refuerzo.

Cita

  • Título del libro: "Mathematical Foundations of Reinforcement Learning"
  • Autor: S. Zhao
  • Año de publicación: 2025
  • Editorial: Springer Nature Press y Tsinghua University Press

Historial de actualizaciones

  • Febrero de 2025: se alcanzaron más de 5,000 estrellas
  • Diciembre de 2024: se alcanzaron más de 4,000 estrellas
  • Octubre de 2024: se completó el diseño de la portada del libro
  • Septiembre de 2024: revisión final antes de la publicación con Springer
  • Agosto de 2024: se alcanzaron más de 3,000 estrellas y se añadió código
  • Junio de 2024: revisión final antes de la publicación
  • Abril de 2024: se añadió código para el entorno Grid World
  • Marzo de 2024: se alcanzaron 2,000 estrellas
  • Marzo de 2024: borrador de la tercera versión en línea
  • Septiembre de 2023: se alcanzaron más de 1,000 estrellas
  • Agosto de 2023: borrador de la segunda versión en línea
  • Noviembre de 2022: prevista la coedición con Springer Nature y Tsinghua University Press
  • Octubre de 2022: notas de clase y videos publicados en línea
  • Agosto de 2022: primer borrador en línea

2 comentarios

 
kipsong133 2025-03-13

Gracias por compartir este buen material.

 
GN⁺ 2025-03-12
Comentarios de Hacker News
  • La era de OpenAI Gym en el aprendizaje por refuerzo (RL) tenía la gran ventaja de ser accesible para principiantes. Uno podía aprender RL como hobby en entornos pequeños y aplicarlo a problemas simples como Cartpole. Me pregunto si existen tareas o entornos de aprendizaje de RL igual de accesibles relacionados con los LLMs. También me pregunto si hay algo que se pueda hacer en el área de LLM x RL con una MacBook Air común

    • También se recomienda mucho la serie de 6 clases de Pieter Abbeel sobre los fundamentos de Deep RL. Da una buena visión general e intuición
    • Las mejores clases sobre aprendizaje por refuerzo y temas relacionados son las de Dimitris Bertsekas
    • También se recomiendan mucho los diagramas que ofrecen una excelente visión visual de RL y un video introductorio de 30 minutos en YouTube
    • Se espera que surjan muchas startups de hipercrecimiento que usen RL para resolver problemas reales en ingeniería, logística y medicina
    • Aunque los LLMs están recibiendo mucha atención en este momento, sorprende que el capital de riesgo no parezca poner un interés especial en las empresas de RL
  • Otro excelente recurso sobre RL es la colección de libros de texto de Mykel Kochenderfer

    • También vale la pena mencionar el libro de texto en desarrollo de Murphy enfocado en RL
    • Para quienes estén interesados, hay un repositorio de GitHub que implementa la mayor parte del libro de Sutton
    • Gracias por enlazar también el código de MinRL. Mientras hacía investigación en RL, un gran problema era reproducir estudios comparativos y validar mis propias contribuciones. Una librería simple con herramientas de visualización y un sandbox de gridworld que se pueda validar solo con observación es muy útil
  • Este libro dice que el lector necesita conocimientos de teoría de probabilidad y álgebra lineal. Ese tipo de frase siempre hay que tomarla con cautela y entendiendo que suele estar escrita por fanáticos de las matemáticas. El programador promedio con habilidades matemáticas promedio debería tener cuidado

  • No sé cómo pasar de entender este material a conseguir un trabajo en esta área. Por ahora sigo como ingeniero de software (SWE)