- Curso de nivel posgrado de la Universidad de Stanford que cubre los conceptos clave y aplicaciones del aprendizaje por refuerzo (Reinforcement Learning), centrado en los principios con los que los sistemas autónomos aprenden a tomar decisiones por sí mismos
- Se aprende a definir y resolver con RL problemas de áreas diversas como robótica, juegos, modelado del consumidor y salud
- A través de clases, tareas escritas y tareas de programación, se adquiere de forma práctica desde los algoritmos básicos de RL hasta el aprendizaje por refuerzo profundo (Deep RL)
- Quienes tomen el curso deben contar previamente con conocimientos de Python, álgebra lineal, probabilidad y estadística, y fundamentos de aprendizaje automático, y las tareas se entregan por medio de Gradescope
- El curso sigue un currículo estructurado que incluye el dilema de exploración vs. explotación, búsqueda de políticas, RL offline y el caso de AlphaGo, por lo que resulta importante para fortalecer competencias clave en investigación en IA y desarrollo de aplicaciones
Descripción general del curso y funcionamiento
- Se enfatiza la necesidad de sistemas que aprendan a tomar decisiones de forma autónoma para alcanzar los objetivos de la inteligencia artificial
- El aprendizaje por refuerzo es un paradigma poderoso para implementar este tipo de sistemas y puede aplicarse a una gran variedad de usos reales
- Las clases se imparten en vivo los martes y jueves, y las grabaciones se ofrecen a través de Canvas
- Las preguntas y respuestas se manejan mediante Ed Forum, y las tareas y cuestionarios se administran en Gradescope
- La profesora responsable es Emma Brunskill, con apoyo de varios asistentes de docencia
Requisitos previos
- Es indispensable tener habilidad de programación en Python; todas las tareas se realizan en Python
- Se requieren conocimientos de cálculo, álgebra lineal y probabilidad y estadística a nivel universitario
- Se pide comprensión de fundamentos de aprendizaje automático (por ejemplo, CS221, CS229)
- Incluye conceptos como definición de funciones de costo, optimización por descenso de gradiente y optimización convexa
Objetivos de aprendizaje
- Definir las características clave que distinguen al aprendizaje por refuerzo del aprendizaje automático no interactivo
- Formular un problema de aplicación dado como un problema de RL y diseñar el espacio de estados, el espacio de acciones y el modelo de recompensas
- Implementar algoritmos principales como búsqueda de políticas, Q-learning y planificación de MDP
- Entender criterios de evaluación como regret, complejidad de muestra, complejidad computacional y convergencia
- Comparar distintos enfoques para el problema de exploración vs. explotación (exploration vs exploitation)
Resumen del calendario del curso
- Semana 1: introducción al aprendizaje por refuerzo, planificación de MDP tabulares
- Semana 2: evaluación de políticas, Q-learning y aproximación de funciones
- Semanas 3~4: búsqueda de políticas (1~3), RL offline y aprendizaje por imitación
- Semana 5: examen parcial, tema de DPO
- Semanas 6~7: RL offline avanzado, exploración (1~3)
- Semana 8: exploración (4), charla de invitado, entrega del milestone del proyecto
- Semana 9: Monte Carlo Tree Search / AlphaGo, cuestionario
- Semanas 10~11: charla de invitado, sesión de pósters del proyecto final y entrega del informe
Materiales y referencias
- No hay un libro de texto oficial; la principal referencia es Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
- Como material adicional se sugieren Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning y las clases de RL de David Silver
Porcentaje de evaluación
- Tarea 1: 10%, Tarea 2: 18%, Tarea 3: 18%
- Examen parcial: 25%, cuestionario: 5%, proyecto: 24%
- Propuesta 1%, milestone 2%, póster 5%, artículo 16%
- Bono por participación en clase: hasta 0.5%
Política de retrasos y entregas
- Se otorgan en total 5 días de retraso permitidos (late days)
- Se pueden usar hasta 2 días por tarea; si se excede, se aplican descuentos
- Si se entrega dentro de las 24 horas posteriores a la fecha límite, se puede obtener como máximo el 50% de la calificación; después de eso, la entrega recibe 0
- No se permiten retrasos para la presentación del póster ni para el artículo final
Exámenes
- Se realiza 1 examen parcial y 1 cuestionario, ambos presenciales en el campus
- En caso de una razón oficial, se puede permitir examen remoto o alternativo
- Material permitido: 1 hoja de notas escrita a mano (parcial), 1 hoja por ambos lados (cuestionario)
- Prohibido: calculadora, laptop, teléfono celular, tablet, etc.
Tareas y entrega
- Todas las tareas se publican en la página de Assignments
- Algunas tareas pueden usar recursos de cómputo en la nube
- Las instrucciones de entrega se pueden consultar en la página correspondiente
Integridad académica y uso de herramientas de IA
- En las tareas escritas se permite discutir ideas, pero las respuestas deben redactarse de manera independiente
- En las tareas de programación, solo se pueden compartir resultados de entrada/salida; está prohibido compartir código
- El plagio se verifica con software de detección de similitud
- Se permite el uso de IA generativa (GPT-4, Gemini, Copilot, etc.) a un nivel comparable al de colaboración humana
- Está prohibida la generación directa de código o copiar respuestas
- Si se usa, debe declararse, y la responsabilidad final recae en la persona estudiante
- Los LLM no pueden figurar como coautores del proyecto
Apoyo académico y apelaciones de evaluación
- El apoyo académico relacionado con discapacidad puede solicitarse a través de la Office of Accessible Education (OAE)
- Las solicitudes de recalificación pueden enviarse por Gradescope dentro de los 3 días posteriores a la publicación de la nota
- En la revisión, toda la tarea puede volver a evaluarse
Calificación y modalidad de cursado
- Incluso si se toma en modalidad Credit/No Credit, se aplican los mismos criterios de evaluación
- Se otorga CR al obtener C- o superior (aprox. 70%)
Otros
- Los estudiantes de SCPD pueden hacer consultas administrativas por medio del correo electrónico correspondiente
- El diseño del sitio web fue realizado por Andrej Karpathy
1 comentarios
Comentarios en Hacker News
Me ilusioné pensando que habían publicado los videos de la clase, pero al final resultó que eran privados
Durante la pandemia varias instituciones abrieron sus materiales a todo el mundo, pero últimamente la tendencia es cerrar no solo las clases nuevas, sino también los videos antiguos
Incluso en MIT OCW, cuando llegas a cursos avanzados de posgrado, el material desaparece
Claro, entiendo que la universidad quiera priorizar a sus exalumnos, pero publicar materiales básicos como los videos de clase en la práctica casi no tiene costo
Este tipo de materiales parece aportar un gran valor al mundo
Algunos profesores no quieren compartir diapositivas o grabaciones por temas de derechos de autor
Pero esa actitud parece crear exclusividad no por un prestigio real, sino mediante barreras legales
Al final, los únicos beneficiados son los estudiantes que pagaron matrículas caras, los docentes que no quieren cambiar y los administradores universitarios
Hay una frase que dice: “RL es el peor método de aprendizaje, excepto por todos los demás”
Muchos científicos creen que dentro de 10 años RL ya no será la corriente principal para entrenar modelos de vanguardia
Yo también estoy de acuerdo, y recomiendo tomar este curso pensando en otros paradigmas
Así como la generación de imágenes dio un salto con los diffusion models y GPT con RLHF, RL tampoco será la etapa final
Nuestra tarea es encontrar un método mejor
Si se le da suficiente tiempo de ejecución, garantiza matemáticamente una solución óptima
Por eso los autos autónomos usan RL y no GPT
Cuando optimizas de millones a miles de millones de visitas, agregar un contextual multi-armed bandit resulta muy efectivo para impulsar compras
Pero en el trabajo real me di cuenta de que la generalización fuera de distribución no se puede lograr solo con aprendizaje basado en recompensas
Tenía curiosidad por saber si los videos estaban públicos, y las clases del semestre de primavera están en esta lista de reproducción de YouTube
Desde la perspectiva de alguien que solo ha estudiado ML tradicional, me confunde cómo aplicar RL a problemas generales
Por ejemplo, no sé cómo forzar el uso de RL en una clasificación binaria con BCE loss o en un problema de predicción de precios de vivienda
No logro ver cómo conectar la función de pérdida
En un problema de regresión claro como predecir precios de vivienda, los métodos tradicionales son suficientemente efectivos y RL es innecesario
En cambio, en problemas de decisión secuencial como el Go, donde la señal de recompensa es escasa y no es evidente cómo mejorar la estrategia, RL sí resulta adecuado
RL es útil en situaciones complejas sin etiquetas, pero incluso en problemas como el ajedrez, la clave termina siendo convertirlos en tareas de aprendizaje supervisado
Es adecuada para problemas de decisión secuencial donde están definidos los espacios de estado y acción, pero no encaja con clasificación binaria ni regresión
RL es fuerte en problemas donde hay que tomar decisiones actuales sin conocer los resultados futuros
Mucha gente dice que RL es inestable y difícil de converger
Incluso investigadores de Stanford lo reconocen
Me pregunto si hay alguna solución
Mejora la estabilidad al aprender toda la distribución de recompensas, y no solo un único valor máximo
Si escuchaste el pódcast de Ilya, el título de esta clase se siente interesante
Estoy buscando libros recomendados sobre RL
Ya he estudiado bastante deep learning
Estoy revisando Reinforcement Learning de Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy y el nuevo libro de Sebastian Raschka
El PDF gratuito se puede descargar en algorithmsbook.com