CS234: Aprendizaje por Refuerzo, trimestre de invierno 2025

(web.stanford.edu)

3 puntos por GN⁺ 2025-11-28 | 1 comentarios | Compartir por WhatsApp

Curso de nivel posgrado de la Universidad de Stanford que cubre los conceptos clave y aplicaciones del aprendizaje por refuerzo (Reinforcement Learning), centrado en los principios con los que los sistemas autónomos aprenden a tomar decisiones por sí mismos
Se aprende a definir y resolver con RL problemas de áreas diversas como robótica, juegos, modelado del consumidor y salud
A través de clases, tareas escritas y tareas de programación, se adquiere de forma práctica desde los algoritmos básicos de RL hasta el aprendizaje por refuerzo profundo (Deep RL)
Quienes tomen el curso deben contar previamente con conocimientos de Python, álgebra lineal, probabilidad y estadística, y fundamentos de aprendizaje automático, y las tareas se entregan por medio de Gradescope
El curso sigue un currículo estructurado que incluye el dilema de exploración vs. explotación, búsqueda de políticas, RL offline y el caso de AlphaGo, por lo que resulta importante para fortalecer competencias clave en investigación en IA y desarrollo de aplicaciones

Descripción general del curso y funcionamiento

Se enfatiza la necesidad de sistemas que aprendan a tomar decisiones de forma autónoma para alcanzar los objetivos de la inteligencia artificial
- El aprendizaje por refuerzo es un paradigma poderoso para implementar este tipo de sistemas y puede aplicarse a una gran variedad de usos reales
Las clases se imparten en vivo los martes y jueves, y las grabaciones se ofrecen a través de Canvas
Las preguntas y respuestas se manejan mediante Ed Forum, y las tareas y cuestionarios se administran en Gradescope
La profesora responsable es Emma Brunskill, con apoyo de varios asistentes de docencia

Requisitos previos

Es indispensable tener habilidad de programación en Python; todas las tareas se realizan en Python
Se requieren conocimientos de cálculo, álgebra lineal y probabilidad y estadística a nivel universitario
Se pide comprensión de fundamentos de aprendizaje automático (por ejemplo, CS221, CS229)
- Incluye conceptos como definición de funciones de costo, optimización por descenso de gradiente y optimización convexa

Objetivos de aprendizaje

Definir las características clave que distinguen al aprendizaje por refuerzo del aprendizaje automático no interactivo
Formular un problema de aplicación dado como un problema de RL y diseñar el espacio de estados, el espacio de acciones y el modelo de recompensas
Implementar algoritmos principales como búsqueda de políticas, Q-learning y planificación de MDP
Entender criterios de evaluación como regret, complejidad de muestra, complejidad computacional y convergencia
Comparar distintos enfoques para el problema de exploración vs. explotación (exploration vs exploitation)

Resumen del calendario del curso

Semana 1: introducción al aprendizaje por refuerzo, planificación de MDP tabulares
Semana 2: evaluación de políticas, Q-learning y aproximación de funciones
Semanas 3~4: búsqueda de políticas (1~3), RL offline y aprendizaje por imitación
Semana 5: examen parcial, tema de DPO
Semanas 6~7: RL offline avanzado, exploración (1~3)
Semana 8: exploración (4), charla de invitado, entrega del milestone del proyecto
Semana 9: Monte Carlo Tree Search / AlphaGo, cuestionario
Semanas 10~11: charla de invitado, sesión de pósters del proyecto final y entrega del informe

Materiales y referencias

No hay un libro de texto oficial; la principal referencia es Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
Como material adicional se sugieren Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning y las clases de RL de David Silver

Porcentaje de evaluación

Tarea 1: 10%, Tarea 2: 18%, Tarea 3: 18%
Examen parcial: 25%, cuestionario: 5%, proyecto: 24%
- Propuesta 1%, milestone 2%, póster 5%, artículo 16%
Bono por participación en clase: hasta 0.5%

Política de retrasos y entregas

Se otorgan en total 5 días de retraso permitidos (late days)
Se pueden usar hasta 2 días por tarea; si se excede, se aplican descuentos
- Si se entrega dentro de las 24 horas posteriores a la fecha límite, se puede obtener como máximo el 50% de la calificación; después de eso, la entrega recibe 0
No se permiten retrasos para la presentación del póster ni para el artículo final

Exámenes

Se realiza 1 examen parcial y 1 cuestionario, ambos presenciales en el campus
En caso de una razón oficial, se puede permitir examen remoto o alternativo
Material permitido: 1 hoja de notas escrita a mano (parcial), 1 hoja por ambos lados (cuestionario)
Prohibido: calculadora, laptop, teléfono celular, tablet, etc.

Tareas y entrega

Todas las tareas se publican en la página de Assignments
Algunas tareas pueden usar recursos de cómputo en la nube
Las instrucciones de entrega se pueden consultar en la página correspondiente

Integridad académica y uso de herramientas de IA

En las tareas escritas se permite discutir ideas, pero las respuestas deben redactarse de manera independiente
En las tareas de programación, solo se pueden compartir resultados de entrada/salida; está prohibido compartir código
El plagio se verifica con software de detección de similitud
Se permite el uso de IA generativa (GPT-4, Gemini, Copilot, etc.) a un nivel comparable al de colaboración humana
- Está prohibida la generación directa de código o copiar respuestas
- Si se usa, debe declararse, y la responsabilidad final recae en la persona estudiante
Los LLM no pueden figurar como coautores del proyecto

Apoyo académico y apelaciones de evaluación

El apoyo académico relacionado con discapacidad puede solicitarse a través de la Office of Accessible Education (OAE)
Las solicitudes de recalificación pueden enviarse por Gradescope dentro de los 3 días posteriores a la publicación de la nota
En la revisión, toda la tarea puede volver a evaluarse

Calificación y modalidad de cursado

Incluso si se toma en modalidad Credit/No Credit, se aplican los mismos criterios de evaluación
Se otorga CR al obtener C- o superior (aprox. 70%)

Otros

Los estudiantes de SCPD pueden hacer consultas administrativas por medio del correo electrónico correspondiente
El diseño del sitio web fue realizado por Andrej Karpathy

1 comentarios

GN⁺ 2025-11-28

Comentarios en Hacker News

Me ilusioné pensando que habían publicado los videos de la clase, pero al final resultó que eran privados
Durante la pandemia varias instituciones abrieron sus materiales a todo el mundo, pero últimamente la tendencia es cerrar no solo las clases nuevas, sino también los videos antiguos
Incluso en MIT OCW, cuando llegas a cursos avanzados de posgrado, el material desaparece
Claro, entiendo que la universidad quiera priorizar a sus exalumnos, pero publicar materiales básicos como los videos de clase en la práctica casi no tiene costo
Este tipo de materiales parece aportar un gran valor al mundo
- Los videos de la clase de 2024 están en esta lista de reproducción de YouTube
- También se dice que si publican material nuevo, a otras instituciones les resulta más fácil plagiarlo
  Algunos profesores no quieren compartir diapositivas o grabaciones por temas de derechos de autor
  Pero esa actitud parece crear exclusividad no por un prestigio real, sino mediante barreras legales
  Al final, los únicos beneficiados son los estudiantes que pagaron matrículas caras, los docentes que no quieren cambiar y los administradores universitarios
Hay una frase que dice: “RL es el peor método de aprendizaje, excepto por todos los demás”
Muchos científicos creen que dentro de 10 años RL ya no será la corriente principal para entrenar modelos de vanguardia
Yo también estoy de acuerdo, y recomiendo tomar este curso pensando en otros paradigmas
Así como la generación de imágenes dio un salto con los diffusion models y GPT con RLHF, RL tampoco será la etapa final
Nuestra tarea es encontrar un método mejor
- Se suele asumir que a la gente solo le interesan la generación de imágenes o de texto, pero RL sobresale en los problemas de control
  Si se le da suficiente tiempo de ejecución, garantiza matemáticamente una solución óptima
  Por eso los autos autónomos usan RL y no GPT
- En la práctica, RL se parece más a una forma de generar datasets que a un método de aprendizaje
- En la industria publicitaria RL sigue usándose bastante
  Cuando optimizas de millones a miles de millones de visitas, agregar un contextual multi-armed bandit resulta muy efectivo para impulsar compras
- Me da curiosidad qué paradigma sería adecuado para problemas de optimización combinatoria o entornos basados en simulación
- Cuando era estudiante pensaba en RLHF como una estrategia para subir la nota en los exámenes
  Pero en el trabajo real me di cuenta de que la generalización fuera de distribución no se puede lograr solo con aprendizaje basado en recompensas
Tenía curiosidad por saber si los videos estaban públicos, y las clases del semestre de primavera están en esta lista de reproducción de YouTube
Desde la perspectiva de alguien que solo ha estudiado ML tradicional, me confunde cómo aplicar RL a problemas generales
Por ejemplo, no sé cómo forzar el uso de RL en una clasificación binaria con BCE loss o en un problema de predicción de precios de vivienda
No logro ver cómo conectar la función de pérdida
- Al decidir si usar RL, hay tres cosas a considerar: ① cuánta información aporta la pérdida de cada ejemplo, ② si es posible ajustar el modelo a partir de esa señal de pérdida, y ③ la complejidad del espacio de características
  En un problema de regresión claro como predecir precios de vivienda, los métodos tradicionales son suficientemente efectivos y RL es innecesario
  En cambio, en problemas de decisión secuencial como el Go, donde la señal de recompensa es escasa y no es evidente cómo mejorar la estrategia, RL sí resulta adecuado
- Yo no usaría RL
  RL es útil en situaciones complejas sin etiquetas, pero incluso en problemas como el ajedrez, la clave termina siendo convertirlos en tareas de aprendizaje supervisado
- RL es una técnica para encontrar una política óptima en un proceso de decisión de Markov (MDP)
  Es adecuada para problemas de decisión secuencial donde están definidos los espacios de estado y acción, pero no encaja con clasificación binaria ni regresión
  RL es fuerte en problemas donde hay que tomar decisiones actuales sin conocer los resultados futuros
Mucha gente dice que RL es inestable y difícil de converger
Incluso investigadores de Stanford lo reconocen
Me pregunto si hay alguna solución
- FlowRL es una alternativa posible
  Mejora la estabilidad al aprender toda la distribución de recompensas, y no solo un único valor máximo
Si escuchaste el pódcast de Ilya, el título de esta clase se siente interesante
- Salió la broma de: “Entonces, ¿al final sí viene el invierno de la IA?”
- También hubo quien preguntó a qué pódcast se referían
Estoy buscando libros recomendados sobre RL
Ya he estudiado bastante deep learning
Estoy revisando Reinforcement Learning de Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy y el nuevo libro de Sebastian Raschka
- Algorithms for Decision Making de Kochenderfer y otros también aborda enfoques relacionados con RL
  El PDF gratuito se puede descargar en algorithmsbook.com

CS234: Aprendizaje por Refuerzo, trimestre de invierno 2025

Descripción general del curso y funcionamiento

Requisitos previos

Objetivos de aprendizaje

Resumen del calendario del curso

Materiales y referencias

Porcentaje de evaluación

Política de retrasos y entregas

Exámenes

Tareas y entrega

Integridad académica y uso de herramientas de IA

Apoyo académico y apelaciones de evaluación

Calificación y modalidad de cursado

Otros

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News