3 puntos por GN⁺ 2025-11-28 | 1 comentarios | Compartir por WhatsApp
  • Curso de nivel posgrado de la Universidad de Stanford que cubre los conceptos clave y aplicaciones del aprendizaje por refuerzo (Reinforcement Learning), centrado en los principios con los que los sistemas autónomos aprenden a tomar decisiones por sí mismos
  • Se aprende a definir y resolver con RL problemas de áreas diversas como robótica, juegos, modelado del consumidor y salud
  • A través de clases, tareas escritas y tareas de programación, se adquiere de forma práctica desde los algoritmos básicos de RL hasta el aprendizaje por refuerzo profundo (Deep RL)
  • Quienes tomen el curso deben contar previamente con conocimientos de Python, álgebra lineal, probabilidad y estadística, y fundamentos de aprendizaje automático, y las tareas se entregan por medio de Gradescope
  • El curso sigue un currículo estructurado que incluye el dilema de exploración vs. explotación, búsqueda de políticas, RL offline y el caso de AlphaGo, por lo que resulta importante para fortalecer competencias clave en investigación en IA y desarrollo de aplicaciones

Descripción general del curso y funcionamiento

  • Se enfatiza la necesidad de sistemas que aprendan a tomar decisiones de forma autónoma para alcanzar los objetivos de la inteligencia artificial
    • El aprendizaje por refuerzo es un paradigma poderoso para implementar este tipo de sistemas y puede aplicarse a una gran variedad de usos reales
  • Las clases se imparten en vivo los martes y jueves, y las grabaciones se ofrecen a través de Canvas
  • Las preguntas y respuestas se manejan mediante Ed Forum, y las tareas y cuestionarios se administran en Gradescope
  • La profesora responsable es Emma Brunskill, con apoyo de varios asistentes de docencia

Requisitos previos

  • Es indispensable tener habilidad de programación en Python; todas las tareas se realizan en Python
  • Se requieren conocimientos de cálculo, álgebra lineal y probabilidad y estadística a nivel universitario
  • Se pide comprensión de fundamentos de aprendizaje automático (por ejemplo, CS221, CS229)
    • Incluye conceptos como definición de funciones de costo, optimización por descenso de gradiente y optimización convexa

Objetivos de aprendizaje

  • Definir las características clave que distinguen al aprendizaje por refuerzo del aprendizaje automático no interactivo
  • Formular un problema de aplicación dado como un problema de RL y diseñar el espacio de estados, el espacio de acciones y el modelo de recompensas
  • Implementar algoritmos principales como búsqueda de políticas, Q-learning y planificación de MDP
  • Entender criterios de evaluación como regret, complejidad de muestra, complejidad computacional y convergencia
  • Comparar distintos enfoques para el problema de exploración vs. explotación (exploration vs exploitation)

Resumen del calendario del curso

  • Semana 1: introducción al aprendizaje por refuerzo, planificación de MDP tabulares
  • Semana 2: evaluación de políticas, Q-learning y aproximación de funciones
  • Semanas 3~4: búsqueda de políticas (1~3), RL offline y aprendizaje por imitación
  • Semana 5: examen parcial, tema de DPO
  • Semanas 6~7: RL offline avanzado, exploración (1~3)
  • Semana 8: exploración (4), charla de invitado, entrega del milestone del proyecto
  • Semana 9: Monte Carlo Tree Search / AlphaGo, cuestionario
  • Semanas 10~11: charla de invitado, sesión de pósters del proyecto final y entrega del informe

Materiales y referencias

  • No hay un libro de texto oficial; la principal referencia es Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
  • Como material adicional se sugieren Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning y las clases de RL de David Silver

Porcentaje de evaluación

  • Tarea 1: 10%, Tarea 2: 18%, Tarea 3: 18%
  • Examen parcial: 25%, cuestionario: 5%, proyecto: 24%
    • Propuesta 1%, milestone 2%, póster 5%, artículo 16%
  • Bono por participación en clase: hasta 0.5%

Política de retrasos y entregas

  • Se otorgan en total 5 días de retraso permitidos (late days)
  • Se pueden usar hasta 2 días por tarea; si se excede, se aplican descuentos
    • Si se entrega dentro de las 24 horas posteriores a la fecha límite, se puede obtener como máximo el 50% de la calificación; después de eso, la entrega recibe 0
  • No se permiten retrasos para la presentación del póster ni para el artículo final

Exámenes

  • Se realiza 1 examen parcial y 1 cuestionario, ambos presenciales en el campus
  • En caso de una razón oficial, se puede permitir examen remoto o alternativo
  • Material permitido: 1 hoja de notas escrita a mano (parcial), 1 hoja por ambos lados (cuestionario)
  • Prohibido: calculadora, laptop, teléfono celular, tablet, etc.

Tareas y entrega

  • Todas las tareas se publican en la página de Assignments
  • Algunas tareas pueden usar recursos de cómputo en la nube
  • Las instrucciones de entrega se pueden consultar en la página correspondiente

Integridad académica y uso de herramientas de IA

  • En las tareas escritas se permite discutir ideas, pero las respuestas deben redactarse de manera independiente
  • En las tareas de programación, solo se pueden compartir resultados de entrada/salida; está prohibido compartir código
  • El plagio se verifica con software de detección de similitud
  • Se permite el uso de IA generativa (GPT-4, Gemini, Copilot, etc.) a un nivel comparable al de colaboración humana
    • Está prohibida la generación directa de código o copiar respuestas
    • Si se usa, debe declararse, y la responsabilidad final recae en la persona estudiante
  • Los LLM no pueden figurar como coautores del proyecto

Apoyo académico y apelaciones de evaluación

  • El apoyo académico relacionado con discapacidad puede solicitarse a través de la Office of Accessible Education (OAE)
  • Las solicitudes de recalificación pueden enviarse por Gradescope dentro de los 3 días posteriores a la publicación de la nota
  • En la revisión, toda la tarea puede volver a evaluarse

Calificación y modalidad de cursado

  • Incluso si se toma en modalidad Credit/No Credit, se aplican los mismos criterios de evaluación
  • Se otorga CR al obtener C- o superior (aprox. 70%)

Otros

  • Los estudiantes de SCPD pueden hacer consultas administrativas por medio del correo electrónico correspondiente
  • El diseño del sitio web fue realizado por Andrej Karpathy

1 comentarios

 
GN⁺ 2025-11-28
Comentarios en Hacker News
  • Me ilusioné pensando que habían publicado los videos de la clase, pero al final resultó que eran privados
    Durante la pandemia varias instituciones abrieron sus materiales a todo el mundo, pero últimamente la tendencia es cerrar no solo las clases nuevas, sino también los videos antiguos
    Incluso en MIT OCW, cuando llegas a cursos avanzados de posgrado, el material desaparece
    Claro, entiendo que la universidad quiera priorizar a sus exalumnos, pero publicar materiales básicos como los videos de clase en la práctica casi no tiene costo
    Este tipo de materiales parece aportar un gran valor al mundo

    • Los videos de la clase de 2024 están en esta lista de reproducción de YouTube
    • También se dice que si publican material nuevo, a otras instituciones les resulta más fácil plagiarlo
      Algunos profesores no quieren compartir diapositivas o grabaciones por temas de derechos de autor
      Pero esa actitud parece crear exclusividad no por un prestigio real, sino mediante barreras legales
      Al final, los únicos beneficiados son los estudiantes que pagaron matrículas caras, los docentes que no quieren cambiar y los administradores universitarios
  • Hay una frase que dice: “RL es el peor método de aprendizaje, excepto por todos los demás”
    Muchos científicos creen que dentro de 10 años RL ya no será la corriente principal para entrenar modelos de vanguardia
    Yo también estoy de acuerdo, y recomiendo tomar este curso pensando en otros paradigmas
    Así como la generación de imágenes dio un salto con los diffusion models y GPT con RLHF, RL tampoco será la etapa final
    Nuestra tarea es encontrar un método mejor

    • Se suele asumir que a la gente solo le interesan la generación de imágenes o de texto, pero RL sobresale en los problemas de control
      Si se le da suficiente tiempo de ejecución, garantiza matemáticamente una solución óptima
      Por eso los autos autónomos usan RL y no GPT
    • En la práctica, RL se parece más a una forma de generar datasets que a un método de aprendizaje
    • En la industria publicitaria RL sigue usándose bastante
      Cuando optimizas de millones a miles de millones de visitas, agregar un contextual multi-armed bandit resulta muy efectivo para impulsar compras
    • Me da curiosidad qué paradigma sería adecuado para problemas de optimización combinatoria o entornos basados en simulación
    • Cuando era estudiante pensaba en RLHF como una estrategia para subir la nota en los exámenes
      Pero en el trabajo real me di cuenta de que la generalización fuera de distribución no se puede lograr solo con aprendizaje basado en recompensas
  • Tenía curiosidad por saber si los videos estaban públicos, y las clases del semestre de primavera están en esta lista de reproducción de YouTube

  • Desde la perspectiva de alguien que solo ha estudiado ML tradicional, me confunde cómo aplicar RL a problemas generales
    Por ejemplo, no sé cómo forzar el uso de RL en una clasificación binaria con BCE loss o en un problema de predicción de precios de vivienda
    No logro ver cómo conectar la función de pérdida

    • Al decidir si usar RL, hay tres cosas a considerar: ① cuánta información aporta la pérdida de cada ejemplo, ② si es posible ajustar el modelo a partir de esa señal de pérdida, y ③ la complejidad del espacio de características
      En un problema de regresión claro como predecir precios de vivienda, los métodos tradicionales son suficientemente efectivos y RL es innecesario
      En cambio, en problemas de decisión secuencial como el Go, donde la señal de recompensa es escasa y no es evidente cómo mejorar la estrategia, RL sí resulta adecuado
    • Yo no usaría RL
      RL es útil en situaciones complejas sin etiquetas, pero incluso en problemas como el ajedrez, la clave termina siendo convertirlos en tareas de aprendizaje supervisado
    • RL es una técnica para encontrar una política óptima en un proceso de decisión de Markov (MDP)
      Es adecuada para problemas de decisión secuencial donde están definidos los espacios de estado y acción, pero no encaja con clasificación binaria ni regresión
      RL es fuerte en problemas donde hay que tomar decisiones actuales sin conocer los resultados futuros
  • Mucha gente dice que RL es inestable y difícil de converger
    Incluso investigadores de Stanford lo reconocen
    Me pregunto si hay alguna solución

    • FlowRL es una alternativa posible
      Mejora la estabilidad al aprender toda la distribución de recompensas, y no solo un único valor máximo
  • Si escuchaste el pódcast de Ilya, el título de esta clase se siente interesante

    • Salió la broma de: “Entonces, ¿al final sí viene el invierno de la IA?”
    • También hubo quien preguntó a qué pódcast se referían
  • Estoy buscando libros recomendados sobre RL
    Ya he estudiado bastante deep learning
    Estoy revisando Reinforcement Learning de Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy y el nuevo libro de Sebastian Raschka

    • Algorithms for Decision Making de Kochenderfer y otros también aborda enfoques relacionados con RL
      El PDF gratuito se puede descargar en algorithmsbook.com