4 puntos por GN⁺ 2024-05-06 | 1 comentarios | Compartir por WhatsApp

Curso introductorio de Deep Reinforcement Learning

  • Este curso es una introducción práctica a algoritmos básicos y clásicos de Deep Reinforcement Learning
  • Al terminarlo, podrás implementar directamente algoritmos como DQN, SAC y PPO, y comprender su base teórica a un nivel avanzado
  • Podrás entrenar una IA para jugar juegos de Atari o para aterrizar en la Luna

Configuración del entorno

  • Se presenta un método para preparar el entorno y enfocarse en el aprendizaje
    • Instalar Miniconda (administrador de entornos con selección de versión de Python)
    • Hacer checkout de este repositorio de Git y moverse a esa carpeta
    • Crear y activar el entorno virtual drlzh
      conda create --name drlzh python=3.11
      conda activate drlzh  
      
    • Instalar Poetry e instalar dependencias (incluyendo gymnasium[accept-rom-license] para Atari)
      pip install poetry
      poetry install
      
    • Instalar Visual Studio Code

Cómo empezar

  • Abrir la carpeta de este repositorio en Visual Studio Code (manteniendo la carpeta .vscode)
  • Abrir el primer notebook 00_Intro.ipynb y seguirlo
  • Continuar con los siguientes notebooks
  • Si te atascas, consultar la carpeta /solution
  • Revisa el video de YouTube para una explicación detallada de la codificación paso a paso

Opinión GN⁺

  • El Reinforcement Learning es una de las tecnologías de IA que está teniendo grandes resultados en videojuegos y robótica, pero aún resulta difícil aplicarlo a problemas reales. Por ejemplo, el entrenamiento puede ser muy lento y en situaciones donde la seguridad es crítica es difícil pasar por intentos y errores.
  • Este curso aborda problemas simples como juegos de Atari o simulaciones de alunizaje, por lo que es adecuado para quienes se inician, pero parece que se requiere un aprendizaje adicional para usarlo en escenarios reales
  • Al crecer este tipo de material educativo de código abierto, más desarrolladores han podido aprender y aprovechar la tecnología de IA. En particular, se prevé que el aprendizaje por refuerzo sea una habilidad clave para ingenieros en robótica o conducción autónoma
  • Para construir el entorno de práctica se usan varias herramientas como Conda y Poetry, y para los principiantes, el proceso de configuración puede resultar pesado. Creemos que un entorno de práctica en la nube podría reducir la barrera de entrada

1 comentarios

 
GN⁺ 2024-05-06
Comentarios de Hacker News

Resumen:

  • Mientras intentaba aprender Deep Reinforcement Learning (aprendizaje por refuerzo profundo), encontré muchos recursos excelentes, pero había pocos que ofrecieran un equilibrio adecuado entre teoría y práctica.
  • Por eso decidí crearlo y compartirlo como código abierto. Reescribí los algoritmos desde cero en un notebook de Python y lo estructuré con un enfoque educativo.
  • Es un tutorial paso a paso centrado en la práctica que orienta sobre la teoría y los ejercicios de programación de los algoritmos más usados, como QLearning, DQN, SAC y PPO.

Retroalimentación

  • Hay muchos ejemplos simples que funcionan bien, pero faltan recursos prácticos sobre qué hacer cuando surge un problema. Por ejemplo, sería útil contar con consejos para casos como acciones atascadas en el valor máximo o una exploración que no funciona correctamente.
  • Incluso las técnicas RL más nuevas pueden rendir peor que una heurística simple en Tetris.
  • Se compartió RaveForce, un marco DRL para generación de música similar a Gym, para probar algoritmos con él.
  • Puede ayudar a quienes tienen poca base en estadística/ML a entender cómo aprende un agente.
  • Sería bueno agregar enlaces a videos de YouTube.
  • Se menciona que el título se inspira en “Neural Network: Zero To Hero” de Andrej Karpathy. También se hace notar una posible confusión con una marca personal.