4 puntos por GN⁺ 2025-02-03 | 1 comentarios | Compartir por WhatsApp
  • Introducción

    • El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) se ha consolidado como una herramienta técnica importante para desplegar sistemas modernos de aprendizaje automático.
    • Este libro presenta los métodos fundamentales de RLHF y surge de la convergencia de diversos campos científicos, como la economía, la filosofía y el control óptimo.
    • Explica conceptos matemáticos generales usados en la literatura, como definiciones, planteamiento de problemas y recolección de datos.
  • Optimización y aprendizaje por refuerzo

    • Aborda diversos métodos de optimización, como datos de preferencias, modelado de recompensas, regularización, ajuste de instrucciones, muestreo por rechazo, gradiente de política y algoritmos de alineación directa.
  • Temas avanzados

    • Trata temas avanzados como IA constitucional y retroalimentación de IA, razonamiento y ajuste fino con refuerzo, datos sintéticos, evaluación y sobreoptimización.
  • Agradecimientos

    • Expresa agradecimientos a Costa Huang y Claude por su ayuda directa en el proyecto.
    • También agradece a los contribuidores de GitHub.
  • Cita

    • Autor: Nathan Lambert
    • Título: Reinforcement Learning from Human Feedback
    • Año de publicación: 2024
    • Editorial: Online
    • URL: https://rlhfbook.com

1 comentarios

 
GN⁺ 2025-02-03
Opiniones de Hacker News
  • Valoran positivamente el esfuerzo del autor por cerrar la brecha en la documentación pública sobre la teoría y la práctica de RLHF. El estado del arte actual está documentado principalmente en artículos de arXiv, y como cada paper se parece más a una "diferencia" que a una "instantánea", es necesario combinar conocimientos de varios trabajos anteriores para entender el estado actual. Resulta muy valioso convertir el estado del arte actual en una "instantánea" fácil de consultar

    • Creen que se necesita más material introductorio que compare RLHF y SFT para ayudar a establecer la motivación y las expectativas sobre RLHF
    • Ventajas de RLHF: permite ajustar la generación completa, puede adaptarse a problemas con varias respuestas aceptables e incorporar retroalimentación negativa
    • Desventajas de RLHF: la regularización limita el impacto sobre el modelo, es muy sensible a la calidad del modelo de recompensa y requiere muchos recursos y tiempo
    • Consideraciones prácticas: hace falta entender cómo evaluar la calidad y cómo la ingeniería de prompts interactúa con el ajuste fino
  • El propio autor menciona que todavía está en proceso de trabajo y que agradece correcciones o sugerencias en GitHub

  • Señalan que resulta útil la cita: "El aprendizaje por refuerzo con retroalimentación humana está diseñado para optimizar modelos de aprendizaje automático en dominios donde es difícil diseñar una función de recompensa"

  • Dicen que, una vez que entiendes la definición de RLHF, se siente como "aprender lo que decimos que es importante". Expresan grandes expectativas sobre el futuro

  • Comparten otros recursos útiles sobre RLHF

  • Mencionan que hace falta una versión epub de este material

  • "Reinforcement Learning: An Overview" de Kevin Murphy ofrece un panorama actualizado del aprendizaje por refuerzo (profundo) y del campo de la toma de decisiones secuencial, y cubre RL basado en valor, métodos de gradiente de política, métodos basados en modelos, entre otros

  • Se plantea una pregunta sobre la diferencia entre RLHF y la destilación