15 puntos por xguru 2023-02-08 | Aún no hay comentarios. | Compartir por WhatsApp
  • La métrica más adecuada para juzgar qué tan <bueno> es el resultado generado por el modelo es la puntuación de preferencia humana
  • Usar la retroalimentación que las personas dan sobre los resultados del modelo como indicador de la calidad del texto generado, y además diseñar una función de pérdida que refleje esa retroalimentación para optimizar el modelo, es lo que se conoce como RLHF (Reinforcement Learning from Human Feedback)
  • RLHF: paso a paso
    • #1 Entrenar un Language Model (pre-training)
    • #2 Recolectar datos para entrenar el Reward Model y entrenar el modelo
    • #3 Hacer fine-tuning del Language Model mediante Reinforcement Learning
  • RLHF, cosas a considerar
    • Limitaciones actuales

Aún no hay comentarios.

Aún no hay comentarios.