- La métrica más adecuada para juzgar qué tan <bueno> es el resultado generado por el modelo es la puntuación de preferencia humana
- Usar la retroalimentación que las personas dan sobre los resultados del modelo como indicador de la calidad del texto generado, y además diseñar una función de pérdida que refleje esa retroalimentación para optimizar el modelo, es lo que se conoce como RLHF (Reinforcement Learning from Human Feedback)
- RLHF: paso a paso
- #1 Entrenar un Language Model (pre-training)
- #2 Recolectar datos para entrenar el Reward Model y entrenar el modelo
- #3 Hacer fine-tuning del Language Model mediante Reinforcement Learning
- RLHF, cosas a considerar
Aún no hay comentarios.