¿Cómo se entrenó ChatGPT? - RLHF

xguru · 2023-02-08T10:42:16+09:00

La métrica más adecuada para juzgar qué tan es el resultado generado por el modelo es la puntuación de preferencia humana Usar la retroalimentación que las personas dan sobre los resultados del modelo como indicador de la calidad del texto generado, y además diseñar una función de pérdida que refleje esa retroalimentación para optimizar el modelo, es lo que se conoce como RLHF (Reinforcement Learning from Human Feedback) RLHF: paso a paso #1 Entrenar un Language Model (pre-training) #2 Recolectar datos para entrenar el Reward Model y entrenar el modelo #3 Hacer fine-tuning del Language Model mediante Reinforcement Learning RLHF, cosas a considerar Limitaciones actuales

(littlefoxdiary.tistory.com)

15 puntos por xguru 2023-02-08 | Aún no hay comentarios. | Compartir por WhatsApp

La métrica más adecuada para juzgar qué tan <bueno> es el resultado generado por el modelo es la puntuación de preferencia humana
Usar la retroalimentación que las personas dan sobre los resultados del modelo como indicador de la calidad del texto generado, y además diseñar una función de pérdida que refleje esa retroalimentación para optimizar el modelo, es lo que se conoce como RLHF (Reinforcement Learning from Human Feedback)
RLHF: paso a paso
- #1 Entrenar un Language Model (pre-training)
- #2 Recolectar datos para entrenar el Reward Model y entrenar el modelo
- #3 Hacer fine-tuning del Language Model mediante Reinforcement Learning
RLHF, cosas a considerar
- Limitaciones actuales

¿Cómo se entrenó ChatGPT? - RLHF

Lecturas relacionadas

Aún no hay comentarios.