- Simplifica el ajuste fino de agentes basados en LLM mediante aprendizaje por refuerzo (RL)
- Actualmente, LlamaGym ofrece una única clase de abstracción
Agent que permite iterar y experimentar rápidamente con prompting de agentes e hiperparámetros en entornos Gym
- Los usuarios pueden definir su propio agente basado en LLM implementando 3 métodos abstractos en la clase
Agent
Uso
- Después de instalar LlamaGym, se crea un agente jugador de blackjack implementando 3 métodos abstractos en la clase
Agent.
- Se define el LLM base, se instancia el agente y luego se escribe el bucle de RL para que el agente actúe, reciba recompensas y termine los episodios.
- El aprendizaje en línea mediante aprendizaje por refuerzo es la parte difícil, por lo que se necesita ajuste de hiperparámetros, y una etapa de ajuste fino supervisado puede ser útil.
Aún no hay comentarios.