Microsoft Agent Lightning: framework de entrenamiento con aprendizaje por refuerzo para agentes de IA sin modificar el código

(aisparkup.com)

13 puntos por davespark 2025-10-27 | Aún no hay comentarios. | Compartir por WhatsApp

Agent Lightning, presentado por Microsoft Research, es un framework innovador que permite entrenar con aprendizaje por refuerzo (RL) a agentes de IA existentes casi sin cambiar su código. Es compatible con diversos frameworks de agentes como LangChain y AutoGen, y mostró resultados comprobados, como elevar la precisión en pruebas de agentes SQL de 73.2% a 80.4%.

Características principales

Arquitectura Training-Agent Disaggregation: separa por completo la ejecución del agente y el entrenamiento con RL. Con un diseño Sidecar, logra una recolección de datos no intrusiva (prompts, llamadas a herramientas, señales de recompensa), lo que permite cero cambios de código.
Independencia del framework: mediante una API compatible con OpenAI, puede integrarse de inmediato con cualquier agente, como LangChain, OpenAI Agent SDK y CrewAI.
Algoritmo GRPO: una variante de PPO que aprende de forma eficiente en memoria comparando el rendimiento relativo dentro de un grupo. LightningRL descompone interacciones complejas de múltiples turnos en transiciones para manejar la asignación de crédito.

Ejemplo de aplicación práctica: agente SQL

Entrenamiento aplicado a un agente SQL basado en LangGraph (convierte preguntas en lenguaje natural en consultas SQL, las ejecuta y repite un ciclo de corrección de errores):

Proceso de entrenamiento: comienza solo con ejecutar el servidor y conectar el cliente. Ejemplo: uso del modelo Qwen2.5-Coder-3B.
Resultados: en el dataset Spider, la precisión pasó de 73.2% → 80.4%, y el número promedio de transiciones de 3.30 → 2.60, aumentando la eficiencia. El modelo de 7B alcanzó 84.4%.

Instalación y uso

pip install agentlightning (adicional: opciones [apo] o [verl]).
En los examples de GitHub se ofrecen casos como Text-to-SQL y RAG. También permite optimización selectiva en sistemas multiagente.
Algoritmos compatibles: GRPO/PPO, Supervised Fine-tuning, APO (optimización de prompts).

Perspectiva futura

Como proyecto de código abierto, está impulsando la actividad de la comunidad (como DeepWerewolf). En el futuro se planea ampliar con mecanismos de recompensa más ricos, Off-policy RL y aprendizaje por currículo. Se perfila como un enfoque que abrirá la era de los agentes adaptativos al separar el desarrollo y la optimización de agentes.