LangChain publicó un conjunto de "Skills" que mejora de forma drástica el rendimiento de los agentes de código.
En particular, cuando modelos como Claude Code realizan tareas relacionadas con LangChain/LangGraph/LangSmith, sin Skills solo lograban completar con éxito alrededor del 25%, pero después de incorporar Skills la cifra subió hasta 95%. En tareas relacionadas con LangSmith, la mejora también fue notable: de 17% a 92%.
Tipos de Skills publicados
- 11 Skills de LangChain: bucle básico de agentes, Human-in-the-Loop de LangGraph, Deep Agents, entre otros
- 3 Skills de LangSmith: tracing, construcción de datasets y evaluación de agentes
→ También se publicó LangSmith CLI (permite consultar trazas, gestionar datasets y ejecutar experimentos desde la terminal)
Resultados de evaluación y lecciones
- Tasa de finalización de Claude Code con Skills: 82% vs 9% sin Skills
- Precisión en la invocación de Skills: si hay demasiadas (20), aumentan los errores; al reducirlas a unas 12, mejora la precisión
- Para maximizar el efecto, es necesario indicar claramente en AGENTS.md o CLAUDE.md “cuándo usar qué Skill”
Perspectiva a futuro
- Al aprovechar las Skills de LangSmith, los agentes pueden ejecutar un bucle de auto-mejora de analizar sus propios logs de ejecución → resumir problemas → generar automáticamente datasets de prueba + evaluadores.
- Se plantea que, en adelante, podría volverse dominante un ciclo basado en terminal en el que “agentes mejoran a otros agentes”.
Aún no hay comentarios.