"Skillify" de Garry Tan — una metodología para convertir los fallos de los agentes de IA en correcci

Este es un artículo sobre "Skillify", una metodología de gestión de calidad para agentes propuesta por Garry Tan, presidente de Y Combinator, a partir de su experiencia operando agentes de IA. Parte de la idea de que marcos como LangChain, que recaudó 160 millones de dólares, ofrecen herramientas de prueba, pero carecen de un flujo de trabajo que responda a la pregunta de "qué probar y en qué orden". Tan presenta una lista de verificación de 10 pasos para convertir los errores cometidos por un agente no en ajustes puntuales de prompt, sino en una estructura permanente compuesta por archivos de habilidades en Markdown, scripts deterministas y pruebas automatizadas.

Conceptos clave

Qué es Skillify: cuando ocurre una falla de un agente, significa convertir esa falla en una "habilidad" que haga imposible volver a reproducirla (procedimiento en Markdown + script determinista + pruebas). Si durante una conversación se dice "skillify it", el agente ejecuta automáticamente el proceso de 10 pasos.
Distinción entre latent y deterministic: separa con claridad las tareas que requieren criterio (latent, ámbito de razonamiento del LLM) de las que requieren precisión (deterministic, ámbito de ejecución de código). Considera que el bug central es que el LLM intente hacer "en la cabeza" tareas como cálculos de zonas horarias o búsquedas en calendarios, donde el código puede responder de inmediato y con exactitud.
Lista de verificación de 10 pasos: redacción de SKILL.md, creación de script determinista, pruebas unitarias (vitest), pruebas de integración, evaluación LLM (LLM-as-judge), registro del disparador del resolvedor, evaluación del resolvedor, auditoría de alcance/duplicación, prueba de humo E2E y hasta reglas de archivado mental; solo al pasar todo esto se reconoce como una "habilidad".

Casos reales

Un caso en el que, al preguntarle por un itinerario de viaje a Singapur de hace 10 años, el agente llamó APIs en vivo durante 5 minutos y solo después descubrió datos que podía haber encontrado de inmediato en 3,146 archivos de calendario ya indexados localmente
Un caso en el que respondió "la próxima reunión es en 28 minutos", cuando en realidad faltaban 88 minutos — el LLM hizo el cálculo mental de la conversión de UTC a PT y se equivocó exactamente por 1 hora
En ambos casos, scripts ya existentes (que corrían en menos de 100 ms) tenían la respuesta correcta, pero el problema fue que el agente eligió razonar en vez de ejecutar el script

Diferenciadores

Mientras que LangChain se quedó en ofrecer un "conjunto de herramientas de prueba", Skillify propone el propio flujo de trabajo con postura definida de "falla → habilidad → pruebas → corrección permanente". La analogía es que, si el framework solo te diera la membresía del gimnasio, Skillify sería la rutina de entrenamiento.
Señala que Hermes Agent de Nous Research genera habilidades automáticamente con eficacia, pero que sin pruebas esas habilidades se degradan con el tiempo, y subraya que se necesitan tanto la "generación" como la "validación".

Implicaciones

Recuerda que en ingeniería de software el principio de "agregar una prueba de regresión a cada bug" ya estaba establecido en 2005, mientras que el campo de los agentes de IA todavía no alcanza ese nivel. La idea de que las habilidades de los agentes, igual que un codebase, se degradan sin pruebas funciona como una advertencia válida para toda la industria.
El caso de operar más de 40 habilidades y descubrir que el 15% no estaba registrado en el resolvedor, convirtiéndose en "funciones en la oscuridad", muestra que cuando un sistema de agentes escala, gestionar la capacidad de descubrimiento (discoverability) se vuelve una tarea esencial.

"Skillify" de Garry Tan — una metodología para convertir los fallos de los agentes de IA en correcciones estructurales permanentes

2 comentarios

"Skillify" de Garry Tan — una metodología para convertir los fallos de los agentes de IA en correcciones estructurales permanentes

Lecturas relacionadas

2 comentarios