36 puntos por ragingwind 7 일 전 | 2 comentarios | Compartir por WhatsApp

Este es un texto sobre "Skillify", una metodología de control de calidad para agentes propuesta por Garry Tan, presidente de Y Combinator, a partir de su experiencia operando agentes de IA. Parte del problema de que frameworks como LangChain, que ha recaudado 160 millones de dólares, ofrecen herramientas de prueba, pero carecen de un flujo de trabajo que defina "qué probar y en qué orden". Tan presenta una lista de verificación de 10 pasos para convertir los errores cometidos por un agente, no en ajustes puntuales de prompts, sino en una estructura permanente compuesta por archivos de habilidades en Markdown, scripts deterministas y pruebas automatizadas.

Conceptos clave

  • Qué es Skillify: cuando ocurre una falla del agente, significa transformarla en una "habilidad" que haga imposible reproducir esa falla (procedimiento en Markdown + script determinista + pruebas). Si durante una conversación se dice "skillify it", el agente ejecuta automáticamente el proceso de 10 pasos.
  • Distinción entre Latent y Deterministic: separa claramente las tareas que requieren juicio (latent, ámbito de razonamiento del LLM) y las que requieren precisión (deterministic, ámbito de ejecución de código). Considera que el bug central aparece cuando el LLM intenta resolver "en su cabeza" tareas que el código puede responder de inmediato, como cálculos de zona horaria o búsqueda en calendarios, y se equivoca.
  • Lista de verificación de 10 pasos: solo se reconoce como "habilidad" si pasa por completo por SKILL.md, creación del script determinista, pruebas unitarias (vitest), pruebas de integración, evaluación del LLM (LLM-as-judge), registro del disparador del resolvedor, evaluación del resolvedor, auditoría de alcance/duplicación, prueba de humo E2E y hasta las reglas de archivado en el archivo de conocimiento.

Casos reales

  • Un caso en el que, al preguntarle por un itinerario de viaje a Singapur de hace 10 años, el agente llamó una API en vivo durante 5 minutos y solo después descubrió datos que podía haber encontrado de inmediato entre 3,146 archivos de calendario ya indexados localmente.
  • Un caso en el que respondió "la próxima reunión es en 28 minutos", pero en realidad era 88 minutos después: el LLM hizo el cálculo mental de conversión de UTC a PT y se equivocó exactamente por 1 hora.
  • En ambos casos, los scripts existentes (que se ejecutaban en menos de 100 ms) ya tenían la respuesta correcta, pero el problema fue que el agente eligió razonar en lugar de ejecutar el script.

Diferenciadores

  • Si LangChain se ha quedado en ofrecer un "conjunto de herramientas de prueba", Skillify propone el flujo de trabajo con una opinión clara: "fallo → habilidad → prueba → corrección permanente". La analogía es que, si el framework solo te da la membresía del gimnasio, Skillify te da la rutina de entrenamiento.
  • Señala que Hermes Agent de Nous Research hace bien la generación automática de habilidades, pero que, sin pruebas, esas habilidades se degradan con el tiempo, y enfatiza que se necesitan ambas cosas: "generación + validación".

Implicaciones

  • Recuerda que en la ingeniería de software el principio de "agregar una prueba de regresión a cada bug" ya estaba establecido en 2005, mientras que el ámbito de los agentes de IA todavía no llega a ese nivel. La idea de que las habilidades de los agentes también se degradan sin pruebas, igual que cualquier base de código, puede leerse como una advertencia válida para toda la industria.
  • El caso de operar más de 40 habilidades y descubrir que el 15% no estaba registrado en el resolvedor, convirtiéndose en "funcionalidades en la oscuridad", muestra que cuando un sistema de agentes escala, gestionar la capacidad de descubrimiento se vuelve una tarea esencial.

2 comentarios

 
tested 7 일 전

Eso

Si durante la conversación dices "skillify it", el agente ejecuta automáticamente un proceso de 10 pasos.

¿Dónde se consigue la skill que hace eso?

 
heyjude 7 일 전

La habilidad skillify es una función incluida en gbrain.
https://github.com/garrytan/gbrain/…