Las habilidades de agentes de IA ni siquiera alcanzan en la práctica la mitad del rendimiento de benchmark

(arxiv.org)

3 puntos por davespark 14 일 전 | Aún no hay comentarios. | Compartir por WhatsApp

Este es un resultado de investigación del equipo de UC Santa Barbara, MIT CSAIL y MIT-IBM Watson AI Lab que evalúa de forma realista la capacidad de los agentes de IA para aprovechar habilidades.

El equipo recopiló y puso a prueba 34,198 habilidades de código abierto (conocimiento estructurado como flujos de trabajo, uso de API y mejores prácticas). El benchmark existente, SKILLSBENCH, tenía el problema de sobreestimar el rendimiento al evaluar en condiciones ideales donde al agente se le entregaba por adelantado la habilidad exacta.

Para mejorar esto, el equipo diseñó 6 escenarios realistas por etapas:

Proveer la habilidad directamente
Que el agente seleccione por sí mismo la habilidad
Mezclar habilidades no relacionadas
Buscar dentro de un gran conjunto de habilidades
Casos donde no existe ninguna habilidad personalizada

Al probar modelos recientes como Claude Opus 4.6, Kimi K2.5 y Qwen3.5-397B:

Con Claude Opus 4.6
- Cuando se proporciona la habilidad directamente: 55.4% de tasa de éxito
- En condiciones realistas (búsqueda a gran escala + selección): 40.1%
- Cuando no hay una habilidad personalizada: 38.4% (apenas 3 puntos porcentuales por encima de la línea base sin uso de habilidades, que fue de 35.4%)
En modelos más débiles (Kimi, Qwen), usar habilidades produjo incluso un efecto adverso: el rendimiento cayó por debajo de la línea base.

Principales causas de la caída de rendimiento

Fallo al seleccionar habilidades: incluso cuando existía una habilidad personalizada, Claude solo recuperó correctamente el 49%
Límites en la precisión de búsqueda: el Recall@5 de habilidades relevantes entre las 5 mejores llegó como máximo a 65.5%
Falta de capacidad de adaptación: no logra aplicar bien habilidades similares según el contexto

Intentos de mejora y resultados

Al aplicar un método de refinamiento y generación de habilidades por tarea, el rendimiento de Claude subió de 40.1% → 48.2%, pero el método solo funcionó cuando las habilidades recuperadas inicialmente tenían cierto nivel de relación con la tarea.
También surgió la opinión de que, como en la investigación de Vercel, un enfoque más simple de poner en el contexto un archivo Markdown como AGENTS.md podría ser más estable.

Conclusión y propuestas

Las habilidades de agentes de IA actualmente muestran un rendimiento inflado solo en benchmarks, mientras que en entornos reales de uso su efectividad es muy limitada. En particular, en modelos más débiles las habilidades incluso pueden estorbar.

El equipo subrayó la necesidad de mejores técnicas de búsqueda, estrategias efectivas de refinamiento offline de habilidades y diseñar un ecosistema de habilidades acorde con las capacidades del modelo. El paper y el código están publicados en GitHub.

Referencia relacionada: https://aisparkup.com/posts/11097

Las habilidades de agentes de IA ni siquiera alcanzan en la práctica la mitad del rendimiento de benchmark

Principales causas de la caída de rendimiento

Intentos de mejora y resultados

Conclusión y propuestas

Lecturas relacionadas

Aún no hay comentarios.