- Se propone una nueva métrica que mide el rendimiento según la “longitud” de las tareas que un modelo de IA puede completar por completo
- Se analiza que, durante los últimos 6 años, la longitud de las tareas que la IA puede completar de forma autónoma se ha duplicado aproximadamente cada 7 meses
- Las tareas que un experto humano termina en menos de 4 minutos se resuelven con casi 100% de éxito, pero las tareas que toman más de 4 horas tienen una tasa de éxito inferior al 10%
- Si esta tendencia se mantiene, se proyecta que en unos años la IA podrá llevar a cabo de manera independiente proyectos de varias semanas
- El estudio tiene implicaciones importantes para los benchmarks de IA, la predicción de capacidades futuras y la gestión de riesgos
Resumen del estudio
- METR presenta un nuevo método para medir qué tan largas son las tareas que la IA puede completar
- El criterio de medición es el tiempo que le toma a un experto humano realizar esa tarea
- La relación entre la probabilidad de éxito del modelo y el tiempo de trabajo humano se modela con una curva logística
- Este enfoque se plantea como una métrica útil para evaluar la utilidad real de la IA
- Complementa las limitaciones de los benchmarks existentes, que se han centrado en exceso en la capacidad de resolver problemas individuales
Resultados principales
- Límite de rendimiento de los modelos actuales
- Las tareas que una persona realiza en menos de 4 minutos se completan con casi 100% de éxito
- Las tareas que tardan más de 4 horas tienen una tasa de éxito inferior al 10%
- Ejemplo: Claude 3.7 Sonnet alcanza una tasa de éxito del 50% en tareas de aproximadamente 1 hora de duración
- Tendencia de mejora del rendimiento
- Durante los últimos 6 años, la longitud de las tareas que pueden completarse con 50% de confianza se ha duplicado aproximadamente cada 7 meses
- El análisis en escala logarítmica confirma un crecimiento exponencial sostenido
- Si la tendencia se mantiene, podrían realizarse tareas de escala semanal en un plazo de 2 a 4 años
Metodología y validación
- Validación basada en datasets
- Se registró el tiempo de ejecución humana para distintos grupos de tareas (software, razonamiento, etc.)
- En el dataset SWE-Bench Verified también se confirmó un incremento exponencial similar
- En esos datos se observó una velocidad de duplicación inferior a 3 meses
- Análisis de sensibilidad
- Se verificó la solidez frente a diversos factores, como la selección de modelos y tareas, y el ruido
- En simulaciones para predecir cuándo podrán realizarse tareas de 1 mes de duración, la tendencia se mantiene incluso con errores de medición grandes
Interpretación y limitaciones
- Explica la brecha entre el desempeño de la IA en benchmarks y su utilidad real
- Aunque supera a los humanos en exámenes y problemas puntuales, aún muestra debilidad en proyectos largos del mundo real
- Se reconoce la incertidumbre de extrapolar la tendencia
- Si solo se usan datos de 2024~2025, el momento estimado para tareas de escala mensual se adelanta unos 2.5 años
- Se menciona que la tendencia reciente podría predecir mejor el rendimiento futuro que los datos históricos
Conclusión y relevancia
- El enfoque de medir el rendimiento de la IA por “longitud de tarea”
- Permite cuantificar la mejora del rendimiento en distintos niveles de dificultad y dominios
- Hace posible una interpretación absoluta del desempeño directamente conectada con el impacto en el mundo real
- Si continúa el crecimiento exponencial sostenido,
- Se espera que en menos de 10 años sea posible ejecutar de forma autónoma proyectos mensuales
- Esto implicaría enormes beneficios potenciales y riesgos al mismo tiempo
- Los datos del estudio y el código de análisis están disponibles en GitHub, lo que fomenta investigaciones de seguimiento y experimentos de replicación
2 comentarios
Parece un benchmark muy bueno.
Últimamente, viendo las herramientas de IA para programación, en muchos casos hacen que se establezca un plan de antemano y luego actúen en modo agente, así que también me da curiosidad saber si eso realmente tiene un impacto significativo en la tasa de éxito a largo plazo.
Opiniones en Hacker News
Era un prompt de una sola línea, tipo tuit, y quedó listo en 15 minutos, mientras yo estaba jugando Kirby Air Riders.
Lo único malo es que en todo ese proceso no aprendí absolutamente nada sobre cómo construir vector search. Al final, el objetivo era la funcionalidad en sí, y aprender era algo secundario.
En vez de invertir 4 horas haciéndolo yo mismo, es mucho más eficiente dejar que un agente lo haga en 15 minutos mientras hago otra cosa, y luego dedicar unos 30 minutos a leer y modificar el código y hacer preguntas.
30 minutos de aprendizaje enfocado podrían ser mejores que 4 horas de prueba y error.
En algún momento la IA también pierde la estructura del código, y al final te conviertes en un cliente dependiente de Opus.
Antes disfrutaba resolver problemas en Scala mientras escuchaba música, pero ahora obtener solo el resultado tan fácilmente me deja una sensación de vacío.
Yo también, cuando hago modelos de trading, prefiero que el LLM escriba el código en lugar de ponerme a aprender gráficos directamente.
Gracias a eso no desperdicio tiempo en detalles menores de APIs y puedo concentrarme solo en las partes donde de verdad hace falta tomar decisiones.
Mientras porteaba un parser HTML5 de Python a JavaScript, corrí Codex CLI sobre 9,200 tests de html5lib-tests, y fue impresionante verlo pasar más de 4 horas en loop resolviendo problemas.
Lo resumí en este post.
Eso significa que Opus 4.5 puede realizar tareas de ese nivel con 50% de confiabilidad, y el tiempo real de ejecución es mucho menor.
Cuando empiecen a superar umbrales como 8 horas o 40 horas, se va a poner más interesante.
Muestra muy bien que los benchmarks se rompen rápido, pero automatizar trabajo real sigue siendo difícil.
Alguien familiarizado con jq, el ecosistema de PyPI o las anotaciones de TypeScript podría terminar mucho más rápido.
Al final, el atractivo de la IA es justamente que puedes recibir ayuda de nivel experto de inmediato.
La mayoría de los modelos termina frenándose sola diciendo “pasemos al siguiente paso”.
Me pregunto si alguien encontró una forma de resolver este problema.
La diferencia de precio también se redujo respecto a antes, así que su valor en uso real subió bastante, y Haiku 4.5 también rinde bastante bien si activas reasoning.
Es especialmente adecuado para herramientas pequeñas o edición de una sola página.
Gracias a los LLM, esas dos etapas ahora se combinan de manera natural.
Por ejemplo, cuando hago animaciones con AnimeJS, aprendo viendo cómo CCAgent escribe el código, y luego yo mismo lo estructuro y refactorizo.
Así puedes obtener al mismo tiempo ahorro de tiempo y control creativo.
Es decir, para tareas cortas GPT 5.1 es más adecuado, y para tareas largas Opus funciona mejor.
Si le encargas una tarea de 4 horas con 50% de tasa de éxito, en la práctica se parece bastante a apostar; y si encima tienes que depurar cuando falla, la pérdida es grande.
Por eso creo que conviene poner checkpoints de revisión humana cada 30 minutos.
Aun así, también es importante que la IA tenga la capacidad de recuperarse por sí sola cuando se queda atorada a mitad de camino.
Por fuera parece que todo está bien, pero hay muchos bugs sutiles que solo aparecen después.
Por eso todavía no uso agentes en tareas importantes; de hecho, porque te quitan parte del disfrute del trabajo.
Si tienes una probabilidad del 50% de obtener el resultado, podría ser una apuesta eficiente en términos de tiempo.
Puedes probar varios intentos rápidamente, y hasta de los fracasos sale aprendizaje.
Así se podría ver con más claridad por qué los LLM siguen fallando tan seguido en cosas que a los humanos les resultan fáciles.
Puedes verificar el resultado numéricamente, mientras más corto sea el código mejor, y hace falta pensamiento sistémico, no solo combinaciones simples.
Hasta ahora, Gemini Pro 3 ha sido el mejor optimizando código SIMD.
Si repites varias veces una tarea de 4 horas, la probabilidad de éxito puede bajar hasta 6.25%.
Depende de la naturaleza del trabajo.