Medición de la capacidad de la IA para realizar tareas largas

(metr.org)

10 puntos por GN⁺ 2025-12-23 | 2 comentarios | Compartir por WhatsApp

Se propone una nueva métrica que mide el rendimiento según la “longitud” de las tareas que un modelo de IA puede completar por completo
Se analiza que, durante los últimos 6 años, la longitud de las tareas que la IA puede completar de forma autónoma se ha duplicado aproximadamente cada 7 meses
Las tareas que un experto humano termina en menos de 4 minutos se resuelven con casi 100% de éxito, pero las tareas que toman más de 4 horas tienen una tasa de éxito inferior al 10%
Si esta tendencia se mantiene, se proyecta que en unos años la IA podrá llevar a cabo de manera independiente proyectos de varias semanas
El estudio tiene implicaciones importantes para los benchmarks de IA, la predicción de capacidades futuras y la gestión de riesgos

Resumen del estudio

METR presenta un nuevo método para medir qué tan largas son las tareas que la IA puede completar
- El criterio de medición es el tiempo que le toma a un experto humano realizar esa tarea
- La relación entre la probabilidad de éxito del modelo y el tiempo de trabajo humano se modela con una curva logística
Este enfoque se plantea como una métrica útil para evaluar la utilidad real de la IA
- Complementa las limitaciones de los benchmarks existentes, que se han centrado en exceso en la capacidad de resolver problemas individuales

Resultados principales

Límite de rendimiento de los modelos actuales
- Las tareas que una persona realiza en menos de 4 minutos se completan con casi 100% de éxito
- Las tareas que tardan más de 4 horas tienen una tasa de éxito inferior al 10%
- Ejemplo: Claude 3.7 Sonnet alcanza una tasa de éxito del 50% en tareas de aproximadamente 1 hora de duración
Tendencia de mejora del rendimiento
- Durante los últimos 6 años, la longitud de las tareas que pueden completarse con 50% de confianza se ha duplicado aproximadamente cada 7 meses
- El análisis en escala logarítmica confirma un crecimiento exponencial sostenido
- Si la tendencia se mantiene, podrían realizarse tareas de escala semanal en un plazo de 2 a 4 años

Metodología y validación

Validación basada en datasets
- Se registró el tiempo de ejecución humana para distintos grupos de tareas (software, razonamiento, etc.)
- En el dataset SWE-Bench Verified también se confirmó un incremento exponencial similar
- En esos datos se observó una velocidad de duplicación inferior a 3 meses
Análisis de sensibilidad
- Se verificó la solidez frente a diversos factores, como la selección de modelos y tareas, y el ruido
- En simulaciones para predecir cuándo podrán realizarse tareas de 1 mes de duración, la tendencia se mantiene incluso con errores de medición grandes

Interpretación y limitaciones

Explica la brecha entre el desempeño de la IA en benchmarks y su utilidad real
- Aunque supera a los humanos en exámenes y problemas puntuales, aún muestra debilidad en proyectos largos del mundo real
Se reconoce la incertidumbre de extrapolar la tendencia
- Si solo se usan datos de 2024~2025, el momento estimado para tareas de escala mensual se adelanta unos 2.5 años
- Se menciona que la tendencia reciente podría predecir mejor el rendimiento futuro que los datos históricos

Conclusión y relevancia

El enfoque de medir el rendimiento de la IA por “longitud de tarea”
- Permite cuantificar la mejora del rendimiento en distintos niveles de dificultad y dominios
- Hace posible una interpretación absoluta del desempeño directamente conectada con el impacto en el mundo real
Si continúa el crecimiento exponencial sostenido,
- Se espera que en menos de 10 años sea posible ejecutar de forma autónoma proyectos mensuales
- Esto implicaría enormes beneficios potenciales y riesgos al mismo tiempo
Los datos del estudio y el código de análisis están disponibles en GitHub, lo que fomenta investigaciones de seguimiento y experimentos de replicación
- Infraestructura relacionada: vivaria, eval-analysis-public

2 comentarios

crawler 2025-12-23

Parece un benchmark muy bueno.
Últimamente, viendo las herramientas de IA para programación, en muchos casos hacen que se establezca un plan de antemano y luego actúen en modo agente, así que también me da curiosidad saber si eso realmente tiene un impacto significativo en la tasa de éxito a largo plazo.

GN⁺ 2025-12-23

Opiniones en Hacker News

Hace poco, en mi proyecto hobby solo pedí “agregar vector search”, y Opus configuró manticore, trajo un modelo de embeddings, creó una herramienta para migrar el índice de palabras clave existente y hasta armó el frontend.
Era un prompt de una sola línea, tipo tuit, y quedó listo en 15 minutos, mientras yo estaba jugando Kirby Air Riders.
Lo único malo es que en todo ese proceso no aprendí absolutamente nada sobre cómo construir vector search. Al final, el objetivo era la funcionalidad en sí, y aprender era algo secundario.
- No creo que hacerlo deliberadamente de una forma más lenta sea un método de aprendizaje más efectivo.
  En vez de invertir 4 horas haciéndolo yo mismo, es mucho más eficiente dejar que un agente lo haga en 15 minutos mientras hago otra cosa, y luego dedicar unos 30 minutos a leer y modificar el código y hacer preguntas.
  30 minutos de aprendizaje enfocado podrían ser mejores que 4 horas de prueba y error.
- Pero si haces eso, al final terminas con un enorme bloque de código imposible de mantener.
  En algún momento la IA también pierde la estructura del código, y al final te conviertes en un cliente dependiente de Opus.
- Opus o Anthropic claramente están en el nivel más alto, pero cada vez que los uso se sienten como comida rápida intelectual.
  Antes disfrutaba resolver problemas en Scala mientras escuchaba música, pero ahora obtener solo el resultado tan fácilmente me deja una sensación de vacío.
- Coincido por completo con eso de “quería la funcionalidad, no aprender a construirla”.
  Yo también, cuando hago modelos de trading, prefiero que el LLM escriba el código en lugar de ponerme a aprender gráficos directamente.
  Gracias a eso no desperdicio tiempo en detalles menores de APIs y puedo concentrarme solo en las partes donde de verdad hace falta tomar decisiones.
- Me pregunto si ese código de vector search se podría compartir.
Antes de vivirlo en carne propia, no entendía bien el concepto de “tarea larga (long task)”.
Mientras porteaba un parser HTML5 de Python a JavaScript, corrí Codex CLI sobre 9,200 tests de html5lib-tests, y fue impresionante verlo pasar más de 4 horas en loop resolviendo problemas.
Lo resumí en este post.
- La “tarea de 4 horas” de METR no significa que la IA realmente tarde 4 horas, sino que se refiere a una dificultad que a un humano le tomaría 4 horas.
  Eso significa que Opus 4.5 puede realizar tareas de ese nivel con 50% de confiabilidad, y el tiempo real de ejecución es mucho menor.
  Cuando empiecen a superar umbrales como 8 horas o 40 horas, se va a poner más interesante.
- Esta métrica no mide la velocidad real de la IA, sino la dificultad según el criterio humano.
  Muestra muy bien que los benchmarks se rompen rápido, pero automatizar trabajo real sigue siendo difícil.
- En el “human hours equivalent” de METR, importa mucho qué humano tomas como referencia.
  Alguien familiarizado con jq, el ecosistema de PyPI o las anotaciones de TypeScript podría terminar mucho más rápido.
  Al final, el atractivo de la IA es justamente que puedes recibir ayuda de nivel experto de inmediato.
- Pero cuando corres tareas largas con Codex o Claude code, las solicitudes de permisos aparecen demasiado seguido, y muchas veces se detiene a la mitad.
  La mayoría de los modelos termina frenándose sola diciendo “pasemos al siguiente paso”.
- GPT5.2 en particular exige demasiada intervención del usuario, así que es difícil ponerlo a trabajar de corrido por más de 2 minutos.
  Me pregunto si alguien encontró una forma de resolver este problema.
Soy cauteloso al evaluar modelos, pero sí sentí claramente la diferencia entre Opus 4.5 y Sonnet 4.5.
La diferencia de precio también se redujo respecto a antes, así que su valor en uso real subió bastante, y Haiku 4.5 también rinde bastante bien si activas reasoning.
Es especialmente adecuado para herramientas pequeñas o edición de una sola página.
Creo que aprender software se divide en dos etapas: exploración (exploration) y explotación (exploitation).
Gracias a los LLM, esas dos etapas ahora se combinan de manera natural.
Por ejemplo, cuando hago animaciones con AnimeJS, aprendo viendo cómo CCAgent escribe el código, y luego yo mismo lo estructuro y refactorizo.
Así puedes obtener al mismo tiempo ahorro de tiempo y control creativo.
Opus parece un salto mayor que GPT 5.1, pero bajo un criterio de 80% de confiabilidad GPT 5.1 sigue teniendo ventaja.
Es decir, para tareas cortas GPT 5.1 es más adecuado, y para tareas largas Opus funciona mejor.
- Con una tasa de éxito del 50%, el desperdicio de tokens caros es grande, pero espero que para el próximo año los modelos open source también lleguen a este nivel.
La idea central de METR es que mide la complejidad con base en el “tiempo equivalente humano”.
Si le encargas una tarea de 4 horas con 50% de tasa de éxito, en la práctica se parece bastante a apostar; y si encima tienes que depurar cuando falla, la pérdida es grande.
Por eso creo que conviene poner checkpoints de revisión humana cada 30 minutos.
Aun así, también es importante que la IA tenga la capacidad de recuperarse por sí sola cuando se queda atorada a mitad de camino.
- Pero en 30 minutos la IA produce tanto resultado que revisarlo se vuelve una pesadilla.
  Por fuera parece que todo está bien, pero hay muchos bugs sutiles que solo aparecen después.
  Por eso todavía no uso agentes en tareas importantes; de hecho, porque te quitan parte del disfrute del trabajo.
- Aunque hayas desperdiciado 4 horas, no es una pérdida si durante ese tiempo estuviste haciendo otra cosa.
  Si tienes una probabilidad del 50% de obtener el resultado, podría ser una apuesta eficiente en términos de tiempo.
- Incluso cuando falla, en realidad solo pierdes los pocos minutos que la IA estuvo trabajando, así que es excelente para explorar prototipos.
  Puedes probar varios intentos rápidamente, y hasta de los fracasos sale aprendizaje.
También hacen falta gráficos con niveles de confiabilidad de 95% o 99%.
Así se podría ver con más claridad por qué los LLM siguen fallando tan seguido en cosas que a los humanos les resultan fáciles.
Creo que la optimización de rendimiento es un benchmark excelente para medir la inteligencia práctica de la IA.
Puedes verificar el resultado numéricamente, mientras más corto sea el código mejor, y hace falta pensamiento sistémico, no solo combinaciones simples.
Hasta ahora, Gemini Pro 3 ha sido el mejor optimizando código SIMD.
El problema con una tasa de éxito del 50% es que la probabilidad cae drásticamente cuando reintentas.
Si repites varias veces una tarea de 4 horas, la probabilidad de éxito puede bajar hasta 6.25%.
- Aun así, más que “mala suerte”, puede pasar que una tarea que falló una vez tenga una probabilidad distinta de éxito en el siguiente intento.
  Depende de la naturaleza del trabajo.