Opus 4.6, qué significa que resuelva problemas de 14.5 horas en escala humana (METR Time Horizon)

(metr.org)

5 puntos por princox 2026-02-21 | Aún no hay comentarios. | Compartir por WhatsApp

Existe una institución de investigación sin fines de lucro llamada METR en Estados Unidos.
Es una organización de investigación sin fines de lucro ubicada en Berkeley, California, que evalúa la capacidad de los modelos de IA de frontera para realizar tareas autónomas y de larga duración.

Algunos investigadores advierten que estas capacidades podrían generar riesgos graves para la sociedad, y METR justamente cumple la función de medir esos riesgos.

La investigación de METR se compone en gran medida de tres ejes.

Primero, una evaluación amplia de capacidades autónomas que mide la habilidad de agentes de IA para completar de forma autónoma diversas tareas que duran varias horas.

Segundo, la evaluación de la capacidad de la IA para acelerar la propia I+D en IA.

Tercero, el estudio de conductas de IA que amenazan la integridad de las evaluaciones (por ejemplo, sandbagging y reward hacking) y de las contramedidas correspondientes.

En particular, el estudio de Time Horizon publicado por METR reveló que la duración de las tareas que los agentes de IA pueden completar se ha duplicado aproximadamente cada 7 meses durante los últimos 6 años, y este trabajo se está utilizando como una referencia clave para predecir cuándo la IA podría tener un impacto transformador.

A continuación se muestra una traducción automática de la página que aparece al entrar en la URL.

Resumen

El horizonte de tiempo de finalización de tareas (task-completion time horizon) es el tiempo que toma una tarea, medido según el tiempo que tardaría en completarla un experto humano, para la cual se predice que un agente de IA tendrá éxito con un nivel dado de confianza. Por ejemplo, el horizonte de tiempo del 50% es la longitud de una tarea en la que se predice que el agente tendrá éxito con una probabilidad del 50%. El gráfico de abajo muestra los horizontes de tiempo del 50% y del 80% de agentes de IA de frontera, calculados con base en el rendimiento en más de 100 tareas de software variadas.

Actualizamos periódicamente las mediciones del horizonte de tiempo de modelos de IA de frontera disponibles públicamente. Debido a limitaciones de capacidad, algunos modelos pueden medirse tiempo después de su lanzamiento, o incluso puede omitirse por completo alguna versión.

Para una discusión completa sobre la metodología y los resultados, consulta el paper y la publicación del blog.

Detalles de la metodología

Para estimar el horizonte de tiempo de agentes de IA de frontera, primero estimamos cuánto tardaría un experto humano en completar cada tarea. Para cada agente, ajustamos una curva logística para predecir la probabilidad de éxito de la tarea como función del tiempo que tomaría al humano realizarla. Para obtener el horizonte de tiempo del 50% (o del 80%), buscamos el tiempo de tarea en el que la curva ajustada cruza una probabilidad de éxito del 50% (o del 80%).

Distribución de tareas: las tareas están compuestas por RE-Bench, HCAST y tareas cortas de software. Se centran principalmente en ingeniería de software, machine learning y ciberseguridad, y son independientes, están claramente definidas y tienen criterios de éxito claros que permiten una evaluación automática.

Estimación del tiempo de trabajo humano: para la mayoría de las tareas, contratamos personas para que intenten resolverlas y tomamos la media geométrica del tiempo de finalización exitoso. Estas personas reciben las mismas instrucciones y el mismo entorno que los agentes de IA, y se les pide completar la tarea lo más rápido posible. Nuestras estimaciones del tiempo humano probablemente sobrestiman el tiempo de un experto real, porque estas personas (y los agentes de IA) tienen mucho menos contexto sobre la tarea que un especialista que realiza una labor equivalente como parte de su trabajo habitual.

Preguntas frecuentes (FAQ)

P. ¿"Horizonte de tiempo" significa el tiempo durante el cual la IA actual puede actuar de manera autónoma?

No. El horizonte de tiempo del 50% es la longitud de la tarea (medida con base en un experto humano) que un agente de IA puede completar con un 50% de confianza. No es el tiempo real que la IA tarda en completar la tarea, sino una métrica de la dificultad de la tarea.

P. ¿Cuánto tarda realmente un agente de IA en completar una tarea de 2 horas?

Depende del modelo, la tarea y la configuración del agente, pero los agentes de IA por lo general son varias veces más rápidos que los humanos. A menudo escriben código de una sola vez sin trabajo iterativo y también necesitan buscar menos cosas. Además, muchos agentes de IA programan mucho más rápido que los ingenieros de software humanos.

P. ¿Qué tipo de personas se toman como referencia para estimar el tiempo de trabajo?

Profesionales calificados en ingeniería de software, machine learning y ciberseguridad, la mayoría egresados de las 100 mejores universidades del mundo. Tienen en promedio alrededor de 5 años de experiencia relevante. Nuestras tareas de 2 horas deben entenderse mejor no como algo que un “experto calificado que ya conoce el proyecto” resolvería, sino como una tarea que un “empleado nuevo o contratista freelance con muy poco contexto previo” podría completar en 2 horas.

P. Si el horizonte de tiempo es de 2 horas, significa que la IA puede realizar todo trabajo intelectual que un humano puede hacer en 2 horas?

No. Nuestra distribución de tareas se compone principalmente de ingeniería de software, machine learning y ciberseguridad. En investigaciones posteriores analizamos cómo varía el horizonte de tiempo de los sistemas de IA en distintos dominios, y encontramos tendencias exponenciales similares también en otros campos, aunque los valores absolutos del horizonte difieren. Las capacidades de la IA son “irregulares (jagged)” en comparación con las humanas, y se espera que los horizontes de tiempo para todas las tareas económicamente valiosas se distribuyan a lo largo de varios órdenes de magnitud.

📊 Interpretación de los gráficos

Gráfico principal (imágenes 1 y 6)

Si observamos la trayectoria desde GPT-2 (2019) hasta Claude Opus 4.6 (febrero de 2026), se puede ver que el horizonte de tiempo de la IA creció de forma explosiva desde casi 0 minutos hasta unas 14 horas y 30 minutos. En particular, en el tramo 2024~2026 la curva se vuelve abruptamente más pronunciada, lo que indica que las mejoras de capacidad de los últimos 1 a 2 años superan ampliamente a las de varios años anteriores.

Gráfico multidominio (imagen 5)

Muestra que el horizonte de tiempo está aumentando exponencialmente en diversos benchmarks como METR-HRS (software), MATH, GPQA, Mock AIME y SWE-bench. Aunque los valores absolutos difieren según el dominio, la tendencia ascendente en sí es común.

🔑 Interpretación de “14 horas y 30 minutos” — la pregunta clave

> "¿Qué significa que Claude Opus 4.6 haya alcanzado 14.5 horas en 'Fix complex bug in ML research codebase'?"

Esta es la parte más fácil de malinterpretar. Explicado con precisión:

Malentendido	Interpretación correcta
"Claude Opus 4.6 trabajó durante 14.5 horas"	❌
"Claude Opus 4.6 logra con un 50% de probabilidad una tarea con una dificultad equivalente a 14.5 horas de trabajo humano"	✅

Es decir, 14 horas y 30 minutos no es el tiempo que tardó la IA, sino la dificultad de esa tarea medida en escala humana.

Desglosándolo de forma concreta:

METR selecciona la tarea “corregir un bug complejo en una base de código de investigación en ML”
Varios expertos humanos calificados realizan la tarea y tardan en promedio unas 14 horas y 30 minutos
Se hace que Claude Opus 4.6 intente la misma tarea repetidamente, y tiene éxito con una probabilidad del 50%
Por lo tanto, el horizonte de tiempo del 50% de Claude Opus 4.6 = 14 horas y 30 minutos

En la práctica, el tiempo real que le tomaría a Claude Opus 4.6 procesar esta tarea probablemente sería mucho menor que para un humano (según el FAQ, la IA normalmente es varias veces más rápida).

💡 Resumen de implicaciones

Los datos de horizonte de tiempo de METR demuestran objetivamente que la capacidad de los agentes de IA para realizar trabajo autónomo se está expandiendo a una velocidad exponencial, y el hecho de que Claude Opus 4.6 pueda completar con un 50% de probabilidad tareas complejas de software, ML y ciberseguridad que, según el estándar de un experto humano calificado, requieren más de 14 horas, sugiere que la IA ha alcanzado un umbral en el que puede reemplazar o automatizar de forma sustancial una parte importante del trabajo profesional especializado, y si esta tendencia continúa, implica con fuerza que será inevitable una redefinición fundamental del papel y del valor del trabajo humano en industrias intensivas en conocimiento y alta calificación, como el desarrollo de software, la seguridad y la investigación.

Se dice que Opus 4.6, actualizado en febrero de 2026, tendría un 50% de probabilidad de resolver un problema que para un experto humano tomaría 14.5 horas.

Me pareció un gráfico impresionante, así que lo comparto pensando en que en el futuro cada vez más trabajo será automatizado y ejecutado con base en IA.