ARC-AGI-3 - el primer benchmark de razonamiento interactivo

(arcprize.org)

1 puntos por GN⁺ 2026-03-27 | 1 comentarios | Compartir por WhatsApp

ARC-AGI-3 es el primer benchmark de razonamiento interactivo para medir la inteligencia a nivel humano de agentes de IA, y evalúa la exploración de entornos y la capacidad de aprendizaje adaptativo
Todas las tareas están compuestas por entornos que los humanos pueden resolver, y miden la eficiencia en la adquisición de habilidades con el tiempo y la capacidad de planificación a largo plazo
Proporciona objetivos claros y retroalimentación sin conocimiento previo, y mantiene una estructura de tareas novedosa que evita enfoques basados en memorización
Mediante visualización de replays, toolkit para desarrolladores y UI de evaluación, permite verificar de forma transparente el comportamiento del agente y su proceso de razonamiento
Con el conjunto público de juegos, documentación, SDK y canales comunitarios, facilita la participación en la competencia ARC Prize 2026 y las pruebas de agentes

Resumen de ARC-AGI-3

ARC-AGI-3 fue diseñado como un benchmark de razonamiento interactivo para medir la inteligencia a nivel humano de agentes de IA
- Evalúa la capacidad del agente para explorar entornos nuevos, identificar objetivos, construir un modelo del mundo adaptable y seguir aprendiendo
- Una puntuación del 100% significa que la IA resuelve todos los juegos con la misma eficiencia que un humano
- No se trata de resolver acertijos estáticos, sino de aprender a través de la experiencia dentro del entorno y ajustar estrategias
- Debe realizar percepción, selección de acciones y adaptación de estrategias sin instrucciones en lenguaje natural

Funciones principales

Incluye ejecuciones reproducibles (run), toolkit para desarrolladores para integración de agentes y una UI transparente para evaluación
Replay y evaluación
- Visualiza las acciones del agente en formato de replay para seguir en orden temporal la toma de decisiones, las acciones y el proceso de razonamiento
- Se ofrece un replay de ejemplo
Herramientas y UI
- Permite integrar agentes mediante el toolkit de ARC-AGI-3 y probar e iterar con una UI interactiva
- Puede ejecutarse directamente desde el enlace Play and test
Documentación
- Proporciona la documentación necesaria para construir agentes, como configuración del entorno, uso de la API y guía de integración
- Se puede acceder desde la página de documentación

Recursos relacionados y comunidad

Public Game Set: conjunto público de juegos
Docs + SDK: documentación de desarrollo y SDK
ARC Prize 2026 Track: pista de la competencia 2026
Technical Paper: informe técnico
Los participantes pueden elegir distintos entornos de juego (ar25, bp35, ls20, etc.) para probar sus propios agentes
La comunidad oficial opera canales en Discord, Twitter, YouTube y GitHub
A través de ARC Prize 2026 se puede seguir la competencia oficial y sus actualizaciones

1 comentarios

GN⁺ 2026-03-27

Opiniones de Hacker News

Al ver el tuit de scaling01, se señalan varios problemas con la metodología de evaluación de ARC-AGI-3
La referencia humana está definida como “el segundo humano más rápido”, y la puntuación no se calcula por tasa simple de éxito, sino como el cuadrado de la eficiencia
Es decir, si un humano resuelve un problema en 10 pasos y el modelo lo hace en 100, solo recibe 1% de puntaje
Además, 100% solo significa que se resolvieron todos los niveles, no que se haya alcanzado nivel humano
Este diseño hace que, incluso si un modelo está al nivel humano, no pueda obtener 100%
El prompt es simple, y el modelo no puede usar más de 5 veces la cantidad de pasos que usa un humano
También se dice que dar más peso a los niveles finales busca detectar aprendizaje continuo
- Más que problemas, eso me parece un enfoque correcto. De hecho, me dejó una mejor impresión de ARC-AGI
- Que el prompt sea simple es algo que deberá resolverse en la competencia de Kaggle. Si conectan un LLM moderno, seguramente rendirá mucho mejor que participantes con límite de GPU
- La definición de referencia humana, al final, inevitablemente será arbitraria. Después de todo, el “humano promedio” o es analfabeto o ya está muerto
- En realidad, este diseño parece razonable. Quedar dentro del 80% superior respecto a la mayoría de las personas es fácil, y llegar a más de 95% también es posible si hay motivación
- De hecho, este método crea una prueba mucho más difícil para los LLM, así que las puntuaciones actuales se ven aún más impresionantes
Sobre la idea de que “si hay una brecha entre el aprendizaje de la IA y el de los humanos, entonces no es AGI”, me recuerda una analogía de la época de Deep Blue en los 90
Igual que decir “un avión no deja de volar porque no bate las alas como un pájaro”, aprender de forma distinta a los humanos no invalida la inteligencia
- Esa brecha no es solo una cuestión filosófica, sino de impacto económico. Si la brecha llega a 0, el trabajo intelectual humano sería reemplazado por completo. Incluso sin una AGI completa, la economía podría colapsar
- Me recuerda al texto de Dijkstra (EWD867). La analogía es que preguntar “¿pueden pensar las computadoras?” es tan inútil como preguntar “¿pueden nadar los submarinos?”
- La “G” de AGI significa General, pero los humanos tampoco lo somos. Un avión no es más versátil que un pájaro, pero sí amplía la movilidad
- Para mí, el debate sobre la AGI ya terminó. Las herramientas actuales ya son lo bastante útiles, e incluso ya se ven señales de ASI (inteligencia auto-mejorable). La competencia ARC-AGI solo es un experimento interesante para medir la situación actual
- La inteligencia no existe solo en forma humana. Lo importante es la utilidad de la salida. Aunque si tiene conciencia o no ya es una cuestión moral; como no se puede demostrar, la postura sería asumir por ahora que sí la tiene
Creo que el enfoque de ARC es una muy buena forma de evaluar AGI
Es una estructura simple: darle la misma entrada a humanos e IA y comparar el resultado
La palabra clave es “General”, y ARC es justamente un intento de medir esa generalidad
Que la IA sea útil o no es secundario. Esta prueba es, hasta ahora, el intento más convincente
Además, si le haces a una IA preguntas de tu especialidad, muchas veces responde mal. Tendemos a confundir conocimiento con inteligencia
- Creo que el término “General” está mal usado. Los humanos tampoco somos generales y tenemos capacidades muy disparejas. En lenguaje, los LLM ya superan a los humanos
- Esta prueba es un juego que requiere percepción visual, así que se parece a hacerle un examen de manejo a una persona ciega. Si el juego se convierte a texto, quizá un LLM lo haga mejor que un humano
- El ARC-AGI anterior se parecía a una prueba de IQ, pero esta versión es demasiado fácil. Si los LLM no lo resuelven, probablemente es por una incompatibilidad con el formato de entrada. Con un poco de entrenamiento en juegos basados en texto, parece que pronto lo resolverán
Al ver este tipo de benchmark, la duda que surge es si hay forma de impedir que OpenAI contrate personas para crear el dataset
- Pero la pregunta importante no es esa, sino “¿el modelo puede generalizar?”. ARC-AGI parece estar diseñado para evaluar resolución de problemas visuales de contexto largo y agency
Después de probar varios niveles, confirmé que definitivamente no soy AGI
- Habría que llamarlo NGI, o sea Natural General Intelligence
- Aunque la IA puede acceder a todo internet, no tiene límite de tiempo y no siente vergüenza por enviar muchísimas respuestas incorrectas. Esas condiciones son totalmente distintas a las de un examen humano
- También se escuchó la broma de “gracias por bajar el estándar de AGI”
Soy algo escéptico
Cualquier persona acostumbrada a los juegos lo pasará al 100%, pero una abuelita que usa una computadora por primera vez fracasará por completo. Lo mismo aplica para los LLM
Al final, un modelo entrenado con datos de este tipo de juegos se adaptará fácilmente, y eso no sería AGI
- Pero como los humanos también aprenden a jugar mediante aprendizaje, esta prueba no refleja aprendizaje humano a menos que se permita aprendizaje en línea
- Yo también, como gamer de 40 años, sentí que estos rompecabezas eran demasiado fáciles. En cuanto entiendes la regla, los resuelves de inmediato. Este tipo de problemas es mi área de especialidad
Vi este proyecto en persona durante un evento de lanzamiento de YC y me sentí inspirado por primera vez en mucho tiempo
También escuché que alguien que experimentaba con ARC2 descubrió una forma de mover un brazo robótico de manera más eficiente
O sea, el proceso de simplemente mejorar la puntuación terminó derivando en una innovación real en robótica
También planean ARC-4, 5 y 6, y dicen que en el futuro esperan modelos que resuelvan problemas con cero contexto
- Pero ese tipo de expansión también puede parecer simplemente mover la portería (goalpost moving)
No sé si ARC-AGI está realmente relacionado de forma directa con AGI
Al final, solo mide el rendimiento de los LLM en cierto tipo de juegos
Ya existen muchos juegos donde las computadoras superan ampliamente a los humanos, sin importar si los humanos son buenos o malos en ellos
Así que lo importante es si estos juegos realmente son representativos de la inteligencia
- El creador de ARC-AGI, Chollet, define la inteligencia como “qué tan bien funciona alguien en situaciones nuevas”. ARC-AGI mide exactamente esa capacidad
- Pero “AGI” se parece más a un término de marketing, y este tipo de benchmark sirve más para promoción que para medir productividad real
Yo fui uno de los testers humanos de este juego
Resolví 25 juegos en 90 minutos, y aunque las instrucciones decían minimizar la cantidad de acciones, en la práctica me enfoqué en resolverlos rápido por la recompensa por velocidad ($5/juego)
Así que es muy posible que los datos de referencia humana hayan registrado más acciones de las reales necesarias
Lo que más me gusta del leaderboard de ARC-AGI es la gráfica de rendimiento por costo
Gran parte de la mejora reciente en el rendimiento de la IA viene acompañada de mayor consumo de energía. Al final, si gastas más electricidad, obtienes mejores resultados

ARC-AGI-3 - el primer benchmark de razonamiento interactivo

Resumen de ARC-AGI-3

Funciones principales

Replay y evaluación

Herramientas y UI

Documentación

Recursos relacionados y comunidad

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News