- ARC-AGI-3 es el primer benchmark de razonamiento interactivo para medir la inteligencia a nivel humano de agentes de IA, y evalúa la exploración de entornos y la capacidad de aprendizaje adaptativo
- Todas las tareas están compuestas por entornos que los humanos pueden resolver, y miden la eficiencia en la adquisición de habilidades con el tiempo y la capacidad de planificación a largo plazo
- Proporciona objetivos claros y retroalimentación sin conocimiento previo, y mantiene una estructura de tareas novedosa que evita enfoques basados en memorización
- Mediante visualización de replays, toolkit para desarrolladores y UI de evaluación, permite verificar de forma transparente el comportamiento del agente y su proceso de razonamiento
- Con el conjunto público de juegos, documentación, SDK y canales comunitarios, facilita la participación en la competencia ARC Prize 2026 y las pruebas de agentes
Resumen de ARC-AGI-3
- ARC-AGI-3 fue diseñado como un benchmark de razonamiento interactivo para medir la inteligencia a nivel humano de agentes de IA
- Evalúa la capacidad del agente para explorar entornos nuevos, identificar objetivos, construir un modelo del mundo adaptable y seguir aprendiendo
- Una puntuación del 100% significa que la IA resuelve todos los juegos con la misma eficiencia que un humano
- No se trata de resolver acertijos estáticos, sino de aprender a través de la experiencia dentro del entorno y ajustar estrategias
- Debe realizar percepción, selección de acciones y adaptación de estrategias sin instrucciones en lenguaje natural
Funciones principales
- Incluye ejecuciones reproducibles (run), toolkit para desarrolladores para integración de agentes y una UI transparente para evaluación
-
Replay y evaluación
- Visualiza las acciones del agente en formato de replay para seguir en orden temporal la toma de decisiones, las acciones y el proceso de razonamiento
- Se ofrece un replay de ejemplo
-
Herramientas y UI
- Permite integrar agentes mediante el toolkit de ARC-AGI-3 y probar e iterar con una UI interactiva
- Puede ejecutarse directamente desde el enlace Play and test
-
Documentación
- Proporciona la documentación necesaria para construir agentes, como configuración del entorno, uso de la API y guía de integración
- Se puede acceder desde la página de documentación
Recursos relacionados y comunidad
- Public Game Set: conjunto público de juegos
- Docs + SDK: documentación de desarrollo y SDK
- ARC Prize 2026 Track: pista de la competencia 2026
- Technical Paper: informe técnico
- Los participantes pueden elegir distintos entornos de juego (
ar25, bp35, ls20, etc.) para probar sus propios agentes
- La comunidad oficial opera canales en Discord, Twitter, YouTube y GitHub
- A través de ARC Prize 2026 se puede seguir la competencia oficial y sus actualizaciones
1 comentarios
Opiniones de Hacker News
Al ver el tuit de scaling01, se señalan varios problemas con la metodología de evaluación de ARC-AGI-3
La referencia humana está definida como “el segundo humano más rápido”, y la puntuación no se calcula por tasa simple de éxito, sino como el cuadrado de la eficiencia
Es decir, si un humano resuelve un problema en 10 pasos y el modelo lo hace en 100, solo recibe 1% de puntaje
Además, 100% solo significa que se resolvieron todos los niveles, no que se haya alcanzado nivel humano
Este diseño hace que, incluso si un modelo está al nivel humano, no pueda obtener 100%
El prompt es simple, y el modelo no puede usar más de 5 veces la cantidad de pasos que usa un humano
También se dice que dar más peso a los niveles finales busca detectar aprendizaje continuo
Sobre la idea de que “si hay una brecha entre el aprendizaje de la IA y el de los humanos, entonces no es AGI”, me recuerda una analogía de la época de Deep Blue en los 90
Igual que decir “un avión no deja de volar porque no bate las alas como un pájaro”, aprender de forma distinta a los humanos no invalida la inteligencia
Creo que el enfoque de ARC es una muy buena forma de evaluar AGI
Es una estructura simple: darle la misma entrada a humanos e IA y comparar el resultado
La palabra clave es “General”, y ARC es justamente un intento de medir esa generalidad
Que la IA sea útil o no es secundario. Esta prueba es, hasta ahora, el intento más convincente
Además, si le haces a una IA preguntas de tu especialidad, muchas veces responde mal. Tendemos a confundir conocimiento con inteligencia
Al ver este tipo de benchmark, la duda que surge es si hay forma de impedir que OpenAI contrate personas para crear el dataset
Después de probar varios niveles, confirmé que definitivamente no soy AGI
Soy algo escéptico
Cualquier persona acostumbrada a los juegos lo pasará al 100%, pero una abuelita que usa una computadora por primera vez fracasará por completo. Lo mismo aplica para los LLM
Al final, un modelo entrenado con datos de este tipo de juegos se adaptará fácilmente, y eso no sería AGI
Vi este proyecto en persona durante un evento de lanzamiento de YC y me sentí inspirado por primera vez en mucho tiempo
También escuché que alguien que experimentaba con ARC2 descubrió una forma de mover un brazo robótico de manera más eficiente
O sea, el proceso de simplemente mejorar la puntuación terminó derivando en una innovación real en robótica
También planean ARC-4, 5 y 6, y dicen que en el futuro esperan modelos que resuelvan problemas con cero contexto
No sé si ARC-AGI está realmente relacionado de forma directa con AGI
Al final, solo mide el rendimiento de los LLM en cierto tipo de juegos
Ya existen muchos juegos donde las computadoras superan ampliamente a los humanos, sin importar si los humanos son buenos o malos en ellos
Así que lo importante es si estos juegos realmente son representativos de la inteligencia
Yo fui uno de los testers humanos de este juego
Resolví 25 juegos en 90 minutos, y aunque las instrucciones decían minimizar la cantidad de acciones, en la práctica me enfoqué en resolverlos rápido por la recompensa por velocidad ($5/juego)
Así que es muy posible que los datos de referencia humana hayan registrado más acciones de las reales necesarias
Lo que más me gusta del leaderboard de ARC-AGI es la gráfica de rendimiento por costo
Gran parte de la mejora reciente en el rendimiento de la IA viene acompañada de mayor consumo de energía. Al final, si gastas más electricidad, obtienes mejores resultados