- El sistema o3 de OpenAI estableció un nuevo récord en el conjunto de datos público ARC-AGI-1
- Semi-Private Evaluation: alcanzó 75.7% en modo de alta eficiencia
- Modo de alto costo (172 veces más cómputo): registró 87.5%
- Un avance importante que muestra una nueva capacidad para resolver tareas y adaptarse, superando las limitaciones de los modelos de la familia GPT
- GPT-3 (2020) 0% → GPT-4o (2024) 5% → avance hasta 75.7% con o3
- Los resultados de ARC-AGI-1 ofrecen una nueva intuición sobre la mejora de las capacidades de la IA
El futuro de ARC Prize y la investigación en AGI
- ARC Prize busca servir como una meta orientadora para la investigación en AGI
- Lanzamiento previsto de ARC-AGI-2 en 2025:
- Compuesto por problemas fáciles para humanos, pero difíciles para la IA
- Objetivo de desarrollar nuevas soluciones eficientes y de código abierto
- El desempeño de o3 subraya la necesidad de diseñar nuevos benchmarks de AGI
Resultados de OpenAI o3 en la prueba ARC-AGI
Conjunto de datos y método de prueba
- Semi-Private Eval: 100 tareas no públicas usadas para evitar sobreajuste
- Public Eval: 400 tareas públicas
- Las pruebas se realizaron con dos configuraciones de cómputo: alta eficiencia (6 muestras) y baja eficiencia (1024 muestras)
Principales resultados (alta eficiencia vs baja eficiencia)
- Semi-Private Eval:
- Alta eficiencia: 75.7% / costo de $20 / 1.3 minutos por tarea
- Baja eficiencia: 87.5% / 13.8 minutos por tarea
- Public Eval:
- Alta eficiencia: 82.8% / costo de $17
- Baja eficiencia: 91.5%
Relación entre eficiencia y desempeño
- La puntuación de alta eficiencia ocupa el primer lugar bajo el criterio de ARC-AGI-Pub (menos de $10,000)
- La puntuación de baja eficiencia sugiere que más cómputo mejora el rendimiento, pero con un costo elevado
- o3 no logró este resultado solo aumentando el cómputo. También hubo una mejora fundamental en la capacidad de adaptación de la IA
Debate sobre la AGI
Diferencias entre ARC-AGI y AGI
- ARC-AGI es una herramienta de investigación para evaluar la capacidad de generalización de la IA
- o3 mostró un desempeño sobresaliente en ARC-AGI, pero sigue siendo insuficiente para considerarlo AGI
- Existen casos en los que falla en tareas fáciles
- En el futuro ARC-AGI-2, existe la posibilidad de que la puntuación caiga por debajo de 30%
Principales diferencias de o3
- Mejora en la capacidad de manejar tareas nuevas y adaptarse frente a los modelos GPT previos
- Introducción de un método de exploración y ejecución de programas en lenguaje natural:
- Durante la prueba, explora el "proceso de razonamiento (Chain of Thought)" para resolver tareas
- Un enfoque similar a la búsqueda en árbol Monte Carlo
- Se programa en forma de generar y ejecutar instrucciones en lenguaje natural
Comparación con modelos GPT previos
- Los GPT previos operaban con un esquema de "almacenar → recuperar → aplicar"
- Su limitación era la poca capacidad de adaptación ante tareas nuevas
- o3 tiene la capacidad de recombinar funciones existentes para adaptarse a tareas nuevas
Próximas líneas de investigación
Análisis open source de o3
- ARC Prize busca desarrollar soluciones eficientes y de código abierto
- Publicación de los datos de prueba de o3 y de las tareas no resueltas:
- Se invita a la comunidad a analizar las características de las tareas que no pudieron resolverse
- Es posible debatirlo en el canal de Discord y en GitHub
Benchmark de nueva generación
- ARC-AGI-2 está en desarrollo:
- Lanzamiento previsto para finales del primer trimestre de 2025
- Un diseño completamente nuevo que se aparta del formato anterior de ARC-AGI
- La fundación ARC Prize planea seguir desarrollando nuevos benchmarks para la investigación en AGI
Conclusión
- OpenAI o3 es un logro revolucionario que demuestra una capacidad de adaptación de IA que va más allá de los límites de la familia GPT
- La introducción de la exploración de programas en lenguaje natural guiada por LLM abre un nuevo campo
- De cara al futuro, se necesita investigación para equilibrar eficiencia y desempeño, así como colaboración mediante la apertura del código
1 comentarios
Opiniones de Hacker News
La eficiencia se vuelve importante. Se usa el término ARC-AGI-TUNED para insinuar que se utilizaron muchos recursos de cómputo. En comparación con el costo que le toma a un humano resolver los acertijos de ARC-AGI, con el cómputo actual el costo del razonamiento a nivel humano sigue siendo bastante alto.
Descifrar patrones en lenguaje natural es más complejo que los acertijos. Si la IA se entrena para resolver acertijos, generar datos de entrenamiento sobre medios externos resulta difícil. Es impresionante inferir la respuesta de patrones de bloques con un entrenamiento adicional mínimo.
La tarea de programación de o3-mini no era tan difícil. Le di la tarea a Claude 3.5 Sonnet y la resolvió en el primer intento.
ARC de Francois Chollet es un benchmark de LLM muy interesante y desafiante. Muchas personas criticaron que ARC no representa el verdadero razonamiento, pero demuestra que lo que ARC mide es importante para el razonamiento.
El rendimiento humano es de 85% y o3 high alcanza 87.5%. Esto significa que existe un algoritmo capaz de lograr rendimiento a nivel humano. Explica por qué se siente que AGI está más cerca.
o3 incluye aspectos esenciales de la AGI. Resolver problemas de ARC requiere usar varios conocimientos clave y aplicar el nivel de abstracción adecuado.
El costo de ejecución del modelo o3 es muy alto. Sin embargo, a nivel de Estado podría ser un avance importante incluso si no resulta económico. Si una IA con inteligencia similar a la humana pudiera ofrecerse bajo demanda, su impacto podría aparecer antes de lo esperado.
ARC-AGI no significa que se haya alcanzado la AGI. o3 todavía falla en tareas fáciles. El benchmark ARC-AGI-2 seguirá siendo un desafío para o3.
Ni ARC ni ningún benchmark deben confundirse con la verdadera inteligencia general. La inteligencia general probablemente solo podrá identificarse con una ventaja considerable de retrospectiva.