OpenAI O3 logra una puntuación extraordinariamente alta en ARC-AGI-PUB

(arcprize.org)

3 puntos por GN⁺ 2024-12-21 | 1 comentarios | Compartir por WhatsApp

El sistema o3 de OpenAI estableció un nuevo récord en el conjunto de datos público ARC-AGI-1
- Semi-Private Evaluation: alcanzó 75.7% en modo de alta eficiencia
- Modo de alto costo (172 veces más cómputo): registró 87.5%
Un avance importante que muestra una nueva capacidad para resolver tareas y adaptarse, superando las limitaciones de los modelos de la familia GPT
GPT-3 (2020) 0% → GPT-4o (2024) 5% → avance hasta 75.7% con o3
Los resultados de ARC-AGI-1 ofrecen una nueva intuición sobre la mejora de las capacidades de la IA

El futuro de ARC Prize y la investigación en AGI

ARC Prize busca servir como una meta orientadora para la investigación en AGI
Lanzamiento previsto de ARC-AGI-2 en 2025:
- Compuesto por problemas fáciles para humanos, pero difíciles para la IA
- Objetivo de desarrollar nuevas soluciones eficientes y de código abierto
El desempeño de o3 subraya la necesidad de diseñar nuevos benchmarks de AGI

Resultados de OpenAI o3 en la prueba ARC-AGI

Conjunto de datos y método de prueba

Semi-Private Eval: 100 tareas no públicas usadas para evitar sobreajuste
Public Eval: 400 tareas públicas
Las pruebas se realizaron con dos configuraciones de cómputo: alta eficiencia (6 muestras) y baja eficiencia (1024 muestras)

Principales resultados (alta eficiencia vs baja eficiencia)

Semi-Private Eval:
- Alta eficiencia: 75.7% / costo de $20 / 1.3 minutos por tarea
- Baja eficiencia: 87.5% / 13.8 minutos por tarea
Public Eval:
- Alta eficiencia: 82.8% / costo de $17
- Baja eficiencia: 91.5%

Relación entre eficiencia y desempeño

La puntuación de alta eficiencia ocupa el primer lugar bajo el criterio de ARC-AGI-Pub (menos de $10,000)
La puntuación de baja eficiencia sugiere que más cómputo mejora el rendimiento, pero con un costo elevado
o3 no logró este resultado solo aumentando el cómputo. También hubo una mejora fundamental en la capacidad de adaptación de la IA

Debate sobre la AGI

Diferencias entre ARC-AGI y AGI

ARC-AGI es una herramienta de investigación para evaluar la capacidad de generalización de la IA
o3 mostró un desempeño sobresaliente en ARC-AGI, pero sigue siendo insuficiente para considerarlo AGI
- Existen casos en los que falla en tareas fáciles
- En el futuro ARC-AGI-2, existe la posibilidad de que la puntuación caiga por debajo de 30%

Principales diferencias de o3

Mejora en la capacidad de manejar tareas nuevas y adaptarse frente a los modelos GPT previos
Introducción de un método de exploración y ejecución de programas en lenguaje natural:
- Durante la prueba, explora el "proceso de razonamiento (Chain of Thought)" para resolver tareas
- Un enfoque similar a la búsqueda en árbol Monte Carlo
- Se programa en forma de generar y ejecutar instrucciones en lenguaje natural

Comparación con modelos GPT previos

Los GPT previos operaban con un esquema de "almacenar → recuperar → aplicar"
Su limitación era la poca capacidad de adaptación ante tareas nuevas
o3 tiene la capacidad de recombinar funciones existentes para adaptarse a tareas nuevas

Próximas líneas de investigación

Análisis open source de o3

ARC Prize busca desarrollar soluciones eficientes y de código abierto
Publicación de los datos de prueba de o3 y de las tareas no resueltas:
- Se invita a la comunidad a analizar las características de las tareas que no pudieron resolverse
- Es posible debatirlo en el canal de Discord y en GitHub

Benchmark de nueva generación

ARC-AGI-2 está en desarrollo:
- Lanzamiento previsto para finales del primer trimestre de 2025
- Un diseño completamente nuevo que se aparta del formato anterior de ARC-AGI
La fundación ARC Prize planea seguir desarrollando nuevos benchmarks para la investigación en AGI

Conclusión

OpenAI o3 es un logro revolucionario que demuestra una capacidad de adaptación de IA que va más allá de los límites de la familia GPT
La introducción de la exploración de programas en lenguaje natural guiada por LLM abre un nuevo campo
De cara al futuro, se necesita investigación para equilibrar eficiencia y desempeño, así como colaboración mediante la apertura del código

1 comentarios

GN⁺ 2024-12-21

Opiniones de Hacker News

La eficiencia se vuelve importante. Se usa el término ARC-AGI-TUNED para insinuar que se utilizaron muchos recursos de cómputo. En comparación con el costo que le toma a un humano resolver los acertijos de ARC-AGI, con el cómputo actual el costo del razonamiento a nivel humano sigue siendo bastante alto.
Descifrar patrones en lenguaje natural es más complejo que los acertijos. Si la IA se entrena para resolver acertijos, generar datos de entrenamiento sobre medios externos resulta difícil. Es impresionante inferir la respuesta de patrones de bloques con un entrenamiento adicional mínimo.
La tarea de programación de o3-mini no era tan difícil. Le di la tarea a Claude 3.5 Sonnet y la resolvió en el primer intento.
ARC de Francois Chollet es un benchmark de LLM muy interesante y desafiante. Muchas personas criticaron que ARC no representa el verdadero razonamiento, pero demuestra que lo que ARC mide es importante para el razonamiento.
El rendimiento humano es de 85% y o3 high alcanza 87.5%. Esto significa que existe un algoritmo capaz de lograr rendimiento a nivel humano. Explica por qué se siente que AGI está más cerca.
o3 incluye aspectos esenciales de la AGI. Resolver problemas de ARC requiere usar varios conocimientos clave y aplicar el nivel de abstracción adecuado.
El costo de ejecución del modelo o3 es muy alto. Sin embargo, a nivel de Estado podría ser un avance importante incluso si no resulta económico. Si una IA con inteligencia similar a la humana pudiera ofrecerse bajo demanda, su impacto podría aparecer antes de lo esperado.
ARC-AGI no significa que se haya alcanzado la AGI. o3 todavía falla en tareas fáciles. El benchmark ARC-AGI-2 seguirá siendo un desafío para o3.
Ni ARC ni ningún benchmark deben confundirse con la verdadera inteligencia general. La inteligencia general probablemente solo podrá identificarse con una ventaja considerable de retrospectiva.

OpenAI O3 logra una puntuación extraordinariamente alta en ARC-AGI-PUB

El futuro de ARC Prize y la investigación en AGI

Resultados de OpenAI o3 en la prueba ARC-AGI

Conjunto de datos y método de prueba

Principales resultados (alta eficiencia vs baja eficiencia)

Relación entre eficiencia y desempeño

Debate sobre la AGI

Diferencias entre ARC-AGI y AGI

Principales diferencias de o3

Comparación con modelos GPT previos

Próximas líneas de investigación

Análisis open source de o3

Benchmark de nueva generación

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News