Cómo lograr 50% de precisión en ARC-AGI con GPT-4
¿Qué es ARC-AGI?
- ARC-AGI es un dataset creado para evaluar la capacidad de razonamiento general de la IA.
- Está compuesto por problemas en los que se deben inferir reglas de transformación a partir de ejemplos de entrada y salida en forma de una cuadrícula (grid) hecha de celdas de colores.
- La precisión promedio de los humanos es de 85% en el conjunto de entrenamiento, pero el conjunto de prueba es mucho más difícil.
Mi método
- Usé GPT-4 para generar alrededor de 8,000 programas de Python por problema, y seleccioné los programas que producían la salida correcta.
- Mejoré significativamente el rendimiento con algunos enfoques y ajustes adicionales:
- Prompts few-shot: uso de prompts para realizar razonamiento paso a paso.
- Modificación de código: hacer que GPT-4 corrija parte de la implementación al ver los resultados de salida de los ejemplos.
- Ingeniería de características: proporcionar al modelo una mejor representación de la cuadrícula.
- Prompts especializados: usar prompts distintos según si cambia o no el tamaño de la cuadrícula.
Efecto de muestrear más
- El rendimiento mejora a medida que aumenta el número de muestras.
- Por ejemplo, con 1024 muestras se logró 25% de precisión, pero con 2048 muestras se logró 34%.
Efecto de mejores prompts y de la modificación de código
- La mejora de los prompts y la etapa de modificación de código son importantes para aumentar la precisión.
- En la versión final se logró 50% de precisión.
Limitaciones y predicciones
- La capacidad de percepción visual y de programación de GPT-4 es limitada.
- Se necesita más muestreo y mejores prompts.
- Es muy probable que la próxima generación de LLM mejore de forma importante el rendimiento en ARC-AGI.
Opinión de GN⁺
- Capacidad de percepción visual: la capacidad de percepción visual de GPT-4 es limitada, por lo que se necesita un mejor modelo de percepción visual.
- Capacidad de programación: GPT-4 comete con frecuencia errores simples al programar. Para mejorar esto, se necesitan mejores herramientas de depuración.
- Costo del muestreo: como se requiere mucho muestreo, el costo puede ser alto. Se necesitan métodos de muestreo más eficientes.
- Potencial futuro: es muy probable que la próxima generación de LLM mejore de forma importante el rendimiento en ARC-AGI. Esto podría convertirlo en un criterio importante para evaluar la capacidad de razonamiento general de la IA.
- Aplicaciones reales: hace falta investigar cómo capacidades de resolución de problemas como las de ARC-AGI podrían aprovecharse en aplicaciones reales.
1 comentarios
Opiniones en Hacker News
Cofundador del ARC Prize: La investigación de Ryan es un trabajo interesante y novedoso sobre "razonamiento con LLM", que usa GPT-4o para generar 8,000 programas en Python, seleccionar el programa correcto y aplicarlo a entradas de prueba adicionales. El resultado corresponde al conjunto público de evaluación y no está verificado, pero es prometedor. Felicita y agradece a Ryan por su esfuerzo.
Crítica al artículo: El artículo salta a la conclusión de que "los LLM actuales pueden desempeñarse bastante bien en ARC-AGI" a pesar de haber usado varios trucos manuales para obtener esos resultados. Los ataques contra Francois Chollet perjudican a la comunidad.
Opinión sobre GPT-4: GPT-4 es una AGI mala, y GPT-1 también era AGI. Así como la inteligencia humana se desarrolla gradualmente, GPT-4 puede verse como un cerebro pequeño especializado en pensamiento textual. Afirmar que ARC es el criterio absoluto de la inteligencia general pierde de vista el panorama más amplio de la inteligencia.
Primeros intentos con GPT-4: GPT-4 mostró un desempeño "decente" en los acertijos, pero a veces fallaba en las partes lógicas. El componente visoespacial es importante y podría requerirse un modelo multimodal. Generar soluciones en Python al azar es un enfoque "no humano".
Significado de manipular LLM: Que mucha gente manipule LLM para hacerlos pasar pruebas de AGI le quita sentido al propósito de esas pruebas. Sin embargo, descubrir qué tipo de manipulación funciona sí es útil. La mayoría de los problemas terminan reduciéndose al reconocimiento de patrones.
Puntos principales:
Defectos de ARC-AGI: ARC-AGI parece tener defectos. Lo que podría explicarse como AGI también puede explicarse por lo incluido en el conjunto de entrenamiento.
Sistema 2 y AGI: Generar y evaluar muchos programas puede cumplir el rol de sistema 2 en AGI. Esto es similar a la forma en que los humanos piensan de manera inteligente.
Importancia de la comprensión física: Este desafío depende de la comprensión física, la percepción espacial y los límites entre objetos. Es importante identificar objetos y mapear transformaciones o relaciones. Puede resolverse combinando búsqueda de programas y LLM.
Capacidad de planificación de GPT-4: GPT-4 puede generar planes similares a los descritos en el artículo. Esto incluye extracción de características, síntesis de programas y mejora iterativa. Tiene debilidades en programación y en entrada visual.