- Se presentó OpenAI o1, un nuevo modelo de lenguaje grande entrenado con aprendizaje por refuerzo para realizar razonamiento complejo
- o1 puede generar una larga cadena interna de pensamiento (
chain of thought) antes de responder al usuario
- o1 alcanzó el percentil 89 en problemas de programación competitiva (Codeforces), el nivel de uno de los 500 mejores estudiantes de EE. UU. en la clasificatoria de la Olimpiada Matemática Estadounidense (AIME), y superó la precisión de nivel doctorado humano en el benchmark de problemas de física, biología y química (GPQA)
- Aunque todavía sigue el trabajo para que sea tan fácil de usar como los modelos actuales, se lanzó de inmediato una primera versión de este modelo, OpenAI o1-preview, para ChatGPT y usuarios confiables de la API
Evaluación
- o1 muestra un rendimiento muy superior al de GPT-4o en la mayoría de las tareas centradas en razonamiento
- En el examen AIME 2024, GPT-4o resolvió en promedio solo el 12% de los problemas (1.8/15), mientras que o1 logró en promedio el 74% (11.1/15) con una sola muestra, el 83% (12.5/15) por consenso entre 64 muestras, y el 93% (13.9/15) al reordenar 1000 muestras con una función de puntuación entrenada
- En GPQA Diamond, o1 superó el rendimiento de expertos humanos que ponen a prueba conocimientos especializados en química, física y biología, convirtiéndose en el primer modelo en lograrlo en este benchmark
- Con la capacidad de percepción visual activada, o1 obtuvo 78.2% en MMMU y se convirtió en el primer modelo capaz de competir con expertos humanos
- Superó a GPT-4o en 54 de las 57 subcategorías de MMLU
Cadena de pensamiento (chain of thought)
- Así como una persona puede pensar durante mucho tiempo antes de responder una pregunta difícil, o1 usa una cadena de pensamiento cuando intenta resolver un problema
- Mediante aprendizaje por refuerzo, o1 aprende a refinar su cadena de pensamiento y a mejorar las estrategias para usarla
- Aprende a reconocer y corregir errores
- Aprende a descomponer pasos complicados en otros más simples
- Aprende a probar otros enfoques cuando el método actual no funciona
Programación
- Se entrenó un modelo para mejorar aún más sus habilidades de programación, logrando 213 puntos y ubicándose en el percentil 49 en la Olimpiada Internacional de Informática (IOI) 2024
- Este modelo participó en la IOI 2024 bajo las mismas condiciones que los participantes humanos
- Tuvo 10 horas para resolver 6 problemas algorítmicos desafiantes y se permitieron 50 envíos por problema
- Si se permiten 10,000 envíos, el rendimiento del modelo mejora significativamente
- Alcanzó 362.14 puntos incluso sin una estrategia de selección en tiempo de prueba, superando el umbral de medalla de oro
- También se demostró la capacidad de programación del modelo simulando competencias de programación competitiva organizadas en Codeforces
- GPT-4o alcanzó una calificación ELO de 808, equivalente al percentil 11 entre competidores humanos
- Este modelo superó ampliamente tanto a GPT-4o como a o1, logrando una calificación ELO de 1807 y un rendimiento mejor que el 93% de los competidores
Seguridad
- El razonamiento con cadena de pensamiento ofrece nuevas oportunidades para alineación y seguridad
- Se descubrió que integrar políticas sobre el comportamiento del modelo en la cadena de pensamiento del modelo de razonamiento es una forma eficaz de enseñar de manera robusta valores y principios humanos
- Se encontró evidencia de que, al enseñar al modelo reglas de seguridad y cómo razonar según el contexto, la capacidad de razonamiento ayuda directamente a la robustez del modelo
- Se considera que usar cadena de pensamiento representa un avance importante en seguridad y alineación, porque permite observar que el modelo piensa de manera legítima y porque razonar sobre reglas de seguridad resulta más sólido frente a escenarios fuera de distribución
- Antes del despliegue se realizaron pruebas de seguridad y ejercicios de red teaming para destacar las mejoras
- Se observó que el razonamiento con cadena de pensamiento contribuyó a mejorar las capacidades en todas las evaluaciones
Conclusión
- o1 impulsa de forma significativa el estado del arte en razonamiento de IA
- Se planea lanzar versiones mejoradas de este modelo de manera iterativa
- Se espera que o1 y sus modelos sucesores abran muchos nuevos casos de uso de IA en ciencia, programación, matemáticas y áreas relacionadas
- Se espera que usuarios y desarrolladores de API descubran cómo o1 puede mejorar su trabajo diario
Opinión de GN⁺
- OpenAI o1 es un modelo con una gran capacidad para resolver problemas complejos y razonar, y está mostrando un rendimiento que supera el nivel humano. En particular, parece tener habilidades de nivel experto en matemáticas, ciencia y programación, por lo que podría ser de gran ayuda para investigación y aplicaciones en esas áreas
- Resulta impresionante que use el enfoque de cadena de pensamiento (Chain of Thought) para permitir observar y comprender el proceso de razonamiento del modelo. Esto será de gran ayuda para entender y controlar el comportamiento del modelo. Sin embargo, la decisión de no exponer ese proceso generado directamente al usuario puede ser motivo de controversia
- También es destacable la integración de reglas de política en el proceso de pensamiento para reforzar la seguridad del modelo. Aun así, no parece ser perfecto todavía, por lo que se ve necesaria una supervisión y mejora continuas
- o1 es un modelo muy potente, pero no es infalible. Siguen existiendo limitaciones generales de los modelos de IA, como sesgos o cuestiones éticas. Junto con el avance técnico, hará falta un esfuerzo constante para superar estas limitaciones
1 comentarios
Opiniones de Hacker News
Primera opinión
Segunda opinión
Tercera opinión
Cuarta opinión
Quinta opinión
Sexta opinión
Séptima opinión
Octava opinión
Novena opinión
Décima opinión
Undécima opinión
Duodécima opinión