3 puntos por GN⁺ 2024-09-13 | 1 comentarios | Compartir por WhatsApp
  • Se presentó OpenAI o1, un nuevo modelo de lenguaje grande entrenado con aprendizaje por refuerzo para realizar razonamiento complejo
  • o1 puede generar una larga cadena interna de pensamiento (chain of thought) antes de responder al usuario
  • o1 alcanzó el percentil 89 en problemas de programación competitiva (Codeforces), el nivel de uno de los 500 mejores estudiantes de EE. UU. en la clasificatoria de la Olimpiada Matemática Estadounidense (AIME), y superó la precisión de nivel doctorado humano en el benchmark de problemas de física, biología y química (GPQA)
  • Aunque todavía sigue el trabajo para que sea tan fácil de usar como los modelos actuales, se lanzó de inmediato una primera versión de este modelo, OpenAI o1-preview, para ChatGPT y usuarios confiables de la API

Evaluación

  • o1 muestra un rendimiento muy superior al de GPT-4o en la mayoría de las tareas centradas en razonamiento
    • En el examen AIME 2024, GPT-4o resolvió en promedio solo el 12% de los problemas (1.8/15), mientras que o1 logró en promedio el 74% (11.1/15) con una sola muestra, el 83% (12.5/15) por consenso entre 64 muestras, y el 93% (13.9/15) al reordenar 1000 muestras con una función de puntuación entrenada
    • En GPQA Diamond, o1 superó el rendimiento de expertos humanos que ponen a prueba conocimientos especializados en química, física y biología, convirtiéndose en el primer modelo en lograrlo en este benchmark
    • Con la capacidad de percepción visual activada, o1 obtuvo 78.2% en MMMU y se convirtió en el primer modelo capaz de competir con expertos humanos
    • Superó a GPT-4o en 54 de las 57 subcategorías de MMLU

Cadena de pensamiento (chain of thought)

  • Así como una persona puede pensar durante mucho tiempo antes de responder una pregunta difícil, o1 usa una cadena de pensamiento cuando intenta resolver un problema
  • Mediante aprendizaje por refuerzo, o1 aprende a refinar su cadena de pensamiento y a mejorar las estrategias para usarla
    • Aprende a reconocer y corregir errores
    • Aprende a descomponer pasos complicados en otros más simples
    • Aprende a probar otros enfoques cuando el método actual no funciona

Programación

  • Se entrenó un modelo para mejorar aún más sus habilidades de programación, logrando 213 puntos y ubicándose en el percentil 49 en la Olimpiada Internacional de Informática (IOI) 2024
    • Este modelo participó en la IOI 2024 bajo las mismas condiciones que los participantes humanos
    • Tuvo 10 horas para resolver 6 problemas algorítmicos desafiantes y se permitieron 50 envíos por problema
  • Si se permiten 10,000 envíos, el rendimiento del modelo mejora significativamente
    • Alcanzó 362.14 puntos incluso sin una estrategia de selección en tiempo de prueba, superando el umbral de medalla de oro
  • También se demostró la capacidad de programación del modelo simulando competencias de programación competitiva organizadas en Codeforces
    • GPT-4o alcanzó una calificación ELO de 808, equivalente al percentil 11 entre competidores humanos
    • Este modelo superó ampliamente tanto a GPT-4o como a o1, logrando una calificación ELO de 1807 y un rendimiento mejor que el 93% de los competidores

Seguridad

  • El razonamiento con cadena de pensamiento ofrece nuevas oportunidades para alineación y seguridad
    • Se descubrió que integrar políticas sobre el comportamiento del modelo en la cadena de pensamiento del modelo de razonamiento es una forma eficaz de enseñar de manera robusta valores y principios humanos
    • Se encontró evidencia de que, al enseñar al modelo reglas de seguridad y cómo razonar según el contexto, la capacidad de razonamiento ayuda directamente a la robustez del modelo
  • Se considera que usar cadena de pensamiento representa un avance importante en seguridad y alineación, porque permite observar que el modelo piensa de manera legítima y porque razonar sobre reglas de seguridad resulta más sólido frente a escenarios fuera de distribución
  • Antes del despliegue se realizaron pruebas de seguridad y ejercicios de red teaming para destacar las mejoras
    • Se observó que el razonamiento con cadena de pensamiento contribuyó a mejorar las capacidades en todas las evaluaciones

Conclusión

  • o1 impulsa de forma significativa el estado del arte en razonamiento de IA
  • Se planea lanzar versiones mejoradas de este modelo de manera iterativa
  • Se espera que o1 y sus modelos sucesores abran muchos nuevos casos de uso de IA en ciencia, programación, matemáticas y áreas relacionadas
  • Se espera que usuarios y desarrolladores de API descubran cómo o1 puede mejorar su trabajo diario

Opinión de GN⁺

  • OpenAI o1 es un modelo con una gran capacidad para resolver problemas complejos y razonar, y está mostrando un rendimiento que supera el nivel humano. En particular, parece tener habilidades de nivel experto en matemáticas, ciencia y programación, por lo que podría ser de gran ayuda para investigación y aplicaciones en esas áreas
  • Resulta impresionante que use el enfoque de cadena de pensamiento (Chain of Thought) para permitir observar y comprender el proceso de razonamiento del modelo. Esto será de gran ayuda para entender y controlar el comportamiento del modelo. Sin embargo, la decisión de no exponer ese proceso generado directamente al usuario puede ser motivo de controversia
  • También es destacable la integración de reglas de política en el proceso de pensamiento para reforzar la seguridad del modelo. Aun así, no parece ser perfecto todavía, por lo que se ve necesaria una supervisión y mejora continuas
  • o1 es un modelo muy potente, pero no es infalible. Siguen existiendo limitaciones generales de los modelos de IA, como sesgos o cuestiones éticas. Junto con el avance técnico, hará falta un esfuerzo constante para superar estas limitaciones

1 comentarios

 
GN⁺ 2024-09-13
Opiniones de Hacker News
  • Primera opinión

    • Resumen de información práctica obtenida del documento
      • Para acceder, hay que estar en el nivel 5, haber pagado un total de $1,000 y que hayan pasado más de 30 días desde el primer pago exitoso
      • El precio es de $15 por cada millón de tokens de entrada y $60 por cada millón de tokens de salida
      • La ventana de contexto es de 128k tokens, con una salida máxima de 32,768 tokens
      • También hay una versión mini con el doble de tokens máximos de salida, y cuesta $3 por cada millón de tokens de entrada y $12 por cada millón de tokens de salida
      • La versión especializada en programación mencionada en la publicación del blog no está disponible
      • No está claro si el razonamiento oculto de chain of thought se cobra como tokens de salida pagados
  • Segunda opinión

    • Hay escepticismo porque los dos primeros gráficos de precisión no tienen etiquetas específicas
      • No se puede saber cuánto tiempo tomó el resultado de la prueba con 80% de precisión
      • No está claro si los gráficos del inicio del artículo están conectados con la resolución de problemas de 10 horas en la sección de programación
      • Hay muchos datos, pero los de los dos primeros gráficos son opacos y eso les quita credibilidad
  • Tercera opinión

    • El ejemplo de "seguridad" es ridículo
      • OpenAI dice que es inaceptable que un LLM proporcione instrucciones detalladas para sintetizar estricnina, pero aun así publica instrucciones "inseguras" generadas previamente
      • Hay una obsesión excesiva con la seguridad respecto a que un LLM comparta conocimiento
  • Cuarta opinión

    • El rendimiento del modelo depende del chain of thought, pero no se entrega a los usuarios por razones como la ventaja competitiva
      • Desde el lanzamiento de GPT4, se volvió común ajustar finamente modelos que no son de OpenAI usando salidas de GPT4
      • La razón por la que OpenAI no entrega respuestas de chain of thought es para dificultar la reproducción de resultados
  • Quinta opinión

    • Usó el modelo GPT-4 para ayudar a hacer ingeniería inversa del protocolo binario Bluetooth de un ventilador de cocina
      • Los modelos o1-preview y o1-mini entendieron los patrones y los decodificaron
      • El modelo GPT4o dio los mismos resultados de antes
      • Un avance sorprendente
  • Sexta opinión

    • Hay muchos comentarios que no entienden la diferencia entre el chain-of-thought prompting y aprender estrategias de chain of thought mediante aprendizaje por refuerzo
      • A través del aprendizaje por refuerzo, o1 pule su chain of thought y mejora sus estrategias
  • Séptima opinión

    • Fue interesante leer el Chain of Thought del ejemplo de cifrado
      • Escribir la lógica lentamente y razonar sobre ella mejora el pensamiento lógico
  • Octava opinión

    • o1 funciona bien para entender problemas de subtítulos de un programa de TV neerlandés
      • Cuando le preguntaron por qué la u con diéresis en los subtítulos aparecía como 1/4, explicó correctamente que se trataba de un problema de codificación
  • Novena opinión

    • Obtuvo resultados decepcionantes al descifrar un texto cifrado ROT
      • Muchos pasos estaban equivocados o no se seguían
      • Es difícil encontrar un patrón para obtener utilidad del motor de chain of thought
  • Décima opinión

    • El logro técnico es grande, pero preocupa la utilidad de la herramienta porque los LLM siguen siendo vulnerables a las alucinaciones
      • Existe el riesgo de que usuarios no expertos dependan de respuestas incorrectas
      • Por ejemplo, dio información errónea al evaluar un algoritmo de optimización del orden de joins en bases de datos
  • Undécima opinión

    • Se pregunta cuánto del aumento de capacidad se debe a aprendizaje por refuerzo adicional sobre modelos existentes en vez de ser una arquitectura completamente nueva
      • Sugiere que la mejora podría provenir más del entrenamiento y la optimización que de un cambio fundamental en la estructura del modelo
  • Duodécima opinión

    • Aunque las demostraciones son impresionantes, sigue habiendo dudas sobre la reproducibilidad y la evaluación independiente
      • Sin acceso a detalles completos del benchmark y del procedimiento, es difícil medir el verdadero avance