Notas sobre o1 de OpenAI, un modelo de chain-of-thought

(simonwillison.net)

6 puntos por GN⁺ 2024-09-14 | 2 comentarios | Compartir por WhatsApp

OpenAI lanzó los nuevos modelos de vista previa o1-preview y o1-mini (mini no es vista previa), antes conocidos con el nombre en clave "strawberry"

Entrenado con el enfoque Chain-of-Thought

OpenAI explica que estos modelos fueron diseñados para "pensar" durante más tiempo antes de responder
Estos nuevos modelos pueden verse como una extensión especializada del patrón de prompting de "pensar paso a paso"
En el artículo de OpenAI "Learning to Reason with LLMs" se explica que los nuevos modelos aprenden a mejorar su cadena de pensamiento y a refinar sus estrategias mediante aprendizaje por refuerzo
Esto significa que el modelo puede manejar mejor prompts complejos que requieren backtracking y más "razonamiento" que la simple predicción del siguiente token

Detalles de bajo nivel de la documentación de la API

Para entrada de imágenes, function calling y aplicaciones que requieren tiempos de respuesta consistentemente rápidos, los modelos GPT-4o y GPT-4o mini seguirán siendo una buena opción
Si desarrollas aplicaciones que requieren razonamiento profundo y pueden tolerar tiempos de respuesta más largos, los modelos o1 pueden ser una excelente opción
El acceso a la API para los nuevos modelos o1-preview y o1-mini está actualmente restringido a cuentas de nivel 5
No hay soporte para system prompts: el modelo usa la API existente de chat completions, pero solo se pueden enviar mensajes user y assistant
Tampoco hay soporte para streaming, uso de herramientas, llamadas por lotes ni entrada de imágenes
Dependiendo de la cantidad de razonamiento necesaria para resolver el problema, procesar una solicitud puede tomar desde unos segundos hasta varios minutos

Tokens de razonamiento ocultos

Se introducen "tokens de razonamiento" que no son visibles en la respuesta de la API, pero aun así se cobran y cuentan como tokens de salida
Para prompts que aprovechen bien estos nuevos modelos, OpenAI sugiere asignar un presupuesto de alrededor de 25,000 de estos tokens
El límite permitido de tokens de salida aumenta considerablemente: 32,768 para o1-preview y 65,536 para o1-mini
Último consejo de la documentación de la API: al proporcionar contexto adicional en retrieval-augmented generation (RAG), incluir solo la información más relevante para evitar que el modelo complique demasiado su respuesta

Tokens de razonamiento ocultos

Los tokens de razonamiento no son visibles en la API: se cobran, pero en realidad no puedes ver qué son
OpenAI da dos razones principales para esto:
1. Seguridad y cumplimiento de políticas: para evitar casos en los que los pasos intermedios puedan incluir información que viole políticas
2. Ventaja competitiva: para impedir que otros modelos aprendan del trabajo de razonamiento en el que OpenAI ha invertido
Hay inconformidad con esta decisión de política: la interpretabilidad y la transparencia son importantes, y ocultar detalles clave de la evaluación del prompt se siente como un retroceso

Ejemplos

OpenAI ofrece como ejemplos iniciales la generación de scripts Bash, la resolución de crucigramas y el cálculo del pH de soluciones químicas
Estos ejemplos muestran que la versión del modelo en la interfaz de ChatGPT expone detalles sobre la cadena de pensamiento, aunque no muestra los tokens de razonamiento sin procesar
OpenAI tiene dos nuevos cookbooks que muestran cómo usar razonamiento para validación de datos y generación de rutinas
En Twitter preguntaron si había ejemplos de prompts que fallaban en GPT-4o pero funcionaban en o1-preview
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
El investigador de OpenAI Jason Wei mencionó que los resultados en AIME y GPQA son muy buenos, pero no necesariamente se traducen en algo que los usuarios puedan percibir

Qué hay de nuevo en todo esto

A la comunidad le tomará tiempo definir buenas prácticas sobre cuándo y dónde aplicar estos modelos
Espero seguir usando principalmente GPT-4o (y Claude 3.5 Sonnet) por ahora, pero será realmente interesante ver cómo este nuevo tipo de modelo expande colectivamente nuestra forma de pensar sobre qué clase de tareas podemos resolver usando LLM
Es de esperarse que otros laboratorios de IA también empiecen a replicar algunos de estos resultados con sus propias versiones de modelos entrenados específicamente para aplicar este estilo de razonamiento Chain-of-Thought

Opinión de GN⁺

Los modelos entrenados con el enfoque chain-of-thought podrían ayudar a superar las limitaciones de los modelos actuales al resolver problemas complejos. En especial, se espera una mejora de desempeño en tareas que requieren razonamiento paso a paso y backtracking
Sin embargo, ocultar los tokens de razonamiento en la API genera preocupación desde la perspectiva de la interpretabilidad y la transparencia del modelo. Desde el punto de vista del usuario, puede volverse más difícil entender y verificar el proceso de razonamiento del modelo
Por ahora no está claro para qué tareas son más adecuados estos modelos ni cuáles son sus ventajas y desventajas frente a los modelos existentes. Parece necesario que la comunidad descubra distintos casos de uso y mejores prácticas
Otras empresas de IA, como los modelos de Claude de Anthropic o los de Cohere, también podrían adoptar métodos de entrenamiento similares de chain-of-thought. Se espera que la competencia en el mercado de modelos de razonamiento se intensifique aún más
En general, este anuncio de OpenAI es significativo porque propone un nuevo enfoque para mejorar la capacidad de razonamiento de los LLM. Aun así, hay algunos puntos preocupantes, como los tokens de razonamiento ocultos, por lo que parece que harán falta mejoras y ajustes más adelante

2 comentarios

naneg93 2024-09-14

Hay un error tipográfico :)

"Chai-of-Thought de forma de entrenamiento" → "Chain-of-Thought de forma de entrenamiento"

GN⁺ 2024-09-14

Opiniones de Hacker News

Problemas del modelo o1-preview
- Alucina bibliotecas y funciones que no existen
- Proporciona información incorrecta sobre hechos que no aparecen claramente en la web
- No hay forma de evaluar si la información generada por el modelo es verdadera o no
Cita del investigador de OpenAI Jason Wei
- Mostró un rendimiento sólido en AIME y GPQA, pero eso no se percibe para los usuarios
- Cuestiona la idea de que hay que encontrar prompts más difíciles
Intento de refactorización de código Rust
- o1-mini no logra proporcionar código sin errores
- o1-preview proporciona código que compila y pasa la mayoría de las pruebas
- Intento de modificar una biblioteca de Rust para eliminar enum y usar solo el tipo de dato U8
Dos elementos principales
- Un LLM entrenado para leer y generar buenos prompts de chain-of-thought
- Código de ejecución que vuelve a hacer prompting al modelo de forma repetida
- OpenAI no explica con claridad esta diferencia
Dificultad para evaluar prompts complejos
- El proceso de evaluación del prompt está oculto, por lo que es difícil depurarlo
- Para el usuario, solo importa el resultado y no el proceso
Problemas de calidad y costo de o1
- No hay una gran mejora en la calidad, pero sí un gran impacto negativo en costo y latencia
Comparación entre GPT-4o y o1-preview
- GPT-4o no logra proporcionar una estrategia óptima de tres en raya
- o1-preview proporciona una estrategia óptima, pero falla en cuadrículas no estándar
Dificultad para resolver problemas matemáticos básicos
- Intento de resolver un problema de sumar tres números y dividir para obtener el mismo resultado
- A los modelos actuales les cuesta resolver incluso problemas escolares básicos
Prueba con preguntas legales
- GPT-4o proporciona de inmediato la respuesta correcta
- o1-preview da una respuesta incorrecta y requiere varias preguntas de seguimiento
Problema con el procesamiento de contenido Markdown
- Cuando el contenido Markdown incluía expresiones de lógica simbólica y ejemplos de demostraciones, se consideró una violación de los términos de servicio

Notas sobre o1 de OpenAI, un modelo de chain-of-thought

Entrenado con el enfoque Chain-of-Thought

Detalles de bajo nivel de la documentación de la API

Tokens de razonamiento ocultos

Tokens de razonamiento ocultos

Ejemplos

Qué hay de nuevo en todo esto

Opinión de GN⁺

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News