Notas sobre o1 de OpenAI, un modelo de chain-of-thought
(simonwillison.net)- OpenAI lanzó los nuevos modelos de vista previa
o1-previewyo1-mini(minino es vista previa), antes conocidos con el nombre en clave "strawberry"
Entrenado con el enfoque Chain-of-Thought
- OpenAI explica que estos modelos fueron diseñados para "pensar" durante más tiempo antes de responder
- Estos nuevos modelos pueden verse como una extensión especializada del patrón de prompting de "pensar paso a paso"
- En el artículo de OpenAI "Learning to Reason with LLMs" se explica que los nuevos modelos aprenden a mejorar su cadena de pensamiento y a refinar sus estrategias mediante aprendizaje por refuerzo
- Esto significa que el modelo puede manejar mejor prompts complejos que requieren backtracking y más "razonamiento" que la simple predicción del siguiente token
Detalles de bajo nivel de la documentación de la API
- Para entrada de imágenes, function calling y aplicaciones que requieren tiempos de respuesta consistentemente rápidos, los modelos GPT-4o y GPT-4o mini seguirán siendo una buena opción
- Si desarrollas aplicaciones que requieren razonamiento profundo y pueden tolerar tiempos de respuesta más largos, los modelos o1 pueden ser una excelente opción
- El acceso a la API para los nuevos modelos
o1-previewyo1-miniestá actualmente restringido a cuentas de nivel 5 - No hay soporte para system prompts: el modelo usa la API existente de chat completions, pero solo se pueden enviar mensajes
useryassistant - Tampoco hay soporte para streaming, uso de herramientas, llamadas por lotes ni entrada de imágenes
- Dependiendo de la cantidad de razonamiento necesaria para resolver el problema, procesar una solicitud puede tomar desde unos segundos hasta varios minutos
Tokens de razonamiento ocultos
- Se introducen "tokens de razonamiento" que no son visibles en la respuesta de la API, pero aun así se cobran y cuentan como tokens de salida
- Para prompts que aprovechen bien estos nuevos modelos, OpenAI sugiere asignar un presupuesto de alrededor de 25,000 de estos tokens
- El límite permitido de tokens de salida aumenta considerablemente: 32,768 para
o1-previewy 65,536 parao1-mini - Último consejo de la documentación de la API: al proporcionar contexto adicional en retrieval-augmented generation (RAG), incluir solo la información más relevante para evitar que el modelo complique demasiado su respuesta
Tokens de razonamiento ocultos
- Los tokens de razonamiento no son visibles en la API: se cobran, pero en realidad no puedes ver qué son
- OpenAI da dos razones principales para esto:
- Seguridad y cumplimiento de políticas: para evitar casos en los que los pasos intermedios puedan incluir información que viole políticas
- Ventaja competitiva: para impedir que otros modelos aprendan del trabajo de razonamiento en el que OpenAI ha invertido
- Hay inconformidad con esta decisión de política: la interpretabilidad y la transparencia son importantes, y ocultar detalles clave de la evaluación del prompt se siente como un retroceso
Ejemplos
- OpenAI ofrece como ejemplos iniciales la generación de scripts Bash, la resolución de crucigramas y el cálculo del pH de soluciones químicas
- Estos ejemplos muestran que la versión del modelo en la interfaz de ChatGPT expone detalles sobre la cadena de pensamiento, aunque no muestra los tokens de razonamiento sin procesar
- OpenAI tiene dos nuevos cookbooks que muestran cómo usar razonamiento para validación de datos y generación de rutinas
- En Twitter preguntaron si había ejemplos de prompts que fallaban en GPT-4o pero funcionaban en
o1-preview-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- El investigador de OpenAI Jason Wei mencionó que los resultados en AIME y GPQA son muy buenos, pero no necesariamente se traducen en algo que los usuarios puedan percibir
Qué hay de nuevo en todo esto
- A la comunidad le tomará tiempo definir buenas prácticas sobre cuándo y dónde aplicar estos modelos
- Espero seguir usando principalmente GPT-4o (y Claude 3.5 Sonnet) por ahora, pero será realmente interesante ver cómo este nuevo tipo de modelo expande colectivamente nuestra forma de pensar sobre qué clase de tareas podemos resolver usando LLM
- Es de esperarse que otros laboratorios de IA también empiecen a replicar algunos de estos resultados con sus propias versiones de modelos entrenados específicamente para aplicar este estilo de razonamiento Chain-of-Thought
Opinión de GN⁺
- Los modelos entrenados con el enfoque chain-of-thought podrían ayudar a superar las limitaciones de los modelos actuales al resolver problemas complejos. En especial, se espera una mejora de desempeño en tareas que requieren razonamiento paso a paso y backtracking
- Sin embargo, ocultar los tokens de razonamiento en la API genera preocupación desde la perspectiva de la interpretabilidad y la transparencia del modelo. Desde el punto de vista del usuario, puede volverse más difícil entender y verificar el proceso de razonamiento del modelo
- Por ahora no está claro para qué tareas son más adecuados estos modelos ni cuáles son sus ventajas y desventajas frente a los modelos existentes. Parece necesario que la comunidad descubra distintos casos de uso y mejores prácticas
- Otras empresas de IA, como los modelos de Claude de Anthropic o los de Cohere, también podrían adoptar métodos de entrenamiento similares de chain-of-thought. Se espera que la competencia en el mercado de modelos de razonamiento se intensifique aún más
- En general, este anuncio de OpenAI es significativo porque propone un nuevo enfoque para mejorar la capacidad de razonamiento de los LLM. Aun así, hay algunos puntos preocupantes, como los tokens de razonamiento ocultos, por lo que parece que harán falta mejoras y ajustes más adelante
2 comentarios
Hay un error tipográfico :)
"Chai-of-Thought de forma de entrenamiento" → "Chain-of-Thought de forma de entrenamiento"
Opiniones de Hacker News
Problemas del modelo o1-preview
Cita del investigador de OpenAI Jason Wei
Intento de refactorización de código Rust
enumy usar solo el tipo de dato U8Dos elementos principales
Dificultad para evaluar prompts complejos
Problemas de calidad y costo de o1
Comparación entre GPT-4o y o1-preview
Dificultad para resolver problemas matemáticos básicos
Prueba con preguntas legales
Problema con el procesamiento de contenido Markdown