OpenAI presenta un preview del modelo o1, que piensa más antes de responder

xguru · 2024-09-13T08:50:46+09:00

Un nuevo modelo de razonamiento para resolver problemas complejos Fue entrenado para pensar más tiempo sobre un problema antes de responder A través del entrenamiento, aprendió a mejorar su proceso de pensamiento, probar distintas estrategias y reconocer errores Muestra un rendimiento similar al de estudiantes de doctorado en tareas de benchmark desafiantes de física, química y biología También logra resultados sobresalientes en matemáticas y programación En el examen clasificatorio de la Olimpiada Internacional de Matemáticas (IMO), GPT-4o acertó solo el 13%, mientras que el modelo de razonamiento acertó el 83% En Codeforces, su capacidad de programación alcanzó el percentil 89 Seguridad Diseñó un nuevo enfoque de entrenamiento en seguridad para que el modelo cumpla con las guías de seguridad y alineación En una de las pruebas de jailbreak más difíciles, GPT-4o obtuvo 22 puntos (de 100), mientras que el modelo o1-preview obtuvo 84 Reforzó las tareas de seguridad, la gobernanza interna y la cooperación con el gobierno federal Pruebas y evaluaciones rigurosas con el Preparedness Framework Operaciones de red team del más alto nivel Proceso de revisión a nivel de junta directiva, incluido el Safety & Security Committee Firmó acuerdos y comenzó a operar con los institutos de seguridad de IA de Estados Unidos y Reino Unido Para quién es este modelo Puede ser especialmente útil para quienes trabajan con problemas complejos en áreas como ciencia, programación y matemáticas Por ejemplo investigadores de salud pueden anotar datos de secuenciación celular, físicos pueden generar fórmulas matemáticas complejas necesarias para óptica cuántica, desarrolladores pueden usarlo para construir y ejecutar flujos de trabajo de múltiples etapas OpenAI o1-mini La serie o1 se destaca en generar y depurar código complejo con precisión También lanzó un modelo de razonamiento más rápido y económico llamado o1-mini para ofrecer soluciones más eficientes a los desarrolladores o1-mini es 80% más barato que o1-preview Es un modelo potente y rentable para aplicaciones que necesitan razonamiento, pero no un conocimiento general amplio Cómo usar OpenAI o1 Los usuarios de ChatGPT Plus y Team pueden acceder al modelo o1 desde hoy en ChatGPT Tanto o1-preview como o1-mini pueden seleccionarse manualmente Al lanzamiento, o1-preview tiene un límite de 30 mensajes por semana y o1-mini de 50 mensajes por semana Los usuarios de ChatGPT Enterprise y Edu podrán acceder a ambos modelos a partir de la próxima semana Los desarrolladores del nivel 5 de uso de la API pueden comenzar a prototipar con ambos modelos desde hoy en la API con un límite de velocidad de 20 RPM La API de estos modelos no incluye por ahora funciones como function calling, streaming ni soporte para mensajes del sistema Planea ofrecer acceso a o1-mini a todos los usuarios de ChatGPT Free Planes a futuro Este es un preview inicial de los modelos de razonamiento para ChatGPT y la API Además de actualizar los modelos, planea agregar funciones como navegación, carga de archivos e imágenes para hacerlos más útiles para todos Planea seguir desarrollando y lanzando modelos de la serie GPT junto con la nueva serie OpenAI o1

(openai.com)

8 puntos por xguru 2024-09-13 | 4 comentarios | Compartir por WhatsApp

Un nuevo modelo de razonamiento para resolver problemas complejos
Fue entrenado para pensar más tiempo sobre un problema antes de responder
A través del entrenamiento, aprendió a mejorar su proceso de pensamiento, probar distintas estrategias y reconocer errores
Muestra un rendimiento similar al de estudiantes de doctorado en tareas de benchmark desafiantes de física, química y biología
También logra resultados sobresalientes en matemáticas y programación
- En el examen clasificatorio de la Olimpiada Internacional de Matemáticas (IMO), GPT-4o acertó solo el 13%, mientras que el modelo de razonamiento acertó el 83%
- En Codeforces, su capacidad de programación alcanzó el percentil 89

Seguridad

Diseñó un nuevo enfoque de entrenamiento en seguridad para que el modelo cumpla con las guías de seguridad y alineación
En una de las pruebas de jailbreak más difíciles, GPT-4o obtuvo 22 puntos (de 100), mientras que el modelo o1-preview obtuvo 84
Reforzó las tareas de seguridad, la gobernanza interna y la cooperación con el gobierno federal
- Pruebas y evaluaciones rigurosas con el Preparedness Framework
- Operaciones de red team del más alto nivel
- Proceso de revisión a nivel de junta directiva, incluido el Safety & Security Committee
Firmó acuerdos y comenzó a operar con los institutos de seguridad de IA de Estados Unidos y Reino Unido

Para quién es este modelo

Puede ser especialmente útil para quienes trabajan con problemas complejos en áreas como ciencia, programación y matemáticas
Por ejemplo
- investigadores de salud pueden anotar datos de secuenciación celular,
- físicos pueden generar fórmulas matemáticas complejas necesarias para óptica cuántica,
- desarrolladores pueden usarlo para construir y ejecutar flujos de trabajo de múltiples etapas

OpenAI o1-mini

La serie o1 se destaca en generar y depurar código complejo con precisión
También lanzó un modelo de razonamiento más rápido y económico llamado o1-mini para ofrecer soluciones más eficientes a los desarrolladores
o1-mini es 80% más barato que o1-preview
- Es un modelo potente y rentable para aplicaciones que necesitan razonamiento, pero no un conocimiento general amplio

Cómo usar OpenAI o1

Los usuarios de ChatGPT Plus y Team pueden acceder al modelo o1 desde hoy en ChatGPT
Tanto o1-preview como o1-mini pueden seleccionarse manualmente
Al lanzamiento, o1-preview tiene un límite de 30 mensajes por semana y o1-mini de 50 mensajes por semana
Los usuarios de ChatGPT Enterprise y Edu podrán acceder a ambos modelos a partir de la próxima semana
Los desarrolladores del nivel 5 de uso de la API pueden comenzar a prototipar con ambos modelos desde hoy en la API con un límite de velocidad de 20 RPM
La API de estos modelos no incluye por ahora funciones como function calling, streaming ni soporte para mensajes del sistema
Planea ofrecer acceso a o1-mini a todos los usuarios de ChatGPT Free

Planes a futuro

Este es un preview inicial de los modelos de razonamiento para ChatGPT y la API
Además de actualizar los modelos, planea agregar funciones como navegación, carga de archivos e imágenes para hacerlos más útiles para todos
Planea seguir desarrollando y lanzando modelos de la serie GPT junto con la nueva serie OpenAI o1

4 comentarios

dbs0829 2024-09-13

Tengo curiosidad por la sinergia con GitHub Copilot.

wedding 2024-09-13

¿Este es el famoso Strawberry del que se hablaba?

brainer 2024-09-13

Sí. Altman consoló a la persona que difundió ese rumor.

xguru 2024-09-13

Sí, probablemente. Parece que simplemente eligieron el número 1 como nueva versión para enfocarse en el razonamiento.