- Un nuevo modelo de razonamiento para resolver problemas complejos
- Fue entrenado para pensar más tiempo sobre un problema antes de responder
- A través del entrenamiento, aprendió a mejorar su proceso de pensamiento, probar distintas estrategias y reconocer errores
- Muestra un rendimiento similar al de estudiantes de doctorado en tareas de benchmark desafiantes de física, química y biología
- También logra resultados sobresalientes en matemáticas y programación
- En el examen clasificatorio de la Olimpiada Internacional de Matemáticas (IMO), GPT-4o acertó solo el 13%, mientras que el modelo de razonamiento acertó el 83%
- En Codeforces, su capacidad de programación alcanzó el percentil 89
Seguridad
- Diseñó un nuevo enfoque de entrenamiento en seguridad para que el modelo cumpla con las guías de seguridad y alineación
- En una de las pruebas de jailbreak más difíciles, GPT-4o obtuvo 22 puntos (de 100), mientras que el modelo o1-preview obtuvo 84
- Reforzó las tareas de seguridad, la gobernanza interna y la cooperación con el gobierno federal
- Pruebas y evaluaciones rigurosas con el Preparedness Framework
- Operaciones de red team del más alto nivel
- Proceso de revisión a nivel de junta directiva, incluido el Safety & Security Committee
- Firmó acuerdos y comenzó a operar con los institutos de seguridad de IA de Estados Unidos y Reino Unido
Para quién es este modelo
- Puede ser especialmente útil para quienes trabajan con problemas complejos en áreas como ciencia, programación y matemáticas
- Por ejemplo
- investigadores de salud pueden anotar datos de secuenciación celular,
- físicos pueden generar fórmulas matemáticas complejas necesarias para óptica cuántica,
- desarrolladores pueden usarlo para construir y ejecutar flujos de trabajo de múltiples etapas
OpenAI o1-mini
- La serie o1 se destaca en generar y depurar código complejo con precisión
- También lanzó un modelo de razonamiento más rápido y económico llamado o1-mini para ofrecer soluciones más eficientes a los desarrolladores
- o1-mini es 80% más barato que o1-preview
- Es un modelo potente y rentable para aplicaciones que necesitan razonamiento, pero no un conocimiento general amplio
Cómo usar OpenAI o1
- Los usuarios de ChatGPT Plus y Team pueden acceder al modelo o1 desde hoy en ChatGPT
- Tanto o1-preview como o1-mini pueden seleccionarse manualmente
- Al lanzamiento, o1-preview tiene un límite de 30 mensajes por semana y o1-mini de 50 mensajes por semana
- Los usuarios de ChatGPT Enterprise y Edu podrán acceder a ambos modelos a partir de la próxima semana
- Los desarrolladores del nivel 5 de uso de la API pueden comenzar a prototipar con ambos modelos desde hoy en la API con un límite de velocidad de 20 RPM
- La API de estos modelos no incluye por ahora funciones como function calling, streaming ni soporte para mensajes del sistema
- Planea ofrecer acceso a o1-mini a todos los usuarios de ChatGPT Free
Planes a futuro
- Este es un preview inicial de los modelos de razonamiento para ChatGPT y la API
- Además de actualizar los modelos, planea agregar funciones como navegación, carga de archivos e imágenes para hacerlos más útiles para todos
- Planea seguir desarrollando y lanzando modelos de la serie GPT junto con la nueva serie OpenAI o1
4 comentarios
Tengo curiosidad por la sinergia con GitHub Copilot.
¿Este es el famoso Strawberry del que se hablaba?
Sí. Altman consoló a la persona que difundió ese rumor.
Sí, probablemente. Parece que simplemente eligieron el número 1 como nueva versión para enfocarse en el razonamiento.