8 puntos por xguru 2024-09-13 | 4 comentarios | Compartir por WhatsApp
  • Un nuevo modelo de razonamiento para resolver problemas complejos
  • Fue entrenado para pensar más tiempo sobre un problema antes de responder
  • A través del entrenamiento, aprendió a mejorar su proceso de pensamiento, probar distintas estrategias y reconocer errores
  • Muestra un rendimiento similar al de estudiantes de doctorado en tareas de benchmark desafiantes de física, química y biología
  • También logra resultados sobresalientes en matemáticas y programación
    • En el examen clasificatorio de la Olimpiada Internacional de Matemáticas (IMO), GPT-4o acertó solo el 13%, mientras que el modelo de razonamiento acertó el 83%
    • En Codeforces, su capacidad de programación alcanzó el percentil 89

Seguridad

  • Diseñó un nuevo enfoque de entrenamiento en seguridad para que el modelo cumpla con las guías de seguridad y alineación
  • En una de las pruebas de jailbreak más difíciles, GPT-4o obtuvo 22 puntos (de 100), mientras que el modelo o1-preview obtuvo 84
  • Reforzó las tareas de seguridad, la gobernanza interna y la cooperación con el gobierno federal
    • Pruebas y evaluaciones rigurosas con el Preparedness Framework
    • Operaciones de red team del más alto nivel
    • Proceso de revisión a nivel de junta directiva, incluido el Safety & Security Committee
  • Firmó acuerdos y comenzó a operar con los institutos de seguridad de IA de Estados Unidos y Reino Unido

Para quién es este modelo

  • Puede ser especialmente útil para quienes trabajan con problemas complejos en áreas como ciencia, programación y matemáticas
  • Por ejemplo
    • investigadores de salud pueden anotar datos de secuenciación celular,
    • físicos pueden generar fórmulas matemáticas complejas necesarias para óptica cuántica,
    • desarrolladores pueden usarlo para construir y ejecutar flujos de trabajo de múltiples etapas

OpenAI o1-mini

  • La serie o1 se destaca en generar y depurar código complejo con precisión
  • También lanzó un modelo de razonamiento más rápido y económico llamado o1-mini para ofrecer soluciones más eficientes a los desarrolladores
  • o1-mini es 80% más barato que o1-preview
    • Es un modelo potente y rentable para aplicaciones que necesitan razonamiento, pero no un conocimiento general amplio

Cómo usar OpenAI o1

  • Los usuarios de ChatGPT Plus y Team pueden acceder al modelo o1 desde hoy en ChatGPT
  • Tanto o1-preview como o1-mini pueden seleccionarse manualmente
  • Al lanzamiento, o1-preview tiene un límite de 30 mensajes por semana y o1-mini de 50 mensajes por semana
  • Los usuarios de ChatGPT Enterprise y Edu podrán acceder a ambos modelos a partir de la próxima semana
  • Los desarrolladores del nivel 5 de uso de la API pueden comenzar a prototipar con ambos modelos desde hoy en la API con un límite de velocidad de 20 RPM
  • La API de estos modelos no incluye por ahora funciones como function calling, streaming ni soporte para mensajes del sistema
  • Planea ofrecer acceso a o1-mini a todos los usuarios de ChatGPT Free

Planes a futuro

  • Este es un preview inicial de los modelos de razonamiento para ChatGPT y la API
  • Además de actualizar los modelos, planea agregar funciones como navegación, carga de archivos e imágenes para hacerlos más útiles para todos
  • Planea seguir desarrollando y lanzando modelos de la serie GPT junto con la nueva serie OpenAI o1

4 comentarios

 
dbs0829 2024-09-13

Tengo curiosidad por la sinergia con GitHub Copilot.

 
wedding 2024-09-13

¿Este es el famoso Strawberry del que se hablaba?

 
brainer 2024-09-13

Sí. Altman consoló a la persona que difundió ese rumor.

 
xguru 2024-09-13

Sí, probablemente. Parece que simplemente eligieron el número 1 como nueva versión para enfocarse en el razonamiento.