- OpenAI o3-mini es el modelo más reciente de la serie de modelos de razonamiento rentables
- Se lanzó oficialmente tras la vista previa de diciembre de 2024 y está disponible en ChatGPT y la API
- Ofrece un rendimiento sobresaliente en áreas STEM como ciencia, matemáticas y programación, manteniendo un menor costo y menor latencia que OpenAI o1-mini
Funciones principales y mejoras
- OpenAI o3-mini es el primer modelo de razonamiento pequeño que admite llamadas a funciones, salidas estructuradas y mensajes de desarrollador
- Admite streaming y ofrece tres opciones de esfuerzo de razonamiento: bajo, medio y alto, lo que permite optimizarlo según la situación
- No admite capacidades de visión (imágenes); si se necesita razonamiento visual, se recomienda usar OpenAI o1
- Está disponible en Chat Completions API, Assistants API y Batch API, y se ofrece a desarrolladores de los niveles 3 a 5 de uso de la API
- Los usuarios de ChatGPT Plus, Team y Pro pueden usarlo desde hoy, y se prevé compatibilidad para usuarios Enterprise a partir de febrero
- Reemplaza a OpenAI o1-mini y ofrece mayor velocidad y mejores capacidades de razonamiento
- El límite de mensajes para usuarios Plus y Team aumentó de 50 a 150 frente al o1-mini anterior
- Se agregó una función de búsqueda y se está probando la capacidad de ofrecer información reciente junto con enlaces web
Mayor acceso para usuarios gratuitos
- Los usuarios gratuitos también pueden usar o3-mini seleccionando ‘Reason’ en el cuadro de redacción de mensajes o regenerando la respuesta
- Es la primera vez que un modelo de razonamiento en ChatGPT está disponible para usuarios gratuitos
Optimización para STEM y mejora de rendimiento
- Ofrece rendimiento optimizado para áreas STEM y genera respuestas más rápidas y precisas que o1-mini
- Según la evaluación de testers especializados, o3-mini fue preferido sobre o1-mini en el 56% de los casos, y se confirmó una reducción del 39% en errores importantes en problemas difíciles
- Muestra un rendimiento similar al de o1 en evaluaciones exigentes de razonamiento e inteligencia como AIME y GPQA, además de ofrecer respuestas más rápidas
Comparación de rendimiento principal
- Matemáticas (AIME 2024):
- Con esfuerzo de razonamiento bajo, ofrece un rendimiento similar al de o1-mini; con esfuerzo de razonamiento medio, un rendimiento parecido al de o1
- Con esfuerzo de razonamiento alto, supera a o1 y o1-mini
- Preguntas científicas de nivel doctorado (GPQA Diamond):
- En problemas de biología, química y física, supera a o1-mini incluso con esfuerzo de razonamiento bajo
- Con esfuerzo de razonamiento alto, ofrece un rendimiento similar al de o1
- Matemáticas avanzadas (FrontierMath):
- Al usar la herramienta de Python, resuelve más del 32% de los problemas en el primer intento y también resuelve más del 28% de los problemas difíciles (T3)
- Programación competitiva (Codeforces):
- A medida que aumenta el esfuerzo de razonamiento, registra una puntuación Elo más alta y supera a o1-mini
- Con esfuerzo de razonamiento medio, ofrece un rendimiento similar al de o1
- Ingeniería de software (SWE-bench Verified):
- Registra el mejor rendimiento entre los modelos lanzados hasta ahora en SWEbench-verified
- Pruebas de programación en el mundo real (LiveBench Coding):
- Supera a o1-high, y con esfuerzo de razonamiento alto muestra un rendimiento aún más dominante
- Evaluación de conocimientos generales:
- Muestra mejores resultados que o1-mini en evaluaciones generales de conocimiento
- Evaluación de preferencia de usuarios:
- Según pruebas con expertos, o3-mini fue preferido un 56% más que o1-mini y se confirmó una reducción del 39% en errores en problemas difíciles
Mejoras de velocidad y rendimiento
- Mantiene una inteligencia similar a la de o1, pero ofrece mayor velocidad y mejor eficiencia
- Produce mejores resultados en evaluaciones de matemáticas y factualidad incluso con esfuerzo de razonamiento medio
- Según los resultados de pruebas A/B, o3-mini es 24% más rápido en tiempo de respuesta que o1-mini
- Tiempo promedio de respuesta: o3-mini (7.7 segundos) vs o1-mini (10.16 segundos)
- Velocidad de salida del primer token: o3-mini es en promedio 2500 ms más rápido que o1-mini
Seguridad y medidas de mitigación
- OpenAI o3-mini fue entrenado para generar respuestas más seguras mediante la técnica de ‘alineación deliberativa (deliberative alignment)’
- En comparación con OpenAI o1, muestra un nivel de seguridad y defensa contra jailbreak incluso superior al de GPT-4o
- Antes del lanzamiento, fue validado exhaustivamente mediante evaluaciones de preparación, pruebas de red team externas y evaluaciones de seguridad
- Los resultados de la evaluación de respuestas a contenido no permitido y de jailbreak de o3-mini están disponibles en la system card
Planes y perspectivas futuras
- OpenAI o3-mini representa una nueva etapa en el avance de la inteligencia de IA rentable
- OpenAI mantiene el objetivo de llevar IA de alta calidad a más usuarios mediante la optimización para STEM y el desarrollo de modelos de bajo costo
- Desde el lanzamiento de GPT-4, el precio por token se ha reducido en un 95%, mientras se mantiene una capacidad de razonamiento de primer nivel
- A medida que se amplía la adopción masiva de la IA, la compañía planea centrarse en desarrollar modelos que equilibren inteligencia, eficiencia y seguridad
1 comentarios
Opiniones de Hacker News
El modelo Claude-3.5-sonnet tiene una gran consistencia, mientras que otros modelos parecen sufrir problemas como ADHD
Las respuestas de o3-mini fueron preferidas un 56% más que las de o1-mini
Se compartió el resultado de resumir el hilo usando o3-mini
En programación con AI, o3-mini obtuvo una puntuación similar a o1, con un costo 10 veces menor
Se anunció una nueva versión de la herramienta CLI de LLM compatible con el nuevo modelo y la opción reasoning_effort
Se señaló que la puntuación de o3-mini en SWE Bench cayó de 61% a 49.3%
Se mencionó que o3-mini-high encontró con éxito la causa raíz de un seg fault
Mostró un aumento considerable en SWE-Bench, y vale la pena volver a intentar tareas que antes o1-mini no podía resolver
El entorno de AI está cambiando rápidamente y están apareciendo nuevos modelos de AI