Lanzamiento de OpenAI o3-Mini

(openai.com)

13 puntos por GN⁺ 2025-02-01 | 1 comentarios | Compartir por WhatsApp

OpenAI o3-mini es el modelo más reciente de la serie de modelos de razonamiento rentables
Se lanzó oficialmente tras la vista previa de diciembre de 2024 y está disponible en ChatGPT y la API
Ofrece un rendimiento sobresaliente en áreas STEM como ciencia, matemáticas y programación, manteniendo un menor costo y menor latencia que OpenAI o1-mini

Funciones principales y mejoras

OpenAI o3-mini es el primer modelo de razonamiento pequeño que admite llamadas a funciones, salidas estructuradas y mensajes de desarrollador
Admite streaming y ofrece tres opciones de esfuerzo de razonamiento: bajo, medio y alto, lo que permite optimizarlo según la situación
No admite capacidades de visión (imágenes); si se necesita razonamiento visual, se recomienda usar OpenAI o1
Está disponible en Chat Completions API, Assistants API y Batch API, y se ofrece a desarrolladores de los niveles 3 a 5 de uso de la API
Los usuarios de ChatGPT Plus, Team y Pro pueden usarlo desde hoy, y se prevé compatibilidad para usuarios Enterprise a partir de febrero
Reemplaza a OpenAI o1-mini y ofrece mayor velocidad y mejores capacidades de razonamiento
El límite de mensajes para usuarios Plus y Team aumentó de 50 a 150 frente al o1-mini anterior
Se agregó una función de búsqueda y se está probando la capacidad de ofrecer información reciente junto con enlaces web

Mayor acceso para usuarios gratuitos

Los usuarios gratuitos también pueden usar o3-mini seleccionando ‘Reason’ en el cuadro de redacción de mensajes o regenerando la respuesta
Es la primera vez que un modelo de razonamiento en ChatGPT está disponible para usuarios gratuitos

Optimización para STEM y mejora de rendimiento

Ofrece rendimiento optimizado para áreas STEM y genera respuestas más rápidas y precisas que o1-mini
Según la evaluación de testers especializados, o3-mini fue preferido sobre o1-mini en el 56% de los casos, y se confirmó una reducción del 39% en errores importantes en problemas difíciles
Muestra un rendimiento similar al de o1 en evaluaciones exigentes de razonamiento e inteligencia como AIME y GPQA, además de ofrecer respuestas más rápidas

Comparación de rendimiento principal

Matemáticas (AIME 2024):
- Con esfuerzo de razonamiento bajo, ofrece un rendimiento similar al de o1-mini; con esfuerzo de razonamiento medio, un rendimiento parecido al de o1
- Con esfuerzo de razonamiento alto, supera a o1 y o1-mini
Preguntas científicas de nivel doctorado (GPQA Diamond):
- En problemas de biología, química y física, supera a o1-mini incluso con esfuerzo de razonamiento bajo
- Con esfuerzo de razonamiento alto, ofrece un rendimiento similar al de o1
Matemáticas avanzadas (FrontierMath):
- Al usar la herramienta de Python, resuelve más del 32% de los problemas en el primer intento y también resuelve más del 28% de los problemas difíciles (T3)
Programación competitiva (Codeforces):
- A medida que aumenta el esfuerzo de razonamiento, registra una puntuación Elo más alta y supera a o1-mini
- Con esfuerzo de razonamiento medio, ofrece un rendimiento similar al de o1
Ingeniería de software (SWE-bench Verified):
- Registra el mejor rendimiento entre los modelos lanzados hasta ahora en SWEbench-verified
Pruebas de programación en el mundo real (LiveBench Coding):
- Supera a o1-high, y con esfuerzo de razonamiento alto muestra un rendimiento aún más dominante
Evaluación de conocimientos generales:
- Muestra mejores resultados que o1-mini en evaluaciones generales de conocimiento
Evaluación de preferencia de usuarios:
- Según pruebas con expertos, o3-mini fue preferido un 56% más que o1-mini y se confirmó una reducción del 39% en errores en problemas difíciles

Mejoras de velocidad y rendimiento

Mantiene una inteligencia similar a la de o1, pero ofrece mayor velocidad y mejor eficiencia
Produce mejores resultados en evaluaciones de matemáticas y factualidad incluso con esfuerzo de razonamiento medio
Según los resultados de pruebas A/B, o3-mini es 24% más rápido en tiempo de respuesta que o1-mini
- Tiempo promedio de respuesta: o3-mini (7.7 segundos) vs o1-mini (10.16 segundos)
- Velocidad de salida del primer token: o3-mini es en promedio 2500 ms más rápido que o1-mini

Seguridad y medidas de mitigación

OpenAI o3-mini fue entrenado para generar respuestas más seguras mediante la técnica de ‘alineación deliberativa (deliberative alignment)’
En comparación con OpenAI o1, muestra un nivel de seguridad y defensa contra jailbreak incluso superior al de GPT-4o
Antes del lanzamiento, fue validado exhaustivamente mediante evaluaciones de preparación, pruebas de red team externas y evaluaciones de seguridad
Los resultados de la evaluación de respuestas a contenido no permitido y de jailbreak de o3-mini están disponibles en la system card

Planes y perspectivas futuras

OpenAI o3-mini representa una nueva etapa en el avance de la inteligencia de IA rentable
OpenAI mantiene el objetivo de llevar IA de alta calidad a más usuarios mediante la optimización para STEM y el desarrollo de modelos de bajo costo
Desde el lanzamiento de GPT-4, el precio por token se ha reducido en un 95%, mientras se mantiene una capacidad de razonamiento de primer nivel
A medida que se amplía la adopción masiva de la IA, la compañía planea centrarse en desarrollar modelos que equilibren inteligencia, eficiencia y seguridad

1 comentarios

GN⁺ 2025-02-01

Opiniones de Hacker News

El modelo Claude-3.5-sonnet tiene una gran consistencia, mientras que otros modelos parecen sufrir problemas como ADHD
- Al intentar usar componentes de shadcn en una app de NextJS, sonnet lo hace casi perfectamente, pero otros modelos intentan usar radix-ui
- El modelo o3-mini también sufre el mismo problema
- Es posible que el conjunto de instrucciones de cursor sea el problema
- sonnet sigue siendo la única opción viable para programar
Las respuestas de o3-mini fueron preferidas un 56% más que las de o1-mini
- Cuando ambas respuestas tienen 2,000 palabras, hay una tendencia a elegir la que respondió más rápido a la pregunta
- Esta encuesta no tiene sentido, y una tasa de respuesta del 50% es como lanzar una moneda
Se compartió el resultado de resumir el hilo usando o3-mini
- Costó 3.3612 centavos por 18,936 de entrada y 2,905 de salida
En programación con AI, o3-mini obtuvo una puntuación similar a o1, con un costo 10 veces menor
- o3-mini, con esfuerzo medio, obtuvo una puntuación entre R1 y Sonnet
Se anunció una nueva versión de la herramienta CLI de LLM compatible con el nuevo modelo y la opción reasoning_effort
- Se compartió un ejemplo de uso
Se señaló que la puntuación de o3-mini en SWE Bench cayó de 61% a 49.3%
- o3-mini muestra un rendimiento similar al de Claude en tareas reales de programación
Se mencionó que o3-mini-high encontró con éxito la causa raíz de un seg fault
- Resolvió un problema que o1 había pasado por alto anteriormente
Mostró un aumento considerable en SWE-Bench, y vale la pena volver a intentar tareas que antes o1-mini no podía resolver
- Hay una diferencia de costo de $4/millón de tokens de salida frente a $60
El entorno de AI está cambiando rápidamente y están apareciendo nuevos modelos de AI
- Hay curiosidad por cómo los cambios en AI afectarán este lanzamiento y los próximos

Lanzamiento de OpenAI o3-Mini

Funciones principales y mejoras

Mayor acceso para usuarios gratuitos

Optimización para STEM y mejora de rendimiento

Comparación de rendimiento principal

Mejoras de velocidad y rendimiento

Seguridad y medidas de mitigación

Planes y perspectivas futuras

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News