13 puntos por GN⁺ 2025-02-01 | 1 comentarios | Compartir por WhatsApp
  • OpenAI o3-mini es el modelo más reciente de la serie de modelos de razonamiento rentables
  • Se lanzó oficialmente tras la vista previa de diciembre de 2024 y está disponible en ChatGPT y la API
  • Ofrece un rendimiento sobresaliente en áreas STEM como ciencia, matemáticas y programación, manteniendo un menor costo y menor latencia que OpenAI o1-mini

Funciones principales y mejoras

  • OpenAI o3-mini es el primer modelo de razonamiento pequeño que admite llamadas a funciones, salidas estructuradas y mensajes de desarrollador
  • Admite streaming y ofrece tres opciones de esfuerzo de razonamiento: bajo, medio y alto, lo que permite optimizarlo según la situación
  • No admite capacidades de visión (imágenes); si se necesita razonamiento visual, se recomienda usar OpenAI o1
  • Está disponible en Chat Completions API, Assistants API y Batch API, y se ofrece a desarrolladores de los niveles 3 a 5 de uso de la API
  • Los usuarios de ChatGPT Plus, Team y Pro pueden usarlo desde hoy, y se prevé compatibilidad para usuarios Enterprise a partir de febrero
  • Reemplaza a OpenAI o1-mini y ofrece mayor velocidad y mejores capacidades de razonamiento
  • El límite de mensajes para usuarios Plus y Team aumentó de 50 a 150 frente al o1-mini anterior
  • Se agregó una función de búsqueda y se está probando la capacidad de ofrecer información reciente junto con enlaces web

Mayor acceso para usuarios gratuitos

  • Los usuarios gratuitos también pueden usar o3-mini seleccionando ‘Reason’ en el cuadro de redacción de mensajes o regenerando la respuesta
  • Es la primera vez que un modelo de razonamiento en ChatGPT está disponible para usuarios gratuitos

Optimización para STEM y mejora de rendimiento

  • Ofrece rendimiento optimizado para áreas STEM y genera respuestas más rápidas y precisas que o1-mini
  • Según la evaluación de testers especializados, o3-mini fue preferido sobre o1-mini en el 56% de los casos, y se confirmó una reducción del 39% en errores importantes en problemas difíciles
  • Muestra un rendimiento similar al de o1 en evaluaciones exigentes de razonamiento e inteligencia como AIME y GPQA, además de ofrecer respuestas más rápidas

Comparación de rendimiento principal

  • Matemáticas (AIME 2024):
    • Con esfuerzo de razonamiento bajo, ofrece un rendimiento similar al de o1-mini; con esfuerzo de razonamiento medio, un rendimiento parecido al de o1
    • Con esfuerzo de razonamiento alto, supera a o1 y o1-mini
  • Preguntas científicas de nivel doctorado (GPQA Diamond):
    • En problemas de biología, química y física, supera a o1-mini incluso con esfuerzo de razonamiento bajo
    • Con esfuerzo de razonamiento alto, ofrece un rendimiento similar al de o1
  • Matemáticas avanzadas (FrontierMath):
    • Al usar la herramienta de Python, resuelve más del 32% de los problemas en el primer intento y también resuelve más del 28% de los problemas difíciles (T3)
  • Programación competitiva (Codeforces):
    • A medida que aumenta el esfuerzo de razonamiento, registra una puntuación Elo más alta y supera a o1-mini
    • Con esfuerzo de razonamiento medio, ofrece un rendimiento similar al de o1
  • Ingeniería de software (SWE-bench Verified):
    • Registra el mejor rendimiento entre los modelos lanzados hasta ahora en SWEbench-verified
  • Pruebas de programación en el mundo real (LiveBench Coding):
    • Supera a o1-high, y con esfuerzo de razonamiento alto muestra un rendimiento aún más dominante
  • Evaluación de conocimientos generales:
    • Muestra mejores resultados que o1-mini en evaluaciones generales de conocimiento
  • Evaluación de preferencia de usuarios:
    • Según pruebas con expertos, o3-mini fue preferido un 56% más que o1-mini y se confirmó una reducción del 39% en errores en problemas difíciles

Mejoras de velocidad y rendimiento

  • Mantiene una inteligencia similar a la de o1, pero ofrece mayor velocidad y mejor eficiencia
  • Produce mejores resultados en evaluaciones de matemáticas y factualidad incluso con esfuerzo de razonamiento medio
  • Según los resultados de pruebas A/B, o3-mini es 24% más rápido en tiempo de respuesta que o1-mini
    • Tiempo promedio de respuesta: o3-mini (7.7 segundos) vs o1-mini (10.16 segundos)
    • Velocidad de salida del primer token: o3-mini es en promedio 2500 ms más rápido que o1-mini

Seguridad y medidas de mitigación

  • OpenAI o3-mini fue entrenado para generar respuestas más seguras mediante la técnica de ‘alineación deliberativa (deliberative alignment)’
  • En comparación con OpenAI o1, muestra un nivel de seguridad y defensa contra jailbreak incluso superior al de GPT-4o
  • Antes del lanzamiento, fue validado exhaustivamente mediante evaluaciones de preparación, pruebas de red team externas y evaluaciones de seguridad
  • Los resultados de la evaluación de respuestas a contenido no permitido y de jailbreak de o3-mini están disponibles en la system card

Planes y perspectivas futuras

  • OpenAI o3-mini representa una nueva etapa en el avance de la inteligencia de IA rentable
  • OpenAI mantiene el objetivo de llevar IA de alta calidad a más usuarios mediante la optimización para STEM y el desarrollo de modelos de bajo costo
  • Desde el lanzamiento de GPT-4, el precio por token se ha reducido en un 95%, mientras se mantiene una capacidad de razonamiento de primer nivel
  • A medida que se amplía la adopción masiva de la IA, la compañía planea centrarse en desarrollar modelos que equilibren inteligencia, eficiencia y seguridad

1 comentarios

 
GN⁺ 2025-02-01
Opiniones de Hacker News
  • El modelo Claude-3.5-sonnet tiene una gran consistencia, mientras que otros modelos parecen sufrir problemas como ADHD

    • Al intentar usar componentes de shadcn en una app de NextJS, sonnet lo hace casi perfectamente, pero otros modelos intentan usar radix-ui
    • El modelo o3-mini también sufre el mismo problema
    • Es posible que el conjunto de instrucciones de cursor sea el problema
    • sonnet sigue siendo la única opción viable para programar
  • Las respuestas de o3-mini fueron preferidas un 56% más que las de o1-mini

    • Cuando ambas respuestas tienen 2,000 palabras, hay una tendencia a elegir la que respondió más rápido a la pregunta
    • Esta encuesta no tiene sentido, y una tasa de respuesta del 50% es como lanzar una moneda
  • Se compartió el resultado de resumir el hilo usando o3-mini

    • Costó 3.3612 centavos por 18,936 de entrada y 2,905 de salida
  • En programación con AI, o3-mini obtuvo una puntuación similar a o1, con un costo 10 veces menor

    • o3-mini, con esfuerzo medio, obtuvo una puntuación entre R1 y Sonnet
  • Se anunció una nueva versión de la herramienta CLI de LLM compatible con el nuevo modelo y la opción reasoning_effort

    • Se compartió un ejemplo de uso
  • Se señaló que la puntuación de o3-mini en SWE Bench cayó de 61% a 49.3%

    • o3-mini muestra un rendimiento similar al de Claude en tareas reales de programación
  • Se mencionó que o3-mini-high encontró con éxito la causa raíz de un seg fault

    • Resolvió un problema que o1 había pasado por alto anteriormente
  • Mostró un aumento considerable en SWE-Bench, y vale la pena volver a intentar tareas que antes o1-mini no podía resolver

    • Hay una diferencia de costo de $4/millón de tokens de salida frente a $60
  • El entorno de AI está cambiando rápidamente y están apareciendo nuevos modelos de AI

    • Hay curiosidad por cómo los cambios en AI afectarán este lanzamiento y los próximos