5 puntos por GN⁺ 2025-04-17 | 1 comentarios | Compartir por WhatsApp
  • Los modelos o3 y o4-mini mejoran de forma importante la capacidad de razonamiento de ChatGPT
  • Estos dos modelos van más allá de responder preguntas simples y también pueden realizar tareas complejas como uso combinado de herramientas, análisis de material visual, generación de imágenes y ejecución de código Python
  • En particular, cuando el usuario hace una pregunta, tienen la capacidad de decidir por sí mismos y ejecutar qué herramientas usar y en qué momento
  • Destacan en la resolución de problemas complejos, el razonamiento visual y el análisis de múltiples pasos, y buscan un estilo de conversación más humano
  • o3 es un modelo para resolver problemas complejos, mientras que o4-mini está pensado para un razonamiento rápido y eficiente, buscando al mismo tiempo alto rendimiento y alta eficiencia
  • Cuentan con capacidad de razonamiento multimodal para pensar con imágenes y texto al mismo tiempo, además de una avanzada capacidad de uso de herramientas tipo agente

Cambios clave en las funciones

OpenAI o3

  • El modelo centrado en razonamiento más potente hasta ahora
  • Logra rendimiento de vanguardia en múltiples áreas como programación, matemáticas, ciencia y análisis visual
  • Registra el mejor desempeño en benchmarks como Codeforces, SWE-bench y MMMU
  • Según evaluaciones de expertos externos, tiene una tasa de errores graves 20% menor que o1
  • Sobresale en generación de ideas y evaluación crítica en campos como programación, consultoría, biología e ingeniería

OpenAI o4-mini

  • Modelo pequeño optimizado para velocidad y eficiencia de costos
  • Destaca especialmente en matemáticas, programación y resolución de problemas visuales
  • Ofrece un rendimiento líder en su clase en los benchmarks AIME 2024 y 2025
  • También muestra gran desempeño en áreas fuera de STEM en comparación con o3-mini
  • Es adecuado para entornos que requieren alto volumen de uso y respuestas rápidas
  • Ambos modelos mejoran frente a los anteriores en comprensión de instrucciones, utilidad de las respuestas y confiabilidad
  • También se fortalecieron sus capacidades de memoria conversacional y de respuestas personalizadas

Capacidades multimodales

  • Las imágenes pueden usarse no solo para reconocimiento, sino también como parte del razonamiento
  • Los usuarios pueden subir fotos de pizarrones, diagramas de libros, dibujos a mano, etc.
  • Los modelos pueden reconocer y analizar incluso imágenes borrosas o distorsionadas
  • También pueden realizar automáticamente procesamiento de imágenes como rotación, ampliación y transformación mediante herramientas
  • Mejora la capacidad de resolver problemas complejos al fusionar información textual y visual

Razonamiento centrado en el uso de herramientas

  • o3 y o4-mini pueden acceder a todas las herramientas de ChatGPT
  • Cuando el usuario hace una pregunta, determinan y usan automáticamente las herramientas necesarias, como búsqueda web, análisis de archivos o ejecución de código
  • Ejemplo: ante una solicitud como “pronosticar el consumo eléctrico de verano en California”, pueden realizar de forma continua búsqueda web → generación de código Python → creación de gráficos
  • Permiten uso de información en tiempo real, razonamiento de múltiples pasos y respuestas que integran distintas modalidades

Rendimiento de razonamiento eficiente

Comparación de rendimiento frente al costo

  • o3 logra una enorme mejora en eficiencia de costos frente a o1, y o4-mini frente a o3-mini
  • Según los resultados de la competencia matemática AIME 2025, tanto o3 como o4-mini son más baratos y más inteligentes que sus predecesores
  • Se espera que también en entornos de uso real sean una opción más inteligente y más económica

Mejoras de seguridad

  • Fueron reentrenados con nuevos datos de entrenamiento para mejorar la capacidad de rechazar amenazas biológicas, malware y prompts de jailbreak
  • Se introdujo un sistema de monitoreo de seguridad basado en LLM que detecta automáticamente los riesgos en las respuestas del modelo
  • Según pruebas internas, logró detectar con éxito más del 99% de las conversaciones riesgosas
  • En áreas de riesgo como bio/química, ciberseguridad y auto-mejora de IA, fueron evaluados como por debajo del nivel de alto riesgo
  • La verificación de estabilidad se completó de acuerdo con los criterios más recientes del Preparedness Framework

Codex CLI: agente avanzado de razonamiento para usar en la terminal

  • Herramienta que permite usar en la terminal la capacidad de razonamiento de o3 y o4-mini
  • Los usuarios pueden proporcionar directamente al modelo mediante la CLI código, imágenes, capturas de pantalla, etc.
  • El modelo puede vincularse con código del entorno local para realizar razonamiento multimodal
  • Se publicó como open source: github.com/openai/codex
  • OpenAI también inició un programa de apoyo de 1 millón de dólares para proyectos basados en Codex CLI

Cómo acceder

  • Usuarios de ChatGPT Plus, Pro y Team: acceso inmediato a los modelos o3, o4-mini y o4-mini-high
  • Usuarios de Enterprise y Education: acceso a partir de una semana después
  • Los usuarios gratuitos también pueden usar o4-mini si seleccionan la opción “Think”
  • Los usuarios de la API también pueden usarlo desde hoy (puede requerirse verificación de la organización)
  • En la Responses API se ofrecerán varias funciones, como resúmenes de razonamiento, preservación del razonamiento alrededor de llamadas a funciones y herramienta de búsqueda web, entre otras

Próxima dirección

  • Está previsto fusionar la capacidad de razonamiento especializada de la serie o con la capacidad de conversación natural de la serie GPT
  • En adelante, evolucionará hacia modelos capaces de usar herramientas de forma activa mientras mantienen una conversación natural

1 comentarios

 
GN⁺ 2025-04-17
Comentarios en Hacker News
  • Hicieron una pregunta técnica sobre la ingeniería inversa de Final Fantasy VII, pero la IA dio información incorrecta

    • La IA buscó información en foros y sitios, pero inventó detalles erróneos, así que el resultado fue impreciso
    • La IA parecía reconocer que no sabía la respuesta, pero aun así presentó valores incorrectos con confianza
    • Esperan que, si la IA no puede encontrar la respuesta correcta, lo diga con honestidad
  • Usaron o3 para instalar la versión más reciente de WebStorm en NixOS, y ejecutó una VM de NixOS, descargó paquetes y dio instrucciones de instalación

    • Parece que incluso realizó pruebas de GUI, lo cual es muy impresionante
  • Claude 3.7 sigue mostrando el mejor rendimiento en SWE-bench

    • Es posible que los modelos de OpenAI también muestren un rendimiento similar
  • Lograron completar con éxito una simple “prueba de Turing” de escribir un convertidor base 62 en C# usando o4-mini-high

  • Le preguntaron a varias IA por la fecha de luna nueva de agosto de 2025, pero la mayoría dio respuestas incorrectas

    • Claude se negó a responder sobre cómo bloquear un motor de búsqueda específico
  • o3 y o4 reconocen cuando no tienen una herramienta de búsqueda web disponible y se niegan a responder

    • 4o y 4.1 dan información incorrecta
    • La nueva función de búsqueda web es útil y permite eliminar scripts innecesarios de Python
  • Codex CLI está disponible como código abierto

  • No hubo comparación con Sonnet 3.7 ni con Gemini Pro 2.5

  • El aprendizaje por refuerzo a gran escala tiende a mejorar el rendimiento a medida que usa más recursos de cómputo

    • Queda la duda de cuánto tiempo se mantendrá esa tendencia
  • Como consumidores, resulta cansado seguir qué modelo conviene usar