- Los modelos o3 y o4-mini mejoran de forma importante la capacidad de razonamiento de ChatGPT
- Estos dos modelos van más allá de responder preguntas simples y también pueden realizar tareas complejas como uso combinado de herramientas, análisis de material visual, generación de imágenes y ejecución de código Python
- En particular, cuando el usuario hace una pregunta, tienen la capacidad de decidir por sí mismos y ejecutar qué herramientas usar y en qué momento
- Destacan en la resolución de problemas complejos, el razonamiento visual y el análisis de múltiples pasos, y buscan un estilo de conversación más humano
- o3 es un modelo para resolver problemas complejos, mientras que o4-mini está pensado para un razonamiento rápido y eficiente, buscando al mismo tiempo alto rendimiento y alta eficiencia
- Cuentan con capacidad de razonamiento multimodal para pensar con imágenes y texto al mismo tiempo, además de una avanzada capacidad de uso de herramientas tipo agente
Cambios clave en las funciones
OpenAI o3
- El modelo centrado en razonamiento más potente hasta ahora
- Logra rendimiento de vanguardia en múltiples áreas como programación, matemáticas, ciencia y análisis visual
- Registra el mejor desempeño en benchmarks como Codeforces, SWE-bench y MMMU
- Según evaluaciones de expertos externos, tiene una tasa de errores graves 20% menor que o1
- Sobresale en generación de ideas y evaluación crítica en campos como programación, consultoría, biología e ingeniería
OpenAI o4-mini
- Modelo pequeño optimizado para velocidad y eficiencia de costos
- Destaca especialmente en matemáticas, programación y resolución de problemas visuales
- Ofrece un rendimiento líder en su clase en los benchmarks AIME 2024 y 2025
- También muestra gran desempeño en áreas fuera de STEM en comparación con o3-mini
- Es adecuado para entornos que requieren alto volumen de uso y respuestas rápidas
- Ambos modelos mejoran frente a los anteriores en comprensión de instrucciones, utilidad de las respuestas y confiabilidad
- También se fortalecieron sus capacidades de memoria conversacional y de respuestas personalizadas
Capacidades multimodales
- Las imágenes pueden usarse no solo para reconocimiento, sino también como parte del razonamiento
- Los usuarios pueden subir fotos de pizarrones, diagramas de libros, dibujos a mano, etc.
- Los modelos pueden reconocer y analizar incluso imágenes borrosas o distorsionadas
- También pueden realizar automáticamente procesamiento de imágenes como rotación, ampliación y transformación mediante herramientas
- Mejora la capacidad de resolver problemas complejos al fusionar información textual y visual
Razonamiento centrado en el uso de herramientas
- o3 y o4-mini pueden acceder a todas las herramientas de ChatGPT
- Cuando el usuario hace una pregunta, determinan y usan automáticamente las herramientas necesarias, como búsqueda web, análisis de archivos o ejecución de código
- Ejemplo: ante una solicitud como “pronosticar el consumo eléctrico de verano en California”, pueden realizar de forma continua búsqueda web → generación de código Python → creación de gráficos
- Permiten uso de información en tiempo real, razonamiento de múltiples pasos y respuestas que integran distintas modalidades
Rendimiento de razonamiento eficiente
Comparación de rendimiento frente al costo
- o3 logra una enorme mejora en eficiencia de costos frente a o1, y o4-mini frente a o3-mini
- Según los resultados de la competencia matemática AIME 2025, tanto o3 como o4-mini son más baratos y más inteligentes que sus predecesores
- Se espera que también en entornos de uso real sean una opción más inteligente y más económica
Mejoras de seguridad
- Fueron reentrenados con nuevos datos de entrenamiento para mejorar la capacidad de rechazar amenazas biológicas, malware y prompts de jailbreak
- Se introdujo un sistema de monitoreo de seguridad basado en LLM que detecta automáticamente los riesgos en las respuestas del modelo
- Según pruebas internas, logró detectar con éxito más del 99% de las conversaciones riesgosas
- En áreas de riesgo como bio/química, ciberseguridad y auto-mejora de IA, fueron evaluados como por debajo del nivel de alto riesgo
- La verificación de estabilidad se completó de acuerdo con los criterios más recientes del Preparedness Framework
Codex CLI: agente avanzado de razonamiento para usar en la terminal
- Herramienta que permite usar en la terminal la capacidad de razonamiento de o3 y o4-mini
- Los usuarios pueden proporcionar directamente al modelo mediante la CLI código, imágenes, capturas de pantalla, etc.
- El modelo puede vincularse con código del entorno local para realizar razonamiento multimodal
- Se publicó como open source: github.com/openai/codex
- OpenAI también inició un programa de apoyo de 1 millón de dólares para proyectos basados en Codex CLI
Cómo acceder
- Usuarios de ChatGPT Plus, Pro y Team: acceso inmediato a los modelos o3, o4-mini y o4-mini-high
- Usuarios de Enterprise y Education: acceso a partir de una semana después
- Los usuarios gratuitos también pueden usar o4-mini si seleccionan la opción “Think”
- Los usuarios de la API también pueden usarlo desde hoy (puede requerirse verificación de la organización)
- En la Responses API se ofrecerán varias funciones, como resúmenes de razonamiento, preservación del razonamiento alrededor de llamadas a funciones y herramienta de búsqueda web, entre otras
Próxima dirección
- Está previsto fusionar la capacidad de razonamiento especializada de la serie o con la capacidad de conversación natural de la serie GPT
- En adelante, evolucionará hacia modelos capaces de usar herramientas de forma activa mientras mantienen una conversación natural
1 comentarios
Comentarios en Hacker News
Hicieron una pregunta técnica sobre la ingeniería inversa de Final Fantasy VII, pero la IA dio información incorrecta
Usaron o3 para instalar la versión más reciente de WebStorm en NixOS, y ejecutó una VM de NixOS, descargó paquetes y dio instrucciones de instalación
Claude 3.7 sigue mostrando el mejor rendimiento en SWE-bench
Lograron completar con éxito una simple “prueba de Turing” de escribir un convertidor base 62 en C# usando o4-mini-high
Le preguntaron a varias IA por la fecha de luna nueva de agosto de 2025, pero la mayoría dio respuestas incorrectas
o3 y o4 reconocen cuando no tienen una herramienta de búsqueda web disponible y se niegan a responder
Codex CLI está disponible como código abierto
No hubo comparación con Sonnet 3.7 ni con Gemini Pro 2.5
El aprendizaje por refuerzo a gran escala tiende a mejorar el rendimiento a medida que usa más recursos de cómputo
Como consumidores, resulta cansado seguir qué modelo conviene usar