OpenAI presenta los modelos o3 y o4-mini

(openai.com)

5 puntos por GN⁺ 2025-04-17 | 1 comentarios | Compartir por WhatsApp

Los modelos o3 y o4-mini mejoran de forma importante la capacidad de razonamiento de ChatGPT
Estos dos modelos van más allá de responder preguntas simples y también pueden realizar tareas complejas como uso combinado de herramientas, análisis de material visual, generación de imágenes y ejecución de código Python
En particular, cuando el usuario hace una pregunta, tienen la capacidad de decidir por sí mismos y ejecutar qué herramientas usar y en qué momento
Destacan en la resolución de problemas complejos, el razonamiento visual y el análisis de múltiples pasos, y buscan un estilo de conversación más humano
o3 es un modelo para resolver problemas complejos, mientras que o4-mini está pensado para un razonamiento rápido y eficiente, buscando al mismo tiempo alto rendimiento y alta eficiencia
Cuentan con capacidad de razonamiento multimodal para pensar con imágenes y texto al mismo tiempo, además de una avanzada capacidad de uso de herramientas tipo agente

Cambios clave en las funciones

OpenAI o3

El modelo centrado en razonamiento más potente hasta ahora
Logra rendimiento de vanguardia en múltiples áreas como programación, matemáticas, ciencia y análisis visual
Registra el mejor desempeño en benchmarks como Codeforces, SWE-bench y MMMU
Según evaluaciones de expertos externos, tiene una tasa de errores graves 20% menor que o1
Sobresale en generación de ideas y evaluación crítica en campos como programación, consultoría, biología e ingeniería

OpenAI o4-mini

Modelo pequeño optimizado para velocidad y eficiencia de costos
Destaca especialmente en matemáticas, programación y resolución de problemas visuales
Ofrece un rendimiento líder en su clase en los benchmarks AIME 2024 y 2025
También muestra gran desempeño en áreas fuera de STEM en comparación con o3-mini
Es adecuado para entornos que requieren alto volumen de uso y respuestas rápidas

Ambos modelos mejoran frente a los anteriores en comprensión de instrucciones, utilidad de las respuestas y confiabilidad
También se fortalecieron sus capacidades de memoria conversacional y de respuestas personalizadas

Capacidades multimodales

Las imágenes pueden usarse no solo para reconocimiento, sino también como parte del razonamiento
Los usuarios pueden subir fotos de pizarrones, diagramas de libros, dibujos a mano, etc.
Los modelos pueden reconocer y analizar incluso imágenes borrosas o distorsionadas
También pueden realizar automáticamente procesamiento de imágenes como rotación, ampliación y transformación mediante herramientas
Mejora la capacidad de resolver problemas complejos al fusionar información textual y visual

Razonamiento centrado en el uso de herramientas

o3 y o4-mini pueden acceder a todas las herramientas de ChatGPT
Cuando el usuario hace una pregunta, determinan y usan automáticamente las herramientas necesarias, como búsqueda web, análisis de archivos o ejecución de código
Ejemplo: ante una solicitud como “pronosticar el consumo eléctrico de verano en California”, pueden realizar de forma continua búsqueda web → generación de código Python → creación de gráficos
Permiten uso de información en tiempo real, razonamiento de múltiples pasos y respuestas que integran distintas modalidades

Rendimiento de razonamiento eficiente

Comparación de rendimiento frente al costo

o3 logra una enorme mejora en eficiencia de costos frente a o1, y o4-mini frente a o3-mini
Según los resultados de la competencia matemática AIME 2025, tanto o3 como o4-mini son más baratos y más inteligentes que sus predecesores
Se espera que también en entornos de uso real sean una opción más inteligente y más económica

Mejoras de seguridad

Fueron reentrenados con nuevos datos de entrenamiento para mejorar la capacidad de rechazar amenazas biológicas, malware y prompts de jailbreak
Se introdujo un sistema de monitoreo de seguridad basado en LLM que detecta automáticamente los riesgos en las respuestas del modelo
Según pruebas internas, logró detectar con éxito más del 99% de las conversaciones riesgosas
En áreas de riesgo como bio/química, ciberseguridad y auto-mejora de IA, fueron evaluados como por debajo del nivel de alto riesgo
La verificación de estabilidad se completó de acuerdo con los criterios más recientes del Preparedness Framework

Codex CLI: agente avanzado de razonamiento para usar en la terminal

Herramienta que permite usar en la terminal la capacidad de razonamiento de o3 y o4-mini
Los usuarios pueden proporcionar directamente al modelo mediante la CLI código, imágenes, capturas de pantalla, etc.
El modelo puede vincularse con código del entorno local para realizar razonamiento multimodal
Se publicó como open source: github.com/openai/codex
OpenAI también inició un programa de apoyo de 1 millón de dólares para proyectos basados en Codex CLI

Cómo acceder

Usuarios de ChatGPT Plus, Pro y Team: acceso inmediato a los modelos o3, o4-mini y o4-mini-high
Usuarios de Enterprise y Education: acceso a partir de una semana después
Los usuarios gratuitos también pueden usar o4-mini si seleccionan la opción “Think”
Los usuarios de la API también pueden usarlo desde hoy (puede requerirse verificación de la organización)
En la Responses API se ofrecerán varias funciones, como resúmenes de razonamiento, preservación del razonamiento alrededor de llamadas a funciones y herramienta de búsqueda web, entre otras

Próxima dirección

Está previsto fusionar la capacidad de razonamiento especializada de la serie o con la capacidad de conversación natural de la serie GPT
En adelante, evolucionará hacia modelos capaces de usar herramientas de forma activa mientras mantienen una conversación natural

1 comentarios

GN⁺ 2025-04-17

Comentarios en Hacker News

Hicieron una pregunta técnica sobre la ingeniería inversa de Final Fantasy VII, pero la IA dio información incorrecta
- La IA buscó información en foros y sitios, pero inventó detalles erróneos, así que el resultado fue impreciso
- La IA parecía reconocer que no sabía la respuesta, pero aun así presentó valores incorrectos con confianza
- Esperan que, si la IA no puede encontrar la respuesta correcta, lo diga con honestidad
Usaron o3 para instalar la versión más reciente de WebStorm en NixOS, y ejecutó una VM de NixOS, descargó paquetes y dio instrucciones de instalación
- Parece que incluso realizó pruebas de GUI, lo cual es muy impresionante
Claude 3.7 sigue mostrando el mejor rendimiento en SWE-bench
- Es posible que los modelos de OpenAI también muestren un rendimiento similar
Lograron completar con éxito una simple “prueba de Turing” de escribir un convertidor base 62 en C# usando o4-mini-high
Le preguntaron a varias IA por la fecha de luna nueva de agosto de 2025, pero la mayoría dio respuestas incorrectas
- Claude se negó a responder sobre cómo bloquear un motor de búsqueda específico
o3 y o4 reconocen cuando no tienen una herramienta de búsqueda web disponible y se niegan a responder
- 4o y 4.1 dan información incorrecta
- La nueva función de búsqueda web es útil y permite eliminar scripts innecesarios de Python
Codex CLI está disponible como código abierto
No hubo comparación con Sonnet 3.7 ni con Gemini Pro 2.5
El aprendizaje por refuerzo a gran escala tiende a mejorar el rendimiento a medida que usa más recursos de cómputo
- Queda la duda de cuánto tiempo se mantendrá esa tendencia
Como consumidores, resulta cansado seguir qué modelo conviene usar

OpenAI presenta los modelos o3 y o4-mini

Cambios clave en las funciones

OpenAI o3

OpenAI o4-mini

Capacidades multimodales

Razonamiento centrado en el uso de herramientas

Rendimiento de razonamiento eficiente

Comparación de rendimiento frente al costo

Mejoras de seguridad

Codex CLI: agente avanzado de razonamiento para usar en la terminal

Cómo acceder

Próxima dirección

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News