- Implementan el rendimiento de GPT‑5.4 en una forma rápida y eficiente
- GPT‑5.4 mini mejora significativamente frente a GPT‑5 mini en codificación, razonamiento, comprensión multimodal y uso de herramientas, y es más del doble de rápido
- GPT‑5.4 nano es el modelo más pequeño y más económico, adecuado para clasificación, extracción de datos, ranking y tareas de apoyo de codificación
- Ambos modelos están diseñados para cargas de trabajo donde la latencia es importante, por lo que resultan favorables para asistentes de codificación que requieren capacidad de respuesta o aplicaciones multimodales en tiempo real
- Estos modelos permiten configurar sistemas de IA ligeros optimizando el equilibrio entre velocidad, costo y rendimiento
Resumen de GPT‑5.4 mini y nano
- GPT‑5.4 mini y nano son versiones pequeñas y de alta eficiencia de GPT‑5.4, diseñadas para ofrecer respuestas rápidas en entornos de procesamiento a gran escala
- mini mejora frente a GPT‑5 mini en codificación, razonamiento, comprensión multimodal y uso de herramientas
- nano es el modelo más pequeño y más económico, con mejor rendimiento que GPT‑5 nano
- Ambos modelos están optimizados para entornos donde la latencia afecta directamente la experiencia del producto (asistencia de codificación, subagentes, interpretación de capturas de pantalla, inferencia de imágenes en tiempo real, etc.)
- OpenAI enfatiza que “el mejor modelo no siempre es el más grande”, destacando la rapidez de respuesta y el uso estable de herramientas
Comparación de rendimiento
- En los principales benchmarks, GPT‑5.4 mini obtiene puntajes más altos que GPT‑5 mini y muestra un rendimiento cercano a GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- En Terminal‑Bench 2.0, Toolathlon y GPQA Diamond, mini también muestra alta eficiencia de velocidad frente al rendimiento
- nano ofrece la mejor eficiencia de costos en entornos donde la velocidad y el costo son clave
Flujo de trabajo de codificación
- Ambos modelos son adecuados para entornos de codificación que requieren iteración rápida
- Funcionan con baja latencia en edición de código, exploración de codebases, generación de frontend y bucles de depuración
- GPT‑5.4 mini registra una mayor tasa de aprobación (pass rate) con latencia similar que GPT‑5 mini, acercándose al nivel de GPT‑5.4
- En entornos Codex, los modelos grandes realizan la planificación y el juicio, mientras que mini actúa como subagente que procesa tareas de detalle en paralelo
- Ej.: búsqueda de código, revisión de archivos grandes, procesamiento de documentos, etc.
- Esta estructura se vuelve aún más útil a medida que mejoran la velocidad y el rendimiento de los modelos pequeños
Uso de computadora y procesamiento multimodal
- GPT‑5.4 mini también muestra un rendimiento sólido en tareas multimodales relacionadas con el uso de computadora
- Interpreta rápidamente capturas de pantalla de interfaces de usuario complejas para ejecutar tareas
- En OSWorld‑Verified se acerca a GPT‑5.4 y supera ampliamente a GPT‑5 mini
Disponibilidad y precios
- GPT‑5.4 mini
- Disponible en API, Codex y ChatGPT
- Funciones compatibles: entrada de texto e imagen, uso de herramientas, llamada de funciones, búsqueda web y de archivos, uso de computadora y skills
- Ventana de contexto de 400k, $0.75 por cada millón de tokens de entrada y $4.50 por cada millón de tokens de salida
- En Codex usa solo el 30% de la cuota de GPT‑5.4 y puede resolver tareas de codificación simples a aproximadamente 1/3 del costo
- En ChatGPT se ofrece a usuarios Free y Go con la función “Thinking”, y para otros usuarios se usa como modelo de respaldo (fallback) de GPT‑5.4 Thinking
- GPT‑5.4 nano
- Disponible solo vía API
- $0.20 por cada millón de tokens de entrada y $1.25 por cada millón de tokens de salida
Resultados adicionales detallados de benchmarks
- Codificación
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- Llamado de herramientas
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench (comunicación): mini 93.4%, nano 92.5%
- Evaluación de inteligencia
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- Multimodal y visión
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (más bajo es mejor)
- Contexto largo
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
Evaluación general
- GPT‑5.4 mini y nano son modelos ligeros que maximizan el equilibrio entre velocidad, costo y rendimiento, adecuados para aplicaciones en tiempo real a gran escala
- mini puede desempeñar un papel clave en arquitecturas de subagentes o sistemas multimodales, mientras que nano es eficiente para tareas simples y de alto volumen
- Con estos dos modelos, OpenAI ofrece una base para configurar con flexibilidad sistemas de IA de distintos tamaños
1 comentarios
Comentarios en Hacker News
Revisé la velocidad actual vía API y fue bastante impresionante.
GPT-5 Mini normalmente iba a 55~60 tokens/s, y en modo priority a unos 115~120 t/s; GPT-5.4 Mini promediaba 180~190 t/s, y GPT-5.4 Nano rondaba los 200 t/s.
Para comparar, Gemini 3 Flash estaba en alrededor de 130 t/s (Gemini API), y en Vertex como en 120 t/s.
Viendo también los precios, Claude Opus 4.6 queda en $5/$25, GPT-5.4 en $2.5/$15, Gemini 3.1 Pro en $2/$12, etc.
Compartieron una cuadrícula comparando imágenes de pelícanos de varios modelos.
Los modelos GPT me gustan para conversar, pero mi experiencia con trabajo agentivo (agentic work) ha sido mala.
Son lentos y no entienden bien las instrucciones. Con el mismo prompt, otros modelos sí funcionan bien.
Opus es más colaborativo, pero a veces propone cosas raras. El prompt de Codex está en el repositorio OpenCode.
Yo creo que los lanzamientos de modelos pequeños (mini) son más importantes que el SOTA.
Los modelos grandes ya son suficientemente buenos como para que cueste notar diferencias, pero en los pequeños cada cambio de versión trae un salto de calidad grande.
Además, son mucho más baratos, así que es más fácil aplicarlos en servicios reales.
Me pregunto por qué la evaluación de LLM se hace tanto por sensación (“vibe check”).
La mayoría de comparaciones no se basan en experimentos sistemáticos, sino en pruebas improvisadas.
Según los benchmarks, GPT 5.4 Nano supera a GPT-5 Mini en la mayoría de áreas, pero el precio sube en vez de bajar.
GPT 5 mini: entrada $0.25 / salida $2.00 → GPT 5.4 mini: entrada $0.75 / salida $4.50
La puntuación de OSWorld es interesante. Mini da 72.1%, y la referencia humana 72.4%, casi igual.
Así que, salvo casos de fallo muy concretos, no habría problema en usar Mini por defecto.
Pero en una pipeline multimodelo, si un subagente nano pasa intacto todo el historial de mensajes, la “etapa barata” deja de tener sentido.
Me pregunto si alguien ya midió a partir de qué longitud de contexto nano deja de ser más rápido.
En mis propios benchmarks también Nano da mejores resultados que Mini.
5.4 mini tiene problemas de consistencia, y hasta con temperature 0 mezcla respuestas correctas e incorrectas.
Ver enlace comparativo.
La puntuación de OSWorld de 5.4 Mini me sorprende. Antes los modelos eran lentos e imprecisos, así que no servían para agentes en tiempo real, pero ahora ya se ve posible.
Por ejemplo, se pueden crear pruebas automáticas comparando el comportamiento entre una app Win32 y su versión web. También es eficiente en costos al escalarlo a gran volumen.
En SWE-Bench, 5.4 mini high tiene una precisión y precio parecidos a GPT 5.4 low, pero con más latencia (254 segundos vs 171 segundos).
Para tareas simples, correrlo con niveles bajos de effort conviene más para ahorrar costos. Aun así, el rendimiento con contextos largos sigue siendo débil.