3 puntos por GN⁺ 2026-03-18 | 1 comentarios | Compartir por WhatsApp
  • Implementan el rendimiento de GPT‑5.4 en una forma rápida y eficiente
  • GPT‑5.4 mini mejora significativamente frente a GPT‑5 mini en codificación, razonamiento, comprensión multimodal y uso de herramientas, y es más del doble de rápido
  • GPT‑5.4 nano es el modelo más pequeño y más económico, adecuado para clasificación, extracción de datos, ranking y tareas de apoyo de codificación
  • Ambos modelos están diseñados para cargas de trabajo donde la latencia es importante, por lo que resultan favorables para asistentes de codificación que requieren capacidad de respuesta o aplicaciones multimodales en tiempo real
  • Estos modelos permiten configurar sistemas de IA ligeros optimizando el equilibrio entre velocidad, costo y rendimiento

Resumen de GPT‑5.4 mini y nano

  • GPT‑5.4 mini y nano son versiones pequeñas y de alta eficiencia de GPT‑5.4, diseñadas para ofrecer respuestas rápidas en entornos de procesamiento a gran escala
    • mini mejora frente a GPT‑5 mini en codificación, razonamiento, comprensión multimodal y uso de herramientas
    • nano es el modelo más pequeño y más económico, con mejor rendimiento que GPT‑5 nano
  • Ambos modelos están optimizados para entornos donde la latencia afecta directamente la experiencia del producto (asistencia de codificación, subagentes, interpretación de capturas de pantalla, inferencia de imágenes en tiempo real, etc.)
  • OpenAI enfatiza que “el mejor modelo no siempre es el más grande”, destacando la rapidez de respuesta y el uso estable de herramientas

Comparación de rendimiento

  • En los principales benchmarks, GPT‑5.4 mini obtiene puntajes más altos que GPT‑5 mini y muestra un rendimiento cercano a GPT‑5.4
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • En Terminal‑Bench 2.0, Toolathlon y GPQA Diamond, mini también muestra alta eficiencia de velocidad frente al rendimiento
  • nano ofrece la mejor eficiencia de costos en entornos donde la velocidad y el costo son clave

Flujo de trabajo de codificación

  • Ambos modelos son adecuados para entornos de codificación que requieren iteración rápida
    • Funcionan con baja latencia en edición de código, exploración de codebases, generación de frontend y bucles de depuración
  • GPT‑5.4 mini registra una mayor tasa de aprobación (pass rate) con latencia similar que GPT‑5 mini, acercándose al nivel de GPT‑5.4
  • En entornos Codex, los modelos grandes realizan la planificación y el juicio, mientras que mini actúa como subagente que procesa tareas de detalle en paralelo
    • Ej.: búsqueda de código, revisión de archivos grandes, procesamiento de documentos, etc.
  • Esta estructura se vuelve aún más útil a medida que mejoran la velocidad y el rendimiento de los modelos pequeños

Uso de computadora y procesamiento multimodal

  • GPT‑5.4 mini también muestra un rendimiento sólido en tareas multimodales relacionadas con el uso de computadora
    • Interpreta rápidamente capturas de pantalla de interfaces de usuario complejas para ejecutar tareas
    • En OSWorld‑Verified se acerca a GPT‑5.4 y supera ampliamente a GPT‑5 mini

Disponibilidad y precios

  • GPT‑5.4 mini
    • Disponible en API, Codex y ChatGPT
    • Funciones compatibles: entrada de texto e imagen, uso de herramientas, llamada de funciones, búsqueda web y de archivos, uso de computadora y skills
    • Ventana de contexto de 400k, $0.75 por cada millón de tokens de entrada y $4.50 por cada millón de tokens de salida
    • En Codex usa solo el 30% de la cuota de GPT‑5.4 y puede resolver tareas de codificación simples a aproximadamente 1/3 del costo
    • En ChatGPT se ofrece a usuarios Free y Go con la función “Thinking”, y para otros usuarios se usa como modelo de respaldo (fallback) de GPT‑5.4 Thinking
  • GPT‑5.4 nano
    • Disponible solo vía API
    • $0.20 por cada millón de tokens de entrada y $1.25 por cada millón de tokens de salida

Resultados adicionales detallados de benchmarks

  • Codificación
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • Llamado de herramientas
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench (comunicación): mini 93.4%, nano 92.5%
  • Evaluación de inteligencia
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • Multimodal y visión
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (más bajo es mejor)
  • Contexto largo
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

Evaluación general

  • GPT‑5.4 mini y nano son modelos ligeros que maximizan el equilibrio entre velocidad, costo y rendimiento, adecuados para aplicaciones en tiempo real a gran escala
  • mini puede desempeñar un papel clave en arquitecturas de subagentes o sistemas multimodales, mientras que nano es eficiente para tareas simples y de alto volumen
  • Con estos dos modelos, OpenAI ofrece una base para configurar con flexibilidad sistemas de IA de distintos tamaños

1 comentarios

 
GN⁺ 2026-03-18
Comentarios en Hacker News
  • Revisé la velocidad actual vía API y fue bastante impresionante.
    GPT-5 Mini normalmente iba a 55~60 tokens/s, y en modo priority a unos 115~120 t/s; GPT-5.4 Mini promediaba 180~190 t/s, y GPT-5.4 Nano rondaba los 200 t/s.
    Para comparar, Gemini 3 Flash estaba en alrededor de 130 t/s (Gemini API), y en Vertex como en 120 t/s.
    Viendo también los precios, Claude Opus 4.6 queda en $5/$25, GPT-5.4 en $2.5/$15, Gemini 3.1 Pro en $2/$12, etc.

    • Con solo token/s no basta. También hay que ver el TTFT (tiempo hasta el primer token) y la latencia total para saber el rendimiento real de uso de la API.
    • Si solo es rápido al generar pero la etapa de razonamiento (reasoning) es larga, en realidad puede terminar siendo más lento. Incluso con menos token/s, un razonamiento más concentrado puede ser más eficiente.
    • Aunque Google parece tener ventaja en recursos o costos, me da curiosidad por qué la gente sigue eligiendo GPT o Claude.
    • Estaría bien que, además de la velocidad de salida, midieran también la velocidad de procesamiento del prompt por proveedor principal.
    • El precio de los modelos baratos subió bastante. Antes era cómodo usarlos, pero ahora ya pesan más.
  • Compartieron una cuadrícula comparando imágenes de pelícanos de varios modelos.

    • A estas alturas, este tipo de tarea probablemente ya esté incluida en los datos de entrenamiento.
    • Algunas imágenes tienen una vibra de pesadilla, pero por eso mismo me gustan más.
    • Personalmente, la versión nano xhigh del pelícano es la que más me gustó.
    • El nano medium parece generado justo cuando el servidor se estaba incendiando.
  • Los modelos GPT me gustan para conversar, pero mi experiencia con trabajo agentivo (agentic work) ha sido mala.
    Son lentos y no entienden bien las instrucciones. Con el mismo prompt, otros modelos sí funcionan bien.

    • 5.4 Mini es lo bastante rápido para aplicaciones de voz, pero le falta capacidad para seguir instrucciones. Estoy pensando en hacer fine-tuning a Qwen 3.5 9B.
    • Gemini 3.1 y Claude Opus 4.6 pasaron el umbral, pero la familia ChatGPT está demasiado enfocada en lo conversacional. Conserva mal el contexto, así que hace falta verificar los resultados.
    • GPT 5.2 Codex pierde el contexto con frecuencia, y Claude funciona mucho más natural en GitHub Copilot. GPT tarda 20 minutos incluso en refactorizaciones simples.
    • Hice análisis de datos con 5.4 Pro y fue demasiado lento. Sonnet 4.6 fue mucho más rápido. Para la mayoría de tareas, algo como Haiku ya basta.
    • En cambio, yo siento que Codex es el mejor. Eso sí, su estilo tan frío hace que las conversaciones sean cortas y cueste intervenir.
      Opus es más colaborativo, pero a veces propone cosas raras. El prompt de Codex está en el repositorio OpenCode.
  • Yo creo que los lanzamientos de modelos pequeños (mini) son más importantes que el SOTA.
    Los modelos grandes ya son suficientemente buenos como para que cueste notar diferencias, pero en los pequeños cada cambio de versión trae un salto de calidad grande.
    Además, son mucho más baratos, así que es más fácil aplicarlos en servicios reales.

    • La webapp de Gemini cambia automáticamente a Flash, y cuando la respuesta sale rara o la lógica falla, se nota de inmediato. Para uso diario todavía le falta, pero para automatización simple ya es suficientemente bueno.
    • GPT 5.4 es flojo para trabajar con interfaces de Svelte, y Gemini tiende a implementar de inmediato en vez de debatir. Claude abusa del tipo any en TypeScript.
    • Según los resultados comparativos, la diferencia entre 5 mini y 5.4 mini es pequeña, pero 5.4 mini es inestable aunque más certero.
    • En la práctica, los precios sí van al alza. GPT 5.4 mini cuesta cerca de 3 veces más que 5.0 mini. Gemini 3.1 Flash Lite también está más caro que antes.
    • Tampoco es tan barato frente a los modelos abiertos, y además tiene menos inteligencia. Salvo que necesites minimizar la latencia, hay poca razón para usarlo.
  • Me pregunto por qué la evaluación de LLM se hace tanto por sensación (“vibe check”).
    La mayoría de comparaciones no se basan en experimentos sistemáticos, sino en pruebas improvisadas.

    • No es un problema puramente de ingeniería. La definición misma de inteligencia y capacidad sigue incompleta. Los benchmarks actuales tienen muchos defectos.
    • Cuando se crea un benchmark, siempre aparecen quejas de que “no sirve para nada”, pero evaluar por intuición es mucho peor.
    • Los sets de evaluación públicos quedan rápidamente inutilizados por el problema del bosque oscuro. Como además su poder predictivo es débil, quizá sea mejor tratar los enfoques informales de una manera más científica.
    • También salió el chiste de “evaluar por vibes y programar por vibes”.
  • Según los benchmarks, GPT 5.4 Nano supera a GPT-5 Mini en la mayoría de áreas, pero el precio sube en vez de bajar.
    GPT 5 mini: entrada $0.25 / salida $2.00 → GPT 5.4 mini: entrada $0.75 / salida $4.50

    • El modelo se volvió más caro, pero la relación rendimiento/precio mejoró. Puede que ya haya menos razones para mantener modelos de menor rendimiento.
    • Como es un modelo más grande, no puede tener costos de serving más bajos. Si el desempeño mejoró, es natural que sea más caro.
  • La puntuación de OSWorld es interesante. Mini da 72.1%, y la referencia humana 72.4%, casi igual.
    Así que, salvo casos de fallo muy concretos, no habría problema en usar Mini por defecto.
    Pero en una pipeline multimodelo, si un subagente nano pasa intacto todo el historial de mensajes, la “etapa barata” deja de tener sentido.
    Me pregunto si alguien ya midió a partir de qué longitud de contexto nano deja de ser más rápido.

    • (Esto parece un bot).
  • En mis propios benchmarks también Nano da mejores resultados que Mini.
    5.4 mini tiene problemas de consistencia, y hasta con temperature 0 mezcla respuestas correctas e incorrectas.
    Ver enlace comparativo.

  • La puntuación de OSWorld de 5.4 Mini me sorprende. Antes los modelos eran lentos e imprecisos, así que no servían para agentes en tiempo real, pero ahora ya se ve posible.

    • Algunos descartan OSWorld llamándolo “OpenClaw”, pero como evaluación segura de interacción integral es muy potente.
      Por ejemplo, se pueden crear pruebas automáticas comparando el comportamiento entre una app Win32 y su versión web. También es eficiente en costos al escalarlo a gran volumen.
  • En SWE-Bench, 5.4 mini high tiene una precisión y precio parecidos a GPT 5.4 low, pero con más latencia (254 segundos vs 171 segundos).
    Para tareas simples, correrlo con niveles bajos de effort conviene más para ahorrar costos. Aun así, el rendimiento con contextos largos sigue siendo débil.