- Se presentan tres modelos: GPT-4.1, GPT-4.1 mini y GPT-4.1 nano
- Ofrecen un rendimiento mejorado en general frente a GPT-4o, con mejoras especialmente notables en programación, seguimiento de instrucciones y comprensión de contexto largo
- Los tres modelos admiten una ventana de contexto de hasta 1 millón de tokens, por lo que son adecuados para grandes bases de código y análisis de documentos complejos
- Ofrecen un gran rendimiento junto con menor latencia y menor costo
- Principales mejoras de rendimiento
- Capacidad de programación: 54.6% en SWE-bench Verified, una mejora de +21.4 puntos porcentuales frente a GPT-4o
- Seguimiento de instrucciones: puntuación de 38.3% en MultiChallenge, +10.5 puntos porcentuales frente a GPT-4o
- Comprensión multimodal de contexto largo: 72.0% en Video-MME(long, no subtitles), +6.7 puntos porcentuales frente a GPT-4o
- Características de la familia GPT-4.1
- GPT-4.1 mini: mejores resultados de inteligencia que GPT-4o, la mitad de latencia y 83% menos costo
- GPT-4.1 nano: el menor costo y la menor latencia, manteniendo alto rendimiento
- GPT-4.5 Preview dejará de estar disponible el 14 de julio de 2025, y se recomienda migrar a la serie GPT-4.1
- Visión (comprensión de imágenes y multimodal)
- GPT-4.1 mini supera a GPT-4o en benchmarks basados en imágenes
- Alta precisión en MMMU, MathVista, CharXiv y otros
- Video-MME (preguntas sobre videos sin subtítulos de 30 a 60 minutos): 72.0% de precisión
- Política de precios
- Todos los modelos están disponibles para uso público
- GPT-4.1 es en promedio 26% más barato que GPT-4o
- GPT-4.1 nano es el modelo de menor costo
- 75% de descuento en entradas en caché y sin costo adicional por contexto largo
- Precios por modelo
- GPT-4.1: entrada $2.00 por 1 millón de tokens, salida $8.00, costo promedio aprox. $1.84
- GPT-4.1 mini: entrada $0.40, salida $1.60, promedio $0.42
- GPT-4.1 nano: entrada $0.10, salida $0.40, promedio $0.12
- El descuento de caché de prompts se amplía del 50% actual hasta 75%
- Las solicitudes de contexto largo no tienen cargo adicional, solo se cobra según el uso de tokens
1 comentarios
Opiniones en Hacker News
Un usuario de ChatGPT expresó confusión ante la necesidad de elegir entre varios modelos
Comparación de SWE-bench Verified, Aider Polyglot, costo, tokens de salida por segundo y mes/año de corte de conocimiento
OAI publicó una guía de prompts para GPT 4.1
Según el anuncio de OpenAI, GPT-4.1 ofreció mejores sugerencias en el 55% de los casos en una comparación de generación de revisión de código contra Claude Sonnet 3.7
En una Ted Talk reciente, Sam dijo que los modelos van y vienen, pero que quiere convertirse en la mejor plataforma
Experiencia compartida al usar GPT-4.1 en una base de código compleja
Se plantea la necesidad de benchmarks sobre el rendimiento de modelos con un máximo de tokens muy largo
Los grandes laboratorios de investigación en IA están librando varias guerras de mercado al mismo tiempo
Resultado de GPT-4.1 al resumir un hilo de Hacker News con 164 comentarios