OpenAI presenta GPT-4.1

(openai.com)

3 puntos por GN⁺ 2025-04-15 | 1 comentarios | Compartir por WhatsApp

Se presentan tres modelos: GPT-4.1, GPT-4.1 mini y GPT-4.1 nano
Ofrecen un rendimiento mejorado en general frente a GPT-4o, con mejoras especialmente notables en programación, seguimiento de instrucciones y comprensión de contexto largo
Los tres modelos admiten una ventana de contexto de hasta 1 millón de tokens, por lo que son adecuados para grandes bases de código y análisis de documentos complejos
Ofrecen un gran rendimiento junto con menor latencia y menor costo
Principales mejoras de rendimiento
- Capacidad de programación: 54.6% en SWE-bench Verified, una mejora de +21.4 puntos porcentuales frente a GPT-4o
- Seguimiento de instrucciones: puntuación de 38.3% en MultiChallenge, +10.5 puntos porcentuales frente a GPT-4o
- Comprensión multimodal de contexto largo: 72.0% en Video-MME(long, no subtitles), +6.7 puntos porcentuales frente a GPT-4o
Características de la familia GPT-4.1
- GPT-4.1 mini: mejores resultados de inteligencia que GPT-4o, la mitad de latencia y 83% menos costo
- GPT-4.1 nano: el menor costo y la menor latencia, manteniendo alto rendimiento
GPT-4.5 Preview dejará de estar disponible el 14 de julio de 2025, y se recomienda migrar a la serie GPT-4.1
Visión (comprensión de imágenes y multimodal)
- GPT-4.1 mini supera a GPT-4o en benchmarks basados en imágenes
- Alta precisión en MMMU, MathVista, CharXiv y otros
- Video-MME (preguntas sobre videos sin subtítulos de 30 a 60 minutos): 72.0% de precisión
Política de precios
- Todos los modelos están disponibles para uso público
- GPT-4.1 es en promedio 26% más barato que GPT-4o
- GPT-4.1 nano es el modelo de menor costo
- 75% de descuento en entradas en caché y sin costo adicional por contexto largo
Precios por modelo
- GPT-4.1: entrada $2.00 por 1 millón de tokens, salida $8.00, costo promedio aprox. $1.84
- GPT-4.1 mini: entrada $0.40, salida $1.60, promedio $0.42
- GPT-4.1 nano: entrada $0.10, salida $0.40, promedio $0.12
- El descuento de caché de prompts se amplía del 50% actual hasta 75%
- Las solicitudes de contexto largo no tienen cargo adicional, solo se cobra según el uso de tokens

1 comentarios

GN⁺ 2025-04-15

Opiniones en Hacker News

Un usuario de ChatGPT expresó confusión ante la necesidad de elegir entre varios modelos
- 4o permite búsqueda web, uso de Canvas, evaluación de Python del lado del servidor y generación de imágenes, pero no tiene cadena de pensamiento
- o3-mini permite búsqueda web, CoT y Canvas, pero no puede generar imágenes
- o1 permite CoT, pero no Canvas, búsqueda web ni generación de imágenes
- Deep Research es potente, pero como solo puede usarse 10 veces al mes, casi no lo usa
- 4.5 es excelente para escritura creativa, pero tiene límites de solicitudes y no sabe si admite otras funciones
- Se pregunta por qué 4o "with scheduled tasks" es un modelo y no una herramienta
Comparación de SWE-bench Verified, Aider Polyglot, costo, tokens de salida por segundo y mes/año de corte de conocimiento
- Comparación de rendimiento y costo entre Claude, Gemini, GPT-4.1, DeepSeek R1 y Grok 3 Beta
- La comparación directa es difícil porque pueden incluirse distintos entornos de prueba y niveles de razonamiento
OAI publicó una guía de prompts para GPT 4.1
- Dar persistencia al modelo ayuda a mejorar el rendimiento
- Se recomienda usar XML o arxiv 2406.13121 (formato GDM) en lugar de JSON
- El prompt debe colocarse al principio y al final
Según el anuncio de OpenAI, GPT-4.1 ofreció mejores sugerencias en el 55% de los casos en una comparación de generación de revisión de código contra Claude Sonnet 3.7
- GPT-4.1 destaca en precisión y cobertura
En una Ted Talk reciente, Sam dijo que los modelos van y vienen, pero que quiere convertirse en la mejor plataforma
- Esto se siente como un gran cambio
Experiencia compartida al usar GPT-4.1 en una base de código compleja
- Se siente como el primer modelo agente de OpenAI
- Aún necesita mejoras y las llamadas a herramientas fallan con frecuencia
- Tiene menos capacidad que Claude para manejar complejidad
- Si la solicitud no es demasiado compleja, sigue bien las instrucciones
Se plantea la necesidad de benchmarks sobre el rendimiento de modelos con un máximo de tokens muy largo
- Se experimentó una caída de calidad en modelos Gemini después de 200k
- Se cuestiona si aumentar el límite máximo de tokens realmente es útil
Los grandes laboratorios de investigación en IA están librando varias guerras de mercado al mismo tiempo
- Compiten en varios frentes, como crecimiento de consumidores, cargas de trabajo empresariales, investigación de vanguardia, promesas de razonamiento y respuesta a la amenaza de DeepSeek
Resultado de GPT-4.1 al resumir un hilo de Hacker News con 164 comentarios
- Se evalúa que sigue bien las instrucciones
- Se proporciona el costo total en tokens y una comparación con otros modelos

OpenAI presenta GPT-4.1

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News