3 puntos por GN⁺ 2025-04-15 | 1 comentarios | Compartir por WhatsApp
  • Se presentan tres modelos: GPT-4.1, GPT-4.1 mini y GPT-4.1 nano
  • Ofrecen un rendimiento mejorado en general frente a GPT-4o, con mejoras especialmente notables en programación, seguimiento de instrucciones y comprensión de contexto largo
  • Los tres modelos admiten una ventana de contexto de hasta 1 millón de tokens, por lo que son adecuados para grandes bases de código y análisis de documentos complejos
  • Ofrecen un gran rendimiento junto con menor latencia y menor costo
  • Principales mejoras de rendimiento
    • Capacidad de programación: 54.6% en SWE-bench Verified, una mejora de +21.4 puntos porcentuales frente a GPT-4o
    • Seguimiento de instrucciones: puntuación de 38.3% en MultiChallenge, +10.5 puntos porcentuales frente a GPT-4o
    • Comprensión multimodal de contexto largo: 72.0% en Video-MME(long, no subtitles), +6.7 puntos porcentuales frente a GPT-4o
  • Características de la familia GPT-4.1
    • GPT-4.1 mini: mejores resultados de inteligencia que GPT-4o, la mitad de latencia y 83% menos costo
    • GPT-4.1 nano: el menor costo y la menor latencia, manteniendo alto rendimiento
  • GPT-4.5 Preview dejará de estar disponible el 14 de julio de 2025, y se recomienda migrar a la serie GPT-4.1
  • Visión (comprensión de imágenes y multimodal)
    • GPT-4.1 mini supera a GPT-4o en benchmarks basados en imágenes
    • Alta precisión en MMMU, MathVista, CharXiv y otros
    • Video-MME (preguntas sobre videos sin subtítulos de 30 a 60 minutos): 72.0% de precisión
  • Política de precios
    • Todos los modelos están disponibles para uso público
    • GPT-4.1 es en promedio 26% más barato que GPT-4o
    • GPT-4.1 nano es el modelo de menor costo
    • 75% de descuento en entradas en caché y sin costo adicional por contexto largo
  • Precios por modelo
    • GPT-4.1: entrada $2.00 por 1 millón de tokens, salida $8.00, costo promedio aprox. $1.84
    • GPT-4.1 mini: entrada $0.40, salida $1.60, promedio $0.42
    • GPT-4.1 nano: entrada $0.10, salida $0.40, promedio $0.12
    • El descuento de caché de prompts se amplía del 50% actual hasta 75%
    • Las solicitudes de contexto largo no tienen cargo adicional, solo se cobra según el uso de tokens

1 comentarios

 
GN⁺ 2025-04-15
Opiniones en Hacker News
  • Un usuario de ChatGPT expresó confusión ante la necesidad de elegir entre varios modelos

    • 4o permite búsqueda web, uso de Canvas, evaluación de Python del lado del servidor y generación de imágenes, pero no tiene cadena de pensamiento
    • o3-mini permite búsqueda web, CoT y Canvas, pero no puede generar imágenes
    • o1 permite CoT, pero no Canvas, búsqueda web ni generación de imágenes
    • Deep Research es potente, pero como solo puede usarse 10 veces al mes, casi no lo usa
    • 4.5 es excelente para escritura creativa, pero tiene límites de solicitudes y no sabe si admite otras funciones
    • Se pregunta por qué 4o "with scheduled tasks" es un modelo y no una herramienta
  • Comparación de SWE-bench Verified, Aider Polyglot, costo, tokens de salida por segundo y mes/año de corte de conocimiento

    • Comparación de rendimiento y costo entre Claude, Gemini, GPT-4.1, DeepSeek R1 y Grok 3 Beta
    • La comparación directa es difícil porque pueden incluirse distintos entornos de prueba y niveles de razonamiento
  • OAI publicó una guía de prompts para GPT 4.1

    • Dar persistencia al modelo ayuda a mejorar el rendimiento
    • Se recomienda usar XML o arxiv 2406.13121 (formato GDM) en lugar de JSON
    • El prompt debe colocarse al principio y al final
  • Según el anuncio de OpenAI, GPT-4.1 ofreció mejores sugerencias en el 55% de los casos en una comparación de generación de revisión de código contra Claude Sonnet 3.7

    • GPT-4.1 destaca en precisión y cobertura
  • En una Ted Talk reciente, Sam dijo que los modelos van y vienen, pero que quiere convertirse en la mejor plataforma

    • Esto se siente como un gran cambio
  • Experiencia compartida al usar GPT-4.1 en una base de código compleja

    • Se siente como el primer modelo agente de OpenAI
    • Aún necesita mejoras y las llamadas a herramientas fallan con frecuencia
    • Tiene menos capacidad que Claude para manejar complejidad
    • Si la solicitud no es demasiado compleja, sigue bien las instrucciones
  • Se plantea la necesidad de benchmarks sobre el rendimiento de modelos con un máximo de tokens muy largo

    • Se experimentó una caída de calidad en modelos Gemini después de 200k
    • Se cuestiona si aumentar el límite máximo de tokens realmente es útil
  • Los grandes laboratorios de investigación en IA están librando varias guerras de mercado al mismo tiempo

    • Compiten en varios frentes, como crecimiento de consumidores, cargas de trabajo empresariales, investigación de vanguardia, promesas de razonamiento y respuesta a la amenaza de DeepSeek
  • Resultado de GPT-4.1 al resumir un hilo de Hacker News con 164 comentarios

    • Se evalúa que sigue bien las instrucciones
    • Se proporciona el costo total en tokens y una comparación con otros modelos