2 puntos por GN⁺ 2025-03-03 | 2 comentarios | Compartir por WhatsApp
  • Junto con la presentación de GPT-4.5, OpenAI publicó primero la system card del modelo
  • La system card inicial incluía la frase "GPT-4.5 is not a frontier model" (GPT-4.5 no es un modelo de frontera)
    • Después, esa frase fue eliminada de la publicación oficial del blog y de la system card actualizada
  • Parece que alguien dentro de OpenAI sintió la necesidad de incluir esa frase. Pero entonces, "¿por qué OpenAI lanzó esto?"
  • La principal contradicción de afirmar que no es un modelo frontier es que GPT-4.5 es el modelo más grande que el público general puede probar
    • Escalar a un modelo de este tamaño no genera un salto claro en las capacidades que solemos medir
    • La transición de GPT-3.5 → GPT-4 fue de regular (Okay) a bueno (Good)
    • El cambio de GPT-4o → GPT-4.5 va de excelente (Great) a realmente excelente (Really Great)
  • Como es muy difícil identificar las diferencias entre los modelos más recientes, quienes invierten en IA y esperan avances podrían creer que el progreso es mayor de lo que realmente es
  • Estamos en un punto en el que los límites económicos del scaling se vuelven evidentes, sin la gran mejora de rendimiento que muchos esperaban
    • Anthropic también enfrenta un problema parecido, y se ha confirmado que después de Claude 3.7 entrenará modelos mucho más grandes
  • GPT-4.5 es un modelo que muestra un avance gradual, distinto de los grandes saltos innovadores del pasado
    • Demuestra que en la investigación de IA una simple ampliación del pretraining ya no produce innovaciones del mismo nivel que antes
    • Internamente, OpenAI habría usado GPT-4.5 durante mucho tiempo, y es muy probable que lo haya utilizado para entrenar otros modelos (por el hecho de que su cut-off date parece ser 2023)

¿Qué tiene de bueno GPT-4.5?

  • (Estas son algunas estimaciones sobre la cantidad de parámetros de GPT-4.5 y GPT-4o; no se basan en filtraciones, así que el margen de error puede ser grande)
  • GPT-4.5 es un modelo muy grande, y podría ser más grande que Grok 3
    • GPT-4 era un modelo de mezcla de expertos (MoE) con más de 1 billón (1T) de parámetros totales, y se estima que sus parámetros activos rondaban los 200B
    • Según rumores, modelos como GPT-4o o Gemini Pro habrían reducido sus parámetros activos hasta unos 60B
    • Es decir, los modelos recientes han estado avanzando reduciendo los parámetros activos y optimizando la infraestructura para mejorar velocidad y costo
  • Se estima que GPT-4.5 requiere alrededor de 10 veces más cómputo (10X compute) que GPT-4
    • 5 veces más parámetros + dataset 2 veces más grande = aumento de 10 veces en cómputo
    • Sus parámetros totales podrían llegar a 5-7 billones (5T-7T), con alrededor de 600B de parámetros activos
  • Pero, incluso con esa expansión, la mejora de rendimiento es difícil de percibir claramente.
  • A partir de aquí, la situación se vuelve bastante extraña. Las 2 cosas que OpenAI destacó en este anuncio:
    • Menos alucinaciones (Hallucination): reduce la frecuencia con la que el modelo genera información falsa
    • Mejor inteligencia emocional (Emotional Intelligence): puede entender y expresar mejor el contexto y las emociones
    • Sin embargo, ambas son características difíciles de evaluar objetivamente
  • Rendimiento en benchmarks (según datos proporcionados por OpenAI)
    • SimpleQA: GPT-4.5 muestra una gran mejora al evaluar conocimiento general del mundo en modelos de IA
    • PersonQA: también logra el mejor rendimiento en preguntas sobre personas concretas
    • GPQA (Google-proof QA): obtiene muy buenos resultados incluso en una métrica que evalúa razonamiento lógico sin búsqueda de información
  • Justo después del lanzamiento, entre expertos en IA surgieron opiniones de que GPT-4.5 es cómodo de usar y escribe mejor
    • Pero en evaluaciones de código y rendimiento técnico, fue calificado como de nivel intermedio frente a modelos competidores como Claude 3.7 y R1
  • Comparación del estilo de escritura (según una encuesta de Karpathy en X/Twitter)
    • GPT-4.5 vs. GPT-4o-latest: muchos usuarios prefirieron el estilo de escritura de GPT-4o-latest
    • ¿La razón? Es muy probable que GPT-4o-latest sea un modelo destilado (distilled) a partir de este nuevo modelo, antes llamado Orion1, y como es mucho más pequeño, la diferencia en velocidad de iteración es enorme, lo que podría permitir un mejor post-training
  • Todo esto es el precio que OpenAI tiene que pagar para volver al puesto #1 en el ranking de ChatBotArena
    • Se espera que GPT 4.5 lo consiga, pero el resultado todavía no está definido
  • Según la experiencia previa directa del autor, al principio resultó incómodo por su lentitud, pero su confiabilidad es alta y vale la pena seguir usándolo
    • Sin embargo, no hace falta elegir GPT-4.5 pagando un costo adicional, y o1 Pro de OpenAI y otros servicios de pago ofrecen una mejor relación costo-beneficio

Por qué GPT-4.5 es tan caro

  • Cuando se lanzó GPT-4, su precio también era bastante alto, y de hecho era similar al de GPT-4.5
  • El precio inicial de GPT-4.5 es el siguiente:
    • Entrada (Input): $75.00 / 1M tokens
    • Entrada en caché (Cached Input): $37.50 / 1M tokens
    • Salida (Output): $150.00 / 1M tokens
    • Es decir, arrancó con un precio mucho más alto que los modelos anteriores
  • Modelos anteriores de OpenAI también fueron caros al principio, pero hubo casos en los que su precio bajó mucho de forma gradual
    • GPT-4 (lanzado en marzo de 2023)
      • Al principio costaba $30 por 1 millón de tokens de entrada y $60 por 1 millón de tokens de salida
      • La versión con contexto de 32K era más cara: $60 de entrada y $120 de salida
    • GPT-4 Turbo (lanzado en noviembre de 2023)
      • Se volvió mucho más barato, bajando a $10 de entrada y $30 de salida
    • GPT-4o (lanzado en mayo de 2024)
      • El precio bajó todavía más hasta $2.5 de entrada y $10 de salida, quedando más de 10 veces más barato que GPT-4
    • Así, OpenAI ha mostrado un patrón de bajar considerablemente los precios cada vez que presenta un nuevo modelo
  • Parece que la razón por la que GPT-4.5 tiene un precio tan alto hoy es que al estar en su etapa inicial, se fijó con un margen alto
    • OpenAI menciona que no garantiza que el modelo permanezca en la API y que decidirá según la reacción de los usuarios
  • Muchos expertos esperan que, cuando llegue la GPU de próxima generación de Nvidia, Blackwell, operar modelos más grandes sea más eficiente y bajen los costos
  • Así como los precios fueron bajando de GPT-4 a GPT-4 Turbo y luego a GPT-4o, es muy probable que GPT-4.5 también baje de precio más adelante con una versión tipo GPT-4.5 Turbo

El futuro del scaling

  • El scaling de los modelos de lenguaje todavía no está muerto
    • Pero volver a pensar por qué este anuncio se sintió tan extraño es muy importante para mantener la cabeza fría frente al ritmo de avance de la IA
    • Hemos entrado en una era en la que coexisten ventajas y desventajas entre distintos tipos de scaling
  • En resumen corto, "GPT-4.5 es extraño, pero va adelantado a su tiempo"
    • GPT-4.5 no es solo una expansión simple del modelo, sino una señal de que hace falta una nueva forma de scaling
    • Esto significa que el avance de la IA ya no puede depender solo de hacer más grande el modelo (Scaling Up), y debe tomar otras rutas, aunque eso ya lo sabíamos por el rápido avance de los modelos de razonamiento
    • El verdadero impacto de GPT-4.5 se mostrará cuando se combine con varias líneas de avance rápido
  • El paper de R1 de DeepSeek y estudios posteriores sobre RL concluyen que cuanto más grande es el modelo, más efectivo es el entrenamiento con RL
    • Es muy probable que el modelo o4 de OpenAI también sea entrenado aprovechando un modelo de razonamiento basado en GPT-4.5
    • Los modelos actuales de OpenAI no serían tan buenos sin GPT-4.5
  • Es posible que, en menos de un año, la mayoría de los modelos lleguen al tamaño de GPT-4.5 y además sean mucho más rápidos
    • Las mejoras “equilibradas” ayudarán a que más aplicaciones sean más robustas
    • OpenAI y otros investigadores de laboratorios de IA están intentando escalar modelos más allá de los límites de la infraestructura actual
  • Si un frontier lab no supera los límites en todas las direcciones posibles del scaling, entonces no está asumiendo suficientes riesgos
    • No hace falta publicar el modelo, pero vale la pena especular sobre por qué OpenAI realmente quiso hacer esto
    • Como es muy probable que GPT-4.5 ya se esté usando en otros sistemas internos y pronto también en otros productos externos, lanzar este modelo no sería un rodeo, sino un paso natural hacia la siguiente etapa
  • GPT-4.5 sí es un modelo frontier, pero su lanzamiento no resulta especialmente emocionante
    • El avance de la IA no es gratis y requiere mucho esfuerzo
    • Lo importante no es GPT-4.5 en sí, sino que su verdadero valor aparecerá cuando este modelo se combine con otras tecnologías

2 comentarios

 
doolayer 2025-03-03

Como muchos benchmarks ya están saturados, parece natural que la tendencia sea enfocarse en la usabilidad y en las alucinaciones.

 
GN⁺ 2025-03-03
Opiniones de Hacker News
  • GPT 4.5 también tiene un corte de conocimiento hasta octubre de 2023

    • Es posible que el preentrenamiento de este modelo se haya completado hace al menos 1 año
    • OpenAI pudo haberse concentrado en otros proyectos como Q-star/strawberry
  • Puede que los modelos de razonamiento de OpenAI no sean tan potentes como se esperaba

    • Han aparecido modelos sólidos que no razonan, como Gemini 2.0 Flash, Grok 3 y Sonnet 3.7
    • OpenAI pudo haber sentido la necesidad de lanzar algo, al menos de cara al público
  • El precio es algo misterioso

    • Podría reflejar un modelo antiguo sin los trucos de eficiencia más recientes
    • GPT-4.5 podría ser una forma de que OpenAI averigüe cuánto está dispuesta a pagar la gente
  • El salto de GPT-4o a 4.5 no es un gran salto

    • Tiene precio de lujo, pero no ofrece una recompensa de lujo
  • GPT-4.5 puede procesar pensamientos complejos y sutiles muy rápido

    • Es muy superior a otras IA
  • GPT-4.5 no se va por direcciones extrañas y se mantiene anclado en la realidad

    • Responde bien a preferencias de tono y entiende bien los matices
  • A largo plazo, podría ser difícil monetizar la infraestructura

    • Es probable que la API para programación use más Claude 3.5/3.7
    • Para APIs no orientadas a programación, Gemini 2.0 Flash es más barato y rinde mejor
    • En apps por suscripción, ChatGPT sigue siendo el mejor, pero Grok está compitiendo
  • GPT-4.5 es un poco mejor para la "escritura creativa"

    • Anthropic lanzó nuevos modelos que resuelven problemas más prácticos
  • Parece que se está llegando al límite de la tecnología

  • Hay quien opina que dos frases no son contradictorias

    • Aunque se amplió el tamaño del modelo, no hubo una mejora clara en capacidades
    • El salto de GPT-4o a GPT-4.5 hizo que el modelo fuera excelente
  • Se duda de que realmente haya gente mirando ese último porcentaje en los benchmarks

    • Podría ser un error asumir que los benchmarks son 100% precisos
  • Todos los modelos GPT4o de Azure dejarán de estar disponibles en mayo

    • Estoy considerando si debería cambiarme a Anthropic
    • Se necesita información sobre la fecha de lanzamiento del nuevo modelo "o"