GPT-4.5: ¿"No es un modelo frontier"?

(interconnects.ai)

2 puntos por GN⁺ 2025-03-03 | 2 comentarios | Compartir por WhatsApp

Junto con la presentación de GPT-4.5, OpenAI publicó primero la system card del modelo
La system card inicial incluía la frase "GPT-4.5 is not a frontier model" (GPT-4.5 no es un modelo de frontera)
- Después, esa frase fue eliminada de la publicación oficial del blog y de la system card actualizada
Parece que alguien dentro de OpenAI sintió la necesidad de incluir esa frase. Pero entonces, "¿por qué OpenAI lanzó esto?"
La principal contradicción de afirmar que no es un modelo frontier es que GPT-4.5 es el modelo más grande que el público general puede probar
- Escalar a un modelo de este tamaño no genera un salto claro en las capacidades que solemos medir
- La transición de GPT-3.5 → GPT-4 fue de regular (Okay) a bueno (Good)
- El cambio de GPT-4o → GPT-4.5 va de excelente (Great) a realmente excelente (Really Great)
Como es muy difícil identificar las diferencias entre los modelos más recientes, quienes invierten en IA y esperan avances podrían creer que el progreso es mayor de lo que realmente es
Estamos en un punto en el que los límites económicos del scaling se vuelven evidentes, sin la gran mejora de rendimiento que muchos esperaban
- Anthropic también enfrenta un problema parecido, y se ha confirmado que después de Claude 3.7 entrenará modelos mucho más grandes
GPT-4.5 es un modelo que muestra un avance gradual, distinto de los grandes saltos innovadores del pasado
- Demuestra que en la investigación de IA una simple ampliación del pretraining ya no produce innovaciones del mismo nivel que antes
- Internamente, OpenAI habría usado GPT-4.5 durante mucho tiempo, y es muy probable que lo haya utilizado para entrenar otros modelos (por el hecho de que su cut-off date parece ser 2023)

¿Qué tiene de bueno GPT-4.5?

(Estas son algunas estimaciones sobre la cantidad de parámetros de GPT-4.5 y GPT-4o; no se basan en filtraciones, así que el margen de error puede ser grande)
GPT-4.5 es un modelo muy grande, y podría ser más grande que Grok 3
- GPT-4 era un modelo de mezcla de expertos (MoE) con más de 1 billón (1T) de parámetros totales, y se estima que sus parámetros activos rondaban los 200B
- Según rumores, modelos como GPT-4o o Gemini Pro habrían reducido sus parámetros activos hasta unos 60B
- Es decir, los modelos recientes han estado avanzando reduciendo los parámetros activos y optimizando la infraestructura para mejorar velocidad y costo
Se estima que GPT-4.5 requiere alrededor de 10 veces más cómputo (10X compute) que GPT-4
- 5 veces más parámetros + dataset 2 veces más grande = aumento de 10 veces en cómputo
- Sus parámetros totales podrían llegar a 5-7 billones (5T-7T), con alrededor de 600B de parámetros activos
Pero, incluso con esa expansión, la mejora de rendimiento es difícil de percibir claramente.
A partir de aquí, la situación se vuelve bastante extraña. Las 2 cosas que OpenAI destacó en este anuncio:
- Menos alucinaciones (Hallucination): reduce la frecuencia con la que el modelo genera información falsa
- Mejor inteligencia emocional (Emotional Intelligence): puede entender y expresar mejor el contexto y las emociones
- Sin embargo, ambas son características difíciles de evaluar objetivamente
Rendimiento en benchmarks (según datos proporcionados por OpenAI)
- SimpleQA: GPT-4.5 muestra una gran mejora al evaluar conocimiento general del mundo en modelos de IA
- PersonQA: también logra el mejor rendimiento en preguntas sobre personas concretas
- GPQA (Google-proof QA): obtiene muy buenos resultados incluso en una métrica que evalúa razonamiento lógico sin búsqueda de información
Justo después del lanzamiento, entre expertos en IA surgieron opiniones de que GPT-4.5 es cómodo de usar y escribe mejor
- Pero en evaluaciones de código y rendimiento técnico, fue calificado como de nivel intermedio frente a modelos competidores como Claude 3.7 y R1
Comparación del estilo de escritura (según una encuesta de Karpathy en X/Twitter)
- GPT-4.5 vs. GPT-4o-latest: muchos usuarios prefirieron el estilo de escritura de GPT-4o-latest
- ¿La razón? Es muy probable que GPT-4o-latest sea un modelo destilado (distilled) a partir de este nuevo modelo, antes llamado Orion1, y como es mucho más pequeño, la diferencia en velocidad de iteración es enorme, lo que podría permitir un mejor post-training
Todo esto es el precio que OpenAI tiene que pagar para volver al puesto #1 en el ranking de ChatBotArena
- Se espera que GPT 4.5 lo consiga, pero el resultado todavía no está definido
Según la experiencia previa directa del autor, al principio resultó incómodo por su lentitud, pero su confiabilidad es alta y vale la pena seguir usándolo
- Sin embargo, no hace falta elegir GPT-4.5 pagando un costo adicional, y o1 Pro de OpenAI y otros servicios de pago ofrecen una mejor relación costo-beneficio

Por qué GPT-4.5 es tan caro

Cuando se lanzó GPT-4, su precio también era bastante alto, y de hecho era similar al de GPT-4.5
El precio inicial de GPT-4.5 es el siguiente:
- Entrada (Input): $75.00 / 1M tokens
- Entrada en caché (Cached Input): $37.50 / 1M tokens
- Salida (Output): $150.00 / 1M tokens
- Es decir, arrancó con un precio mucho más alto que los modelos anteriores
Modelos anteriores de OpenAI también fueron caros al principio, pero hubo casos en los que su precio bajó mucho de forma gradual
- GPT-4 (lanzado en marzo de 2023)
  - Al principio costaba $30 por 1 millón de tokens de entrada y $60 por 1 millón de tokens de salida
  - La versión con contexto de 32K era más cara: $60 de entrada y $120 de salida
- GPT-4 Turbo (lanzado en noviembre de 2023)
  - Se volvió mucho más barato, bajando a $10 de entrada y $30 de salida
- GPT-4o (lanzado en mayo de 2024)
  - El precio bajó todavía más hasta $2.5 de entrada y $10 de salida, quedando más de 10 veces más barato que GPT-4
- Así, OpenAI ha mostrado un patrón de bajar considerablemente los precios cada vez que presenta un nuevo modelo
Parece que la razón por la que GPT-4.5 tiene un precio tan alto hoy es que al estar en su etapa inicial, se fijó con un margen alto
- OpenAI menciona que no garantiza que el modelo permanezca en la API y que decidirá según la reacción de los usuarios
Muchos expertos esperan que, cuando llegue la GPU de próxima generación de Nvidia, Blackwell, operar modelos más grandes sea más eficiente y bajen los costos
Así como los precios fueron bajando de GPT-4 a GPT-4 Turbo y luego a GPT-4o, es muy probable que GPT-4.5 también baje de precio más adelante con una versión tipo GPT-4.5 Turbo

El futuro del scaling

El scaling de los modelos de lenguaje todavía no está muerto
- Pero volver a pensar por qué este anuncio se sintió tan extraño es muy importante para mantener la cabeza fría frente al ritmo de avance de la IA
- Hemos entrado en una era en la que coexisten ventajas y desventajas entre distintos tipos de scaling
En resumen corto, "GPT-4.5 es extraño, pero va adelantado a su tiempo"
- GPT-4.5 no es solo una expansión simple del modelo, sino una señal de que hace falta una nueva forma de scaling
- Esto significa que el avance de la IA ya no puede depender solo de hacer más grande el modelo (Scaling Up), y debe tomar otras rutas, aunque eso ya lo sabíamos por el rápido avance de los modelos de razonamiento
- El verdadero impacto de GPT-4.5 se mostrará cuando se combine con varias líneas de avance rápido
El paper de R1 de DeepSeek y estudios posteriores sobre RL concluyen que cuanto más grande es el modelo, más efectivo es el entrenamiento con RL
- Es muy probable que el modelo o4 de OpenAI también sea entrenado aprovechando un modelo de razonamiento basado en GPT-4.5
- Los modelos actuales de OpenAI no serían tan buenos sin GPT-4.5
Es posible que, en menos de un año, la mayoría de los modelos lleguen al tamaño de GPT-4.5 y además sean mucho más rápidos
- Las mejoras “equilibradas” ayudarán a que más aplicaciones sean más robustas
- OpenAI y otros investigadores de laboratorios de IA están intentando escalar modelos más allá de los límites de la infraestructura actual
Si un frontier lab no supera los límites en todas las direcciones posibles del scaling, entonces no está asumiendo suficientes riesgos
- No hace falta publicar el modelo, pero vale la pena especular sobre por qué OpenAI realmente quiso hacer esto
- Como es muy probable que GPT-4.5 ya se esté usando en otros sistemas internos y pronto también en otros productos externos, lanzar este modelo no sería un rodeo, sino un paso natural hacia la siguiente etapa
GPT-4.5 sí es un modelo frontier, pero su lanzamiento no resulta especialmente emocionante
- El avance de la IA no es gratis y requiere mucho esfuerzo
- Lo importante no es GPT-4.5 en sí, sino que su verdadero valor aparecerá cuando este modelo se combine con otras tecnologías

2 comentarios

doolayer 2025-03-03

Como muchos benchmarks ya están saturados, parece natural que la tendencia sea enfocarse en la usabilidad y en las alucinaciones.

GN⁺ 2025-03-03

Opiniones de Hacker News

GPT 4.5 también tiene un corte de conocimiento hasta octubre de 2023
- Es posible que el preentrenamiento de este modelo se haya completado hace al menos 1 año
- OpenAI pudo haberse concentrado en otros proyectos como Q-star/strawberry
Puede que los modelos de razonamiento de OpenAI no sean tan potentes como se esperaba
- Han aparecido modelos sólidos que no razonan, como Gemini 2.0 Flash, Grok 3 y Sonnet 3.7
- OpenAI pudo haber sentido la necesidad de lanzar algo, al menos de cara al público
El precio es algo misterioso
- Podría reflejar un modelo antiguo sin los trucos de eficiencia más recientes
- GPT-4.5 podría ser una forma de que OpenAI averigüe cuánto está dispuesta a pagar la gente
El salto de GPT-4o a 4.5 no es un gran salto
- Tiene precio de lujo, pero no ofrece una recompensa de lujo
GPT-4.5 puede procesar pensamientos complejos y sutiles muy rápido
- Es muy superior a otras IA
GPT-4.5 no se va por direcciones extrañas y se mantiene anclado en la realidad
- Responde bien a preferencias de tono y entiende bien los matices
A largo plazo, podría ser difícil monetizar la infraestructura
- Es probable que la API para programación use más Claude 3.5/3.7
- Para APIs no orientadas a programación, Gemini 2.0 Flash es más barato y rinde mejor
- En apps por suscripción, ChatGPT sigue siendo el mejor, pero Grok está compitiendo
GPT-4.5 es un poco mejor para la "escritura creativa"
- Anthropic lanzó nuevos modelos que resuelven problemas más prácticos
Parece que se está llegando al límite de la tecnología
Hay quien opina que dos frases no son contradictorias
- Aunque se amplió el tamaño del modelo, no hubo una mejora clara en capacidades
- El salto de GPT-4o a GPT-4.5 hizo que el modelo fuera excelente
Se duda de que realmente haya gente mirando ese último porcentaje en los benchmarks
- Podría ser un error asumir que los benchmarks son 100% precisos
Todos los modelos GPT4o de Azure dejarán de estar disponibles en mayo
- Estoy considerando si debería cambiarme a Anthropic
- Se necesita información sobre la fecha de lanzamiento del nuevo modelo "o"