- Junto con la presentación de GPT-4.5, OpenAI publicó primero la system card del modelo
- La system card inicial incluía la frase "GPT-4.5 is not a frontier model" (GPT-4.5 no es un modelo de frontera)
- Después, esa frase fue eliminada de la publicación oficial del blog y de la system card actualizada
- Parece que alguien dentro de OpenAI sintió la necesidad de incluir esa frase. Pero entonces, "¿por qué OpenAI lanzó esto?"
- La principal contradicción de afirmar que no es un modelo frontier es que GPT-4.5 es el modelo más grande que el público general puede probar
- Escalar a un modelo de este tamaño no genera un salto claro en las capacidades que solemos medir
- La transición de GPT-3.5 → GPT-4 fue de regular (Okay) a bueno (Good)
- El cambio de GPT-4o → GPT-4.5 va de excelente (Great) a realmente excelente (Really Great)
- Como es muy difícil identificar las diferencias entre los modelos más recientes, quienes invierten en IA y esperan avances podrían creer que el progreso es mayor de lo que realmente es
- Estamos en un punto en el que los límites económicos del scaling se vuelven evidentes, sin la gran mejora de rendimiento que muchos esperaban
- Anthropic también enfrenta un problema parecido, y se ha confirmado que después de Claude 3.7 entrenará modelos mucho más grandes
- GPT-4.5 es un modelo que muestra un avance gradual, distinto de los grandes saltos innovadores del pasado
- Demuestra que en la investigación de IA una simple ampliación del pretraining ya no produce innovaciones del mismo nivel que antes
- Internamente, OpenAI habría usado GPT-4.5 durante mucho tiempo, y es muy probable que lo haya utilizado para entrenar otros modelos (por el hecho de que su cut-off date parece ser 2023)
¿Qué tiene de bueno GPT-4.5?
- (Estas son algunas estimaciones sobre la cantidad de parámetros de GPT-4.5 y GPT-4o; no se basan en filtraciones, así que el margen de error puede ser grande)
- GPT-4.5 es un modelo muy grande, y podría ser más grande que Grok 3
- GPT-4 era un modelo de mezcla de expertos (MoE) con más de 1 billón (1T) de parámetros totales, y se estima que sus parámetros activos rondaban los 200B
- Según rumores, modelos como GPT-4o o Gemini Pro habrían reducido sus parámetros activos hasta unos 60B
- Es decir, los modelos recientes han estado avanzando reduciendo los parámetros activos y optimizando la infraestructura para mejorar velocidad y costo
- Se estima que GPT-4.5 requiere alrededor de 10 veces más cómputo (10X compute) que GPT-4
- 5 veces más parámetros + dataset 2 veces más grande = aumento de 10 veces en cómputo
- Sus parámetros totales podrían llegar a 5-7 billones (5T-7T), con alrededor de 600B de parámetros activos
- Pero, incluso con esa expansión, la mejora de rendimiento es difícil de percibir claramente.
- A partir de aquí, la situación se vuelve bastante extraña. Las 2 cosas que OpenAI destacó en este anuncio:
- Menos alucinaciones (Hallucination): reduce la frecuencia con la que el modelo genera información falsa
- Mejor inteligencia emocional (Emotional Intelligence): puede entender y expresar mejor el contexto y las emociones
- Sin embargo, ambas son características difíciles de evaluar objetivamente
- Rendimiento en benchmarks (según datos proporcionados por OpenAI)
- SimpleQA: GPT-4.5 muestra una gran mejora al evaluar conocimiento general del mundo en modelos de IA
- PersonQA: también logra el mejor rendimiento en preguntas sobre personas concretas
- GPQA (Google-proof QA): obtiene muy buenos resultados incluso en una métrica que evalúa razonamiento lógico sin búsqueda de información
- Justo después del lanzamiento, entre expertos en IA surgieron opiniones de que GPT-4.5 es cómodo de usar y escribe mejor
- Pero en evaluaciones de código y rendimiento técnico, fue calificado como de nivel intermedio frente a modelos competidores como Claude 3.7 y R1
- Comparación del estilo de escritura (según una encuesta de Karpathy en X/Twitter)
- GPT-4.5 vs. GPT-4o-latest: muchos usuarios prefirieron el estilo de escritura de GPT-4o-latest
- ¿La razón? Es muy probable que GPT-4o-latest sea un modelo destilado (distilled) a partir de este nuevo modelo, antes llamado Orion1, y como es mucho más pequeño, la diferencia en velocidad de iteración es enorme, lo que podría permitir un mejor post-training
- Todo esto es el precio que OpenAI tiene que pagar para volver al puesto #1 en el ranking de ChatBotArena
- Se espera que GPT 4.5 lo consiga, pero el resultado todavía no está definido
- Según la experiencia previa directa del autor, al principio resultó incómodo por su lentitud, pero su confiabilidad es alta y vale la pena seguir usándolo
- Sin embargo, no hace falta elegir GPT-4.5 pagando un costo adicional, y o1 Pro de OpenAI y otros servicios de pago ofrecen una mejor relación costo-beneficio
Por qué GPT-4.5 es tan caro
- Cuando se lanzó GPT-4, su precio también era bastante alto, y de hecho era similar al de GPT-4.5
- El precio inicial de GPT-4.5 es el siguiente:
- Entrada (Input): $75.00 / 1M tokens
- Entrada en caché (Cached Input): $37.50 / 1M tokens
- Salida (Output): $150.00 / 1M tokens
- Es decir, arrancó con un precio mucho más alto que los modelos anteriores
- Modelos anteriores de OpenAI también fueron caros al principio, pero hubo casos en los que su precio bajó mucho de forma gradual
- GPT-4 (lanzado en marzo de 2023)
- Al principio costaba $30 por 1 millón de tokens de entrada y $60 por 1 millón de tokens de salida
- La versión con contexto de 32K era más cara: $60 de entrada y $120 de salida
- GPT-4 Turbo (lanzado en noviembre de 2023)
- Se volvió mucho más barato, bajando a $10 de entrada y $30 de salida
- GPT-4o (lanzado en mayo de 2024)
- El precio bajó todavía más hasta $2.5 de entrada y $10 de salida, quedando más de 10 veces más barato que GPT-4
- Así, OpenAI ha mostrado un patrón de bajar considerablemente los precios cada vez que presenta un nuevo modelo
- Parece que la razón por la que GPT-4.5 tiene un precio tan alto hoy es que al estar en su etapa inicial, se fijó con un margen alto
- OpenAI menciona que no garantiza que el modelo permanezca en la API y que decidirá según la reacción de los usuarios
- Muchos expertos esperan que, cuando llegue la GPU de próxima generación de Nvidia, Blackwell, operar modelos más grandes sea más eficiente y bajen los costos
- Así como los precios fueron bajando de GPT-4 a GPT-4 Turbo y luego a GPT-4o, es muy probable que GPT-4.5 también baje de precio más adelante con una versión tipo GPT-4.5 Turbo
El futuro del scaling
- El scaling de los modelos de lenguaje todavía no está muerto
- Pero volver a pensar por qué este anuncio se sintió tan extraño es muy importante para mantener la cabeza fría frente al ritmo de avance de la IA
- Hemos entrado en una era en la que coexisten ventajas y desventajas entre distintos tipos de scaling
- En resumen corto, "GPT-4.5 es extraño, pero va adelantado a su tiempo"
- GPT-4.5 no es solo una expansión simple del modelo, sino una señal de que hace falta una nueva forma de scaling
- Esto significa que el avance de la IA ya no puede depender solo de hacer más grande el modelo (Scaling Up), y debe tomar otras rutas, aunque eso ya lo sabíamos por el rápido avance de los modelos de razonamiento
- El verdadero impacto de GPT-4.5 se mostrará cuando se combine con varias líneas de avance rápido
- El paper de R1 de DeepSeek y estudios posteriores sobre RL concluyen que cuanto más grande es el modelo, más efectivo es el entrenamiento con RL
- Es muy probable que el modelo o4 de OpenAI también sea entrenado aprovechando un modelo de razonamiento basado en GPT-4.5
- Los modelos actuales de OpenAI no serían tan buenos sin GPT-4.5
- Es posible que, en menos de un año, la mayoría de los modelos lleguen al tamaño de GPT-4.5 y además sean mucho más rápidos
- Las mejoras “equilibradas” ayudarán a que más aplicaciones sean más robustas
- OpenAI y otros investigadores de laboratorios de IA están intentando escalar modelos más allá de los límites de la infraestructura actual
- Si un frontier lab no supera los límites en todas las direcciones posibles del scaling, entonces no está asumiendo suficientes riesgos
- No hace falta publicar el modelo, pero vale la pena especular sobre por qué OpenAI realmente quiso hacer esto
- Como es muy probable que GPT-4.5 ya se esté usando en otros sistemas internos y pronto también en otros productos externos, lanzar este modelo no sería un rodeo, sino un paso natural hacia la siguiente etapa
- GPT-4.5 sí es un modelo frontier, pero su lanzamiento no resulta especialmente emocionante
- El avance de la IA no es gratis y requiere mucho esfuerzo
- Lo importante no es GPT-4.5 en sí, sino que su verdadero valor aparecerá cuando este modelo se combine con otras tecnologías
2 comentarios
Como muchos benchmarks ya están saturados, parece natural que la tendencia sea enfocarse en la usabilidad y en las alucinaciones.
Opiniones de Hacker News
GPT 4.5 también tiene un corte de conocimiento hasta octubre de 2023
Puede que los modelos de razonamiento de OpenAI no sean tan potentes como se esperaba
El precio es algo misterioso
El salto de GPT-4o a 4.5 no es un gran salto
GPT-4.5 puede procesar pensamientos complejos y sutiles muy rápido
GPT-4.5 no se va por direcciones extrañas y se mantiene anclado en la realidad
A largo plazo, podría ser difícil monetizar la infraestructura
GPT-4.5 es un poco mejor para la "escritura creativa"
Parece que se está llegando al límite de la tecnología
Hay quien opina que dos frases no son contradictorias
Se duda de que realmente haya gente mirando ese último porcentaje en los benchmarks
Todos los modelos GPT4o de Azure dejarán de estar disponibles en mayo