¿GPT-4.5 o GPT-5 en pruebas en LMSYS?

Contexto de fondo

El modelo gpt2-chatbot que LMSYS publicó recientemente muestra un rendimiento muy superior al del ya conocido modelo GPT-2
Es difícil encontrar información sobre este modelo, tanto en el sitio de LMSYS como en otros lugares
Incluso en los resultados de la API de benchmark de LMSYS, este modelo está excluido de manera llamativa

Afirma estar "basado en GPT-4" y se refiere a sí mismo como "ChatGPT"
Muestra características distintas a las de modelos entrenados con datasets de OpenAI generados por otras organizaciones
Parece usar el tokenizer tiktoken de OpenAI
Se ha detectado una vulnerabilidad de prompt injection propia de OpenAI
Muestra características de salida diferentes a las de modelos de otras organizaciones

En realidad, parece muy probable que sea GPT-4.5 o GPT-5. La calidad de salida mejora de forma tan grande como el salto de GPT-3.5 a GPT-4
También existe la posibilidad de que LMSYS haya entrenado un modelo propio o haya usado un enfoque similar a MoE, pero considerando la relación con OpenAI, parece poco probable

Parece que OpenAI lo estaría usando a través de LMSYS para hacer benchmarking encubierto de su modelo GPT más reciente
El objetivo sería obtener resultados de pruebas de benchmark más generales, evitar evaluaciones negativas por expectativas excesivas y minimizar la vigilancia de otros competidores

También existe la posibilidad de que realmente esté basado en la arquitectura GPT-2. Según investigaciones recientes, GPT-2 ha mostrado mejor rendimiento que otros modelos en ciertas áreas
El hecho de que se presente como GPT-4 podría deberse a que aprovechó un dataset generado con GPT-4
También vale la pena notar que MBZUAI, uno de los patrocinadores de LMSYS, estuvo involucrado en esa investigación

Son interesantes las especulaciones sobre la verdadera identidad de gpt2-chatbot. Coincido con la opinión de que probablemente sea el modelo más reciente de OpenAI
Por otro lado, tampoco se puede descartar que esté basado en la arquitectura GPT-2. Viendo resultados de investigaciones recientes, el potencial de GPT-2 todavía parece alto
También resulta convincente la especulación de que OpenAI está realizando benchmarking de forma encubierta a través de LMSYS. Es una estrategia que le permitiría obtener una evaluación objetiva mientras evita la vigilancia de competidores
Parece probable que sigan apareciendo diversos experimentos e investigaciones para revelar qué es realmente gpt2-chatbot. Podría ser una oportunidad para medir el avance en el campo de los grandes modelos de lenguaje
Desde el principio, el propio nombre "gpt2-chatbot" podría haber sido pensado para dar la impresión de que se trata de GPT-2. Tampoco se puede descartar que OpenAI haya elegido ese nombre de manera intencional