Contexto de fondo
- El modelo
gpt2-chatbot que LMSYS publicó recientemente muestra un rendimiento muy superior al del ya conocido modelo GPT-2
- Es difícil encontrar información sobre este modelo, tanto en el sitio de LMSYS como en otros lugares
- Incluso en los resultados de la API de benchmark de LMSYS, este modelo está excluido de manera llamativa
Principales características del modelo GPT2-Chatbot
- Afirma estar "basado en GPT-4" y se refiere a sí mismo como "ChatGPT"
- Muestra características distintas a las de modelos entrenados con datasets de OpenAI generados por otras organizaciones
- Parece usar el tokenizer
tiktoken de OpenAI
- Se ha detectado una vulnerabilidad de prompt injection propia de OpenAI
- Muestra características de salida diferentes a las de modelos de otras organizaciones
Opinión subjetiva sobre GPT2-Chatbot
- En realidad, parece muy probable que sea GPT-4.5 o GPT-5. La calidad de salida mejora de forma tan grande como el salto de GPT-3.5 a GPT-4
- También existe la posibilidad de que LMSYS haya entrenado un modelo propio o haya usado un enfoque similar a MoE, pero considerando la relación con OpenAI, parece poco probable
Inferencias sobre el propósito de publicar GPT2-Chatbot
- Parece que OpenAI lo estaría usando a través de LMSYS para hacer benchmarking encubierto de su modelo GPT más reciente
- El objetivo sería obtener resultados de pruebas de benchmark más generales, evitar evaluaciones negativas por expectativas excesivas y minimizar la vigilancia de otros competidores
Consideración sobre otra posibilidad
- También existe la posibilidad de que realmente esté basado en la arquitectura GPT-2. Según investigaciones recientes, GPT-2 ha mostrado mejor rendimiento que otros modelos en ciertas áreas
- El hecho de que se presente como GPT-4 podría deberse a que aprovechó un dataset generado con GPT-4
- También vale la pena notar que MBZUAI, uno de los patrocinadores de LMSYS, estuvo involucrado en esa investigación
Opinión de GN⁺
- Son interesantes las especulaciones sobre la verdadera identidad de
gpt2-chatbot. Coincido con la opinión de que probablemente sea el modelo más reciente de OpenAI
- Por otro lado, tampoco se puede descartar que esté basado en la arquitectura GPT-2. Viendo resultados de investigaciones recientes, el potencial de GPT-2 todavía parece alto
- También resulta convincente la especulación de que OpenAI está realizando benchmarking de forma encubierta a través de LMSYS. Es una estrategia que le permitiría obtener una evaluación objetiva mientras evita la vigilancia de competidores
- Parece probable que sigan apareciendo diversos experimentos e investigaciones para revelar qué es realmente
gpt2-chatbot. Podría ser una oportunidad para medir el avance en el campo de los grandes modelos de lenguaje
- Desde el principio, el propio nombre "gpt2-chatbot" podría haber sido pensado para dar la impresión de que se trata de GPT-2. Tampoco se puede descartar que OpenAI haya elegido ese nombre de manera intencional
Aún no hay comentarios.