- Artículo sobre la no determinación observada en GPT-4, el modelo de lenguaje desarrollado por OpenAI
- GPT-4/GPT-3.5-turbo son no deterministas incluso con temp=0, cuando en un modelo denso solo decodificador esto debería significar una determinación completa
- Al principio, se estimó que la no determinación se debía a un posible bug o a la no determinación de cálculos de punto flotante optimizados
- Nueva hipótesis del autor: la no determinación de GPT-4 se debe en gran parte a que la arquitectura Sparse Mixture of Experts (MoE) no puede imponer determinación por secuencia
- El enfoque Sparse MoE enruta tokens en grupos de tamaño fijo y mantiene el equilibrio dentro del grupo, lo que provoca no determinación a nivel de secuencia
- Para probar esta hipótesis, el autor le pidió a GPT-4 que escribiera un script y observó muchas finalizaciones únicas en GPT-4, confirmando que existe una causa por la que GPT-4 es mucho más no determinista que otros modelos
- El autor también especula que GPT-3.5-turbo podría ser un modelo MoE debido a su velocidad, su no determinación y la eliminación de
logprobs
- Las implicaciones de estos hallazgos son importantes: si la no determinación es una característica inherente de la inferencia por lotes con Sparse MoE, este hecho debería quedar claramente expuesto para cualquiera que trabaje con estos modelos
- El autor concluye que, aunque la no determinación en los modelos GPT de OpenAI suele atribuirse a la imprecisión de operaciones de punto flotante CUDA no deterministas y optimizadas, la causa fundamental podría ser la inferencia por lotes en modelos Sparse MoE
1 comentarios
Opinión de Hacker News