1 puntos por GN⁺ 2023-08-06 | 1 comentarios | Compartir por WhatsApp
  • Artículo sobre la no determinación observada en GPT-4, el modelo de lenguaje desarrollado por OpenAI
  • GPT-4/GPT-3.5-turbo son no deterministas incluso con temp=0, cuando en un modelo denso solo decodificador esto debería significar una determinación completa
  • Al principio, se estimó que la no determinación se debía a un posible bug o a la no determinación de cálculos de punto flotante optimizados
  • Nueva hipótesis del autor: la no determinación de GPT-4 se debe en gran parte a que la arquitectura Sparse Mixture of Experts (MoE) no puede imponer determinación por secuencia
  • El enfoque Sparse MoE enruta tokens en grupos de tamaño fijo y mantiene el equilibrio dentro del grupo, lo que provoca no determinación a nivel de secuencia
  • Para probar esta hipótesis, el autor le pidió a GPT-4 que escribiera un script y observó muchas finalizaciones únicas en GPT-4, confirmando que existe una causa por la que GPT-4 es mucho más no determinista que otros modelos
  • El autor también especula que GPT-3.5-turbo podría ser un modelo MoE debido a su velocidad, su no determinación y la eliminación de logprobs
  • Las implicaciones de estos hallazgos son importantes: si la no determinación es una característica inherente de la inferencia por lotes con Sparse MoE, este hecho debería quedar claramente expuesto para cualquiera que trabaje con estos modelos
  • El autor concluye que, aunque la no determinación en los modelos GPT de OpenAI suele atribuirse a la imprecisión de operaciones de punto flotante CUDA no deterministas y optimizadas, la causa fundamental podría ser la inferencia por lotes en modelos Sparse MoE

1 comentarios

 
GN⁺ 2023-08-06
Opinión de Hacker News
  • La no determinación de GPT-4 se debe a su modelo Sparse Mixture of Experts (MoE).
  • La imprecisión de punto flotante en sistemas de IA/ML suele ser determinista, y los resultados heterogéneos pueden deberse al estado o a otras fuentes de entropía.
  • El artículo sugiere que la inferencia eficiente de GPT-4 puede depender de mezclar tokens de entradas separadas, lo que puede introducir no determinación y afectar la calidad de las respuestas.
  • La calidad de las respuestas también puede depender del número de solicitudes concurrentes que compiten por la asignación del mismo "experto".
  • Esto podría explicar la aparente degradación de calidad con el tiempo, y un mayor uso concurrente podría llevar a resultados menos confiables.
  • El uso de modelos MoE en GPT-3.5 implica que se puede hacer más con menos, lo que podría ofrecer esperanza al movimiento de código abierto.
  • Si las secuencias dentro de un lote pueden afectar el enrutamiento de otras, se introduce la posibilidad de ataques por canal lateral.
  • El enfoque MoE introduce probabilidad o aleatoriedad en el funcionamiento del modelo al seleccionar distintos "expertos" o partes del modelo para diferentes partes de los datos de entrada.
  • Los mismos datos de entrada procesados dos veces en contextos ligeramente distintos podrían consultar conjuntos de expertos ligeramente diferentes, produciendo salidas también ligeramente diferentes.
  • Bajo carga pesada, los resultados pueden cambiar debido a los tokens que compiten por los espacios disponibles en el búfer de expertos.
  • Esta competencia por el búfer de expertos también podría explicar por qué ChatGPT escribe marcadores de posición en vez de funciones cuando se le pide código largo.