- Artículo sobre el despliegue de aplicaciones de streaming con modelos de lenguaje grandes (Large Language Models, LLMs), lo cual es un desafío debido al consumo de memoria y a la falta de capacidad de los LLMs para generalizar a textos más largos que la longitud de secuencia de entrenamiento.
- Los autores introducen el concepto de
attention sink, que se refiere al fenómeno de puntajes de atención fuertes hacia los tokens iniciales, incluso cuando no son semánticamente importantes.
- Los autores presentan StreamingLLM, un framework eficiente que permite que los LLMs entrenados con una ventana de atención de longitud finita generalicen a longitudes de secuencia infinitas sin ajuste fino.
- StreamingLLM permite que modelos como Llama-2, MPT, Falcon y Pythia realicen modelado de lenguaje de forma estable y eficiente con más de 4 millones de tokens.
- Los autores también descubrieron que agregar tokens placeholder como
attention sink dedicados durante el preentrenamiento puede mejorar aún más el despliegue en streaming.
- En entornos de streaming, StreamingLLM supera el baseline de recálculo con ventana deslizante con una velocidad de hasta 22.2 veces mayor.
- Los autores aclaran que la ventana de contexto de los LLMs no se expande en StreamingLLM, y que el modelo solo puede procesar los tokens más recientes.
- StreamingLLM es ideal para aplicaciones de streaming, como conversaciones de múltiples rondas, donde el modelo debe seguir funcionando sin depender de memoria extensa ni de datos históricos.
- Los autores planean publicar el código principal de StreamingLLM, incluyendo Llama-2, MPT, Falcon y Pythia, así como el código de perplejidad, una demo de Streaming Llama Chatbot, el dataset StreamEval y el código de evaluación.
Aún no hay comentarios.