1 puntos por GN⁺ 2023-10-03 | Aún no hay comentarios. | Compartir por WhatsApp
  • Artículo sobre el despliegue de aplicaciones de streaming con modelos de lenguaje grandes (Large Language Models, LLMs), lo cual es un desafío debido al consumo de memoria y a la falta de capacidad de los LLMs para generalizar a textos más largos que la longitud de secuencia de entrenamiento.
  • Los autores introducen el concepto de attention sink, que se refiere al fenómeno de puntajes de atención fuertes hacia los tokens iniciales, incluso cuando no son semánticamente importantes.
  • Los autores presentan StreamingLLM, un framework eficiente que permite que los LLMs entrenados con una ventana de atención de longitud finita generalicen a longitudes de secuencia infinitas sin ajuste fino.
  • StreamingLLM permite que modelos como Llama-2, MPT, Falcon y Pythia realicen modelado de lenguaje de forma estable y eficiente con más de 4 millones de tokens.
  • Los autores también descubrieron que agregar tokens placeholder como attention sink dedicados durante el preentrenamiento puede mejorar aún más el despliegue en streaming.
  • En entornos de streaming, StreamingLLM supera el baseline de recálculo con ventana deslizante con una velocidad de hasta 22.2 veces mayor.
  • Los autores aclaran que la ventana de contexto de los LLMs no se expande en StreamingLLM, y que el modelo solo puede procesar los tokens más recientes.
  • StreamingLLM es ideal para aplicaciones de streaming, como conversaciones de múltiples rondas, donde el modelo debe seguir funcionando sin depender de memoria extensa ni de datos históricos.
  • Los autores planean publicar el código principal de StreamingLLM, incluyendo Llama-2, MPT, Falcon y Pythia, así como el código de perplejidad, una demo de Streaming Llama Chatbot, el dataset StreamEval y el código de evaluación.

Aún no hay comentarios.

Aún no hay comentarios.