Aumentar la longitud del contexto en los LLM

(slashpage.com)

4 puntos por frida 2024-07-01 | 2 comentarios | Compartir por WhatsApp

2 comentarios

frida 2024-07-02

Para usar LLM coreanos con una longitud de contexto larga, investigué y probé varios métodos para extender de forma eficiente la longitud de contexto de un LLM

LongLoRA
Amplía hasta 8 veces usando shifted sparse attention y ajuste fino con LoRA
Rope-based Position Interpolation
Puede aplicarse modificando los embeddings RoPE en modelos que usan embeddings basados en RoPE, como Llama, y mediante ajuste fino amplía la longitud de contexto hasta 16 veces
Dynamic NTK
Aplica la teoría NTK sin ajuste fino para ampliar más del doble
LongLM
Usa atención modificada para ampliar hasta 4 veces sin ajuste fino
ChunkLlama
Divide el texto en chunks para ampliar 4 veces la longitud de contexto del modelo Llama sin ajuste fino
Infini-attention
Permite extender hasta 2M con poco uso adicional de memoria y posibilita inferencia rápida; es el método aplicado en Gemini-Pro

superwoou 2024-07-02

Es la primera vez que veo un texto sin absolutamente ningún resumen.

Aumentar la longitud del contexto en los LLM

Lecturas relacionadas

2 comentarios