Para usar LLM coreanos con una longitud de contexto larga, investigué y probé varios métodos para extender de forma eficiente la longitud de contexto de un LLM
LongLoRA
Amplía hasta 8 veces usando shifted sparse attention y ajuste fino con LoRA
Rope-based Position Interpolation
Puede aplicarse modificando los embeddings RoPE en modelos que usan embeddings basados en RoPE, como Llama, y mediante ajuste fino amplía la longitud de contexto hasta 16 veces
Dynamic NTK
Aplica la teoría NTK sin ajuste fino para ampliar más del doble
LongLM
Usa atención modificada para ampliar hasta 4 veces sin ajuste fino
ChunkLlama
Divide el texto en chunks para ampliar 4 veces la longitud de contexto del modelo Llama sin ajuste fino
Infini-attention
Permite extender hasta 2M con poco uso adicional de memoria y posibilita inferencia rápida; es el método aplicado en Gemini-Pro
2 comentarios
Para usar LLM coreanos con una longitud de contexto larga, investigué y probé varios métodos para extender de forma eficiente la longitud de contexto de un LLM
LongLoRA
Amplía hasta 8 veces usando
shifted sparse attentiony ajuste fino con LoRARope-based Position Interpolation
Puede aplicarse modificando los embeddings RoPE en modelos que usan embeddings basados en RoPE, como Llama, y mediante ajuste fino amplía la longitud de contexto hasta 16 veces
Dynamic NTK
Aplica la teoría NTK sin ajuste fino para ampliar más del doble
LongLM
Usa atención modificada para ampliar hasta 4 veces sin ajuste fino
ChunkLlama
Divide el texto en chunks para ampliar 4 veces la longitud de contexto del modelo Llama sin ajuste fino
Infini-attention
Permite extender hasta 2M con poco uso adicional de memoria y posibilita inferencia rápida; es el método aplicado en Gemini-Pro
Es la primera vez que veo un texto sin absolutamente ningún resumen.