- A través del artículo "Effective Long-Context Scaling of Foundation Models", se presentó el modelo LLaMA2 Long
- Enlace al artículo: https://arxiv.org/pdf/2309.16039.pdf
- Soporta una longitud de ventana de contexto (
context window) de hasta 32K (32,768) tokens - La versión 70B ya supera el rendimiento general de
gpt-3.5-turbo-16ken un conjunto de tareas de contexto largo - Manteniendo la arquitectura del modelo existente, aplica RoPE (Rotary Positional Embedding) al
Positional Encodingpara generar mejores respuestas con menos información- Explicación de RoPE: https://blog.eleuther.ai/rotary-embeddings/
Aún no hay comentarios.