Meta publica LLAMA 2 Long con soporte para una ventana de contexto de 32k tokens

ninebow · 2023-10-03T12:00:04+09:00

A través del artículo "Effective Long-Context Scaling of Foundation Models", se presentó el modelo LLaMA2 Long Enlace al artículo: https://arxiv.org/pdf/2309.16039.pdf Soporta una longitud de ventana de contexto (context window) de hasta 32K (32,768) tokens La versión 70B ya supera el rendimiento general de gpt-3.5-turbo-16k en un conjunto de tareas de contexto largo Manteniendo la arquitectura del modelo existente, aplica RoPE (Rotary Positional Embedding) al Positional Encoding para generar mejores respuestas con menos información Explicación de RoPE: https://blog.eleuther.ai/rotary-embeddings/

(venturebeat.com)

10 puntos por ninebow 2023-10-03 | Aún no hay comentarios. | Compartir por WhatsApp

A través del artículo "Effective Long-Context Scaling of Foundation Models", se presentó el modelo LLaMA2 Long
- Enlace al artículo: https://arxiv.org/pdf/2309.16039.pdf
Soporta una longitud de ventana de contexto (context window) de hasta 32K (32,768) tokens
La versión 70B ya supera el rendimiento general de gpt-3.5-turbo-16k en un conjunto de tareas de contexto largo
Manteniendo la arquitectura del modelo existente, aplica RoPE (Rotary Positional Embedding) al Positional Encoding para generar mejores respuestas con menos información
- Explicación de RoPE: https://blog.eleuther.ai/rotary-embeddings/

Meta publica LLAMA 2 Long con soporte para una ventana de contexto de 32k tokens

Lecturas relacionadas

Aún no hay comentarios.