10 puntos por ninebow 2023-10-03 | Aún no hay comentarios. | Compartir por WhatsApp
  • A través del artículo "Effective Long-Context Scaling of Foundation Models", se presentó el modelo LLaMA2 Long
  • Soporta una longitud de ventana de contexto (context window) de hasta 32K (32,768) tokens
  • La versión 70B ya supera el rendimiento general de gpt-3.5-turbo-16k en un conjunto de tareas de contexto largo
  • Manteniendo la arquitectura del modelo existente, aplica RoPE (Rotary Positional Embedding) al Positional Encoding para generar mejores respuestas con menos información

Aún no hay comentarios.

Aún no hay comentarios.