- Qwen2.5-1M es un modelo open source de alto rendimiento con soporte para una longitud de contexto de hasta 1M tokens, y mejora a Qwen2.5-Turbo, presentado hace 2 meses
- Se publicaron 2 checkpoints: Qwen2.5-7B-Instruct-1M y Qwen2.5-14B-Instruct-1M
- Es la primera vez que un modelo Qwen admite un contexto de 1M tokens
- Publicación del framework de inferencia: ofrece un framework de inferencia optimizado basado en vLLM. Al integrar la técnica de sparse attention, procesa entradas de 1M tokens de 3 a 7 veces más rápido
- Publicación del informe técnico: se comparte un informe técnico detallado sobre el diseño del framework de entrenamiento e inferencia, así como los resultados experimentales
Rendimiento del modelo
Tareas de contexto largo
- Evaluación de Passkey Retrieval: extrae información con precisión desde documentos de 1M tokens. El modelo Qwen2.5-7B presenta algunos errores menores, mientras que Qwen2.5-14B mantiene una alta precisión
- Evaluación de tareas complejas:
- En RULER, LV-Eval, LongbenchChat y otros, el modelo Qwen2.5-1M muestra un rendimiento superior al de los modelos de 128K
- En particular, Qwen2.5-14B muestra en general un rendimiento más alto incluso comparado con GPT-4o-mini
Tareas de contexto corto
- En tareas de contexto corto, el modelo Qwen2.5-1M mantiene el mismo rendimiento que la versión de 128K
- Muestra un rendimiento similar al de GPT-4o-mini en tareas de contexto corto, mientras soporta un contexto hasta 8 veces más largo
Tecnologías clave
Entrenamiento para contexto largo
- La longitud de contexto se amplió gradualmente de 4K a 256K
- Se aplicaron ajuste basado en RoPE, entrenamiento por etapas y aprendizaje por refuerzo
- La técnica Dual Chunk Attention(DCA) permite escalar hasta un contexto de 1M tokens
- DCA mantiene una alta precisión en textos largos incluso sin entrenamiento adicional
Sparse Attention
- Se introdujo sparse attention basado en MInference
- Integración de Chunked Prefill: reduce el uso de memoria en 96.7%
- Integración de Length Extrapolation: al combinarse con DCA, mejora la precisión y la eficiencia de inferencia
- Sparsity Refinement on Long Sequences: incorpora una configuración de sparsificación optimizada para minimizar la pérdida de rendimiento en textos largos
- Como resultado, la velocidad de inferencia mejora entre 3.2x y 6.7x con una longitud de 1M tokens
Implementar Qwen2.5-1M en un entorno local
Requisitos del sistema
- CUDA 12.1/12.3, Python 3.9~3.12
- Requisitos de VRAM:
- Qwen2.5-7B: 120GB o más
- Qwen2.5-14B: 320GB o más
Instalación y ejecución
- Clonar e instalar el repositorio de vLLM
- Iniciar el servicio de API compatible con OpenAI
- Es posible interactuar con el modelo usando Curl o Python
Próximos pasos
- Se sigue investigando un entrenamiento, una arquitectura de modelo y métodos de inferencia más eficientes
- El desarrollo apunta a un alto rendimiento tanto en contextos cortos como largos
- Se planea ampliar la utilidad práctica de los modelos de contexto largo
3 comentarios
¿Funcionará bien con coreano en local?
2023-08-03 Alibaba, presenta QWEN, un modelo de IA de código abierto
2024-04-25 Qwen1.5-110B: el primer modelo de más de 100B de la serie LLM de código abierto Qwen1.5 de Alibaba
2024-06-07 Alibaba presenta el modelo Qwen 2
2024-09-19 Qwen2.5 - presentación de varios modelos fundacionales
2024-11-28 QwQ - el LLM de razonamiento de Alibaba, similar a ChatGPT o1
2024-12-24 Reseña de uso de QvQ, el nuevo modelo de razonamiento visual de Qwen
Comentarios de Hacker News
En la programación con IA, ventanas de contexto muy grandes no son realmente útiles. Si se ingresan más de unos 25-30k tokens, el modelo empieza a confundirse.
Ollama tiene el parámetro
num_ctxpara controlar la longitud de la ventana de contexto, y el valor predeterminado es 2048.Discusión sobre la tecnología más avanzada (SOTA) en computación centrada en memoria.
Quieren confirmar si el primer modelo local ejecutable con una longitud de contexto superior a 128K saltó directamente a 1M.
Quieren escuchar opiniones de personas que hayan ejecutado con éxito prompts largos en Mac.
En noviembre se lanzó un modelo solo de API con una ventana de contexto de 1M.
Han oído rumores sobre la longitud de contexto nativa, pero no está claro si realmente es de 1M.
Todos están haciendo la ventana de contexto cada vez más grande, pero también hace falta pensar en la salida.