Qwen2.5-1M - Implementa por tu cuenta Qwen con soporte de hasta 1 millón de tokens

(qwenlm.github.io)

4 puntos por GN⁺ 2025-01-29 | 3 comentarios | Compartir por WhatsApp

Qwen2.5-1M es un modelo open source de alto rendimiento con soporte para una longitud de contexto de hasta 1M tokens, y mejora a Qwen2.5-Turbo, presentado hace 2 meses
Se publicaron 2 checkpoints: Qwen2.5-7B-Instruct-1M y Qwen2.5-14B-Instruct-1M
- Es la primera vez que un modelo Qwen admite un contexto de 1M tokens
Publicación del framework de inferencia: ofrece un framework de inferencia optimizado basado en vLLM. Al integrar la técnica de sparse attention, procesa entradas de 1M tokens de 3 a 7 veces más rápido
Publicación del informe técnico: se comparte un informe técnico detallado sobre el diseño del framework de entrenamiento e inferencia, así como los resultados experimentales

Rendimiento del modelo

Tareas de contexto largo

Evaluación de Passkey Retrieval: extrae información con precisión desde documentos de 1M tokens. El modelo Qwen2.5-7B presenta algunos errores menores, mientras que Qwen2.5-14B mantiene una alta precisión
Evaluación de tareas complejas:
- En RULER, LV-Eval, LongbenchChat y otros, el modelo Qwen2.5-1M muestra un rendimiento superior al de los modelos de 128K
- En particular, Qwen2.5-14B muestra en general un rendimiento más alto incluso comparado con GPT-4o-mini

Tareas de contexto corto

En tareas de contexto corto, el modelo Qwen2.5-1M mantiene el mismo rendimiento que la versión de 128K
Muestra un rendimiento similar al de GPT-4o-mini en tareas de contexto corto, mientras soporta un contexto hasta 8 veces más largo

Tecnologías clave

Entrenamiento para contexto largo

La longitud de contexto se amplió gradualmente de 4K a 256K
Se aplicaron ajuste basado en RoPE, entrenamiento por etapas y aprendizaje por refuerzo
La técnica Dual Chunk Attention(DCA) permite escalar hasta un contexto de 1M tokens
DCA mantiene una alta precisión en textos largos incluso sin entrenamiento adicional

Sparse Attention

Se introdujo sparse attention basado en MInference
Integración de Chunked Prefill: reduce el uso de memoria en 96.7%
Integración de Length Extrapolation: al combinarse con DCA, mejora la precisión y la eficiencia de inferencia
Sparsity Refinement on Long Sequences: incorpora una configuración de sparsificación optimizada para minimizar la pérdida de rendimiento en textos largos
Como resultado, la velocidad de inferencia mejora entre 3.2x y 6.7x con una longitud de 1M tokens

Implementar Qwen2.5-1M en un entorno local

Requisitos del sistema

CUDA 12.1/12.3, Python 3.9~3.12
Requisitos de VRAM:
- Qwen2.5-7B: 120GB o más
- Qwen2.5-14B: 320GB o más

Instalación y ejecución

Clonar e instalar el repositorio de vLLM
Iniciar el servicio de API compatible con OpenAI
Es posible interactuar con el modelo usando Curl o Python

Próximos pasos

Se sigue investigando un entrenamiento, una arquitectura de modelo y métodos de inferencia más eficientes
El desarrollo apunta a un alto rendimiento tanto en contextos cortos como largos
Se planea ampliar la utilidad práctica de los modelos de contexto largo

3 comentarios

yangeok 2025-01-30

¿Funcionará bien con coreano en local?

xguru 2025-01-29

2023-08-03 Alibaba, presenta QWEN, un modelo de IA de código abierto
2024-04-25 Qwen1.5-110B: el primer modelo de más de 100B de la serie LLM de código abierto Qwen1.5 de Alibaba
2024-06-07 Alibaba presenta el modelo Qwen 2
2024-09-19 Qwen2.5 - presentación de varios modelos fundacionales
2024-11-28 QwQ - el LLM de razonamiento de Alibaba, similar a ChatGPT o1
2024-12-24 Reseña de uso de QvQ, el nuevo modelo de razonamiento visual de Qwen

GN⁺ 2025-01-29

Comentarios de Hacker News

En la programación con IA, ventanas de contexto muy grandes no son realmente útiles. Si se ingresan más de unos 25-30k tokens, el modelo empieza a confundirse.
- Este problema ocurre con gpt-4o, Sonnet, DeepSeek y otros.
- Muchos usuarios han reportado este problema y se han creado páginas de ayuda dedicadas para resolverlo.
- Un contexto grande puede ser útil para ciertas tareas con mucho contexto de "bajo valor", pero para programación puede causar problemas.
Ollama tiene el parámetro num_ctx para controlar la longitud de la ventana de contexto, y el valor predeterminado es 2048.
- Hay consejos para ejecutarlo en macOS usando MLX.
Discusión sobre la tecnología más avanzada (SOTA) en computación centrada en memoria.
- Podría ser necesario un nuevo paradigma para reducir el costo de memoria en IA.
- Podría haber una forma de conectar DRAM e interconexiones ópticas.
- Hay curiosidad por saber si existe algo con capacidades similares a los transformers que no dependa de la secuencia.
Quieren confirmar si el primer modelo local ejecutable con una longitud de contexto superior a 128K saltó directamente a 1M.
Quieren escuchar opiniones de personas que hayan ejecutado con éxito prompts largos en Mac.
En noviembre se lanzó un modelo solo de API con una ventana de contexto de 1M.
Han oído rumores sobre la longitud de contexto nativa, pero no está claro si realmente es de 1M.
- Se dice que modelos como llama3 8b tienen un contexto más grande, pero en la práctica no es así.
- Es difícil superar 8k con 16gb de VRAM.
Todos están haciendo la ventana de contexto cada vez más grande, pero también hace falta pensar en la salida.
- Quieren generar miles de líneas de código y se preguntan si hay consejos para lograrlo.

Qwen2.5-1M - Implementa por tu cuenta Qwen con soporte de hasta 1 millón de tokens

Rendimiento del modelo

Tareas de contexto largo

Tareas de contexto corto

Tecnologías clave

Entrenamiento para contexto largo

Sparse Attention

Implementar Qwen2.5-1M en un entorno local

Requisitos del sistema

Instalación y ejecución

Próximos pasos

Lecturas relacionadas

3 comentarios

Comentarios de Hacker News