4 puntos por GN⁺ 2025-01-29 | 3 comentarios | Compartir por WhatsApp
  • Qwen2.5-1M es un modelo open source de alto rendimiento con soporte para una longitud de contexto de hasta 1M tokens, y mejora a Qwen2.5-Turbo, presentado hace 2 meses
  • Se publicaron 2 checkpoints: Qwen2.5-7B-Instruct-1M y Qwen2.5-14B-Instruct-1M
    • Es la primera vez que un modelo Qwen admite un contexto de 1M tokens
  • Publicación del framework de inferencia: ofrece un framework de inferencia optimizado basado en vLLM. Al integrar la técnica de sparse attention, procesa entradas de 1M tokens de 3 a 7 veces más rápido
  • Publicación del informe técnico: se comparte un informe técnico detallado sobre el diseño del framework de entrenamiento e inferencia, así como los resultados experimentales

Rendimiento del modelo

Tareas de contexto largo

  • Evaluación de Passkey Retrieval: extrae información con precisión desde documentos de 1M tokens. El modelo Qwen2.5-7B presenta algunos errores menores, mientras que Qwen2.5-14B mantiene una alta precisión
  • Evaluación de tareas complejas:
    • En RULER, LV-Eval, LongbenchChat y otros, el modelo Qwen2.5-1M muestra un rendimiento superior al de los modelos de 128K
    • En particular, Qwen2.5-14B muestra en general un rendimiento más alto incluso comparado con GPT-4o-mini

Tareas de contexto corto

  • En tareas de contexto corto, el modelo Qwen2.5-1M mantiene el mismo rendimiento que la versión de 128K
  • Muestra un rendimiento similar al de GPT-4o-mini en tareas de contexto corto, mientras soporta un contexto hasta 8 veces más largo

Tecnologías clave

Entrenamiento para contexto largo

  • La longitud de contexto se amplió gradualmente de 4K a 256K
  • Se aplicaron ajuste basado en RoPE, entrenamiento por etapas y aprendizaje por refuerzo
  • La técnica Dual Chunk Attention(DCA) permite escalar hasta un contexto de 1M tokens
  • DCA mantiene una alta precisión en textos largos incluso sin entrenamiento adicional

Sparse Attention

  • Se introdujo sparse attention basado en MInference
  • Integración de Chunked Prefill: reduce el uso de memoria en 96.7%
  • Integración de Length Extrapolation: al combinarse con DCA, mejora la precisión y la eficiencia de inferencia
  • Sparsity Refinement on Long Sequences: incorpora una configuración de sparsificación optimizada para minimizar la pérdida de rendimiento en textos largos
  • Como resultado, la velocidad de inferencia mejora entre 3.2x y 6.7x con una longitud de 1M tokens

Implementar Qwen2.5-1M en un entorno local

Requisitos del sistema

  • CUDA 12.1/12.3, Python 3.9~3.12
  • Requisitos de VRAM:
    • Qwen2.5-7B: 120GB o más
    • Qwen2.5-14B: 320GB o más

Instalación y ejecución

  1. Clonar e instalar el repositorio de vLLM
  2. Iniciar el servicio de API compatible con OpenAI
  3. Es posible interactuar con el modelo usando Curl o Python

Próximos pasos

  • Se sigue investigando un entrenamiento, una arquitectura de modelo y métodos de inferencia más eficientes
  • El desarrollo apunta a un alto rendimiento tanto en contextos cortos como largos
  • Se planea ampliar la utilidad práctica de los modelos de contexto largo

3 comentarios

 
yangeok 2025-01-30

¿Funcionará bien con coreano en local?

 
GN⁺ 2025-01-29
Comentarios de Hacker News
  • En la programación con IA, ventanas de contexto muy grandes no son realmente útiles. Si se ingresan más de unos 25-30k tokens, el modelo empieza a confundirse.

    • Este problema ocurre con gpt-4o, Sonnet, DeepSeek y otros.
    • Muchos usuarios han reportado este problema y se han creado páginas de ayuda dedicadas para resolverlo.
    • Un contexto grande puede ser útil para ciertas tareas con mucho contexto de "bajo valor", pero para programación puede causar problemas.
  • Ollama tiene el parámetro num_ctx para controlar la longitud de la ventana de contexto, y el valor predeterminado es 2048.

    • Hay consejos para ejecutarlo en macOS usando MLX.
  • Discusión sobre la tecnología más avanzada (SOTA) en computación centrada en memoria.

    • Podría ser necesario un nuevo paradigma para reducir el costo de memoria en IA.
    • Podría haber una forma de conectar DRAM e interconexiones ópticas.
    • Hay curiosidad por saber si existe algo con capacidades similares a los transformers que no dependa de la secuencia.
  • Quieren confirmar si el primer modelo local ejecutable con una longitud de contexto superior a 128K saltó directamente a 1M.

  • Quieren escuchar opiniones de personas que hayan ejecutado con éxito prompts largos en Mac.

  • En noviembre se lanzó un modelo solo de API con una ventana de contexto de 1M.

  • Han oído rumores sobre la longitud de contexto nativa, pero no está claro si realmente es de 1M.

    • Se dice que modelos como llama3 8b tienen un contexto más grande, pero en la práctica no es así.
    • Es difícil superar 8k con 16gb de VRAM.
  • Todos están haciendo la ventana de contexto cada vez más grande, pero también hace falta pensar en la salida.

    • Quieren generar miles de líneas de código y se preguntan si hay consejos para lograrlo.