Qwen2.5-Coder-32B, un LLM con gran capacidad de programación que corre bien en Mac

(simonwillison.net)

7 puntos por GN⁺ 2024-11-15 | 1 comentarios | Compartir por WhatsApp

El equipo de investigación de Qwen de Alibaba anunció Qwen2.5-Coder, una serie de LLM de código abierto (licencia Apache 2.0)
Afirman que el modelo Qwen2.5-Coder-32B-Instruct presume una capacidad de programación al nivel de GPT-4o
El modelo de 32B es relativamente pequeño, al punto de poder ejecutarse incluso en una MacBook Pro M2 con 64 GB
En rendimiento de benchmarks, registró puntajes similares o superiores a los de GPT-4o y Claude 3.5 Sonnet

Comparación de rendimiento en benchmarks

El modelo Qwen2.5-Coder-32B-Instruct destacó en los siguientes benchmarks:
- En LiveCodeBench, Spider y BIRD-SQL, obtuvo un rendimiento superior al de GPT-4o y Claude 3.5 Sonnet
- En MBPP, Aider y CodeArena, quedó ligeramente por detrás
- En HumanEval y McEval, mostró un rendimiento de nivel similar

Rendimiento en el benchmark Aider

También mostró buenos resultados en el benchmark Aider de Paul Gauthier
- En el benchmark de "Whole edit", Qwen2.5-Coder-32B-Instruct registró un rendimiento entre GPT-4o y 3.5 Haiku
- Comparación de puntajes:
  - 3.5 Sonnet: 84%
  - 3.5 Haiku: 75%
  - Qwen2.5-Coder 32B: 74%
  - GPT-4o: 71%
  - Qwen2.5-Coder 14B: 69%
  - Qwen2.5-Coder 7B: 58%
- En el benchmark de "Diff", empató con GPT-4o y quedó ligeramente por detrás de Claude 3.5 Haiku

Prueba de ejecución de Qwen2.5-Coder en Mac

El usuario intentó ejecutar el modelo Qwen2.5-Coder-32B-Instruct-GGUF Q8 usando llm-gguf, pero como no utilizó la GPU, la velocidad fue lenta
Las versiones de Ollama y MLX funcionan bien en MacBook
Cómo instalar Ollama:
- Descargar un archivo cuantizado de 20 GB con el comando ollama pull qwen2.5-coder:32b
- Funcionó correctamente para solicitudes de generación de funciones en Python, salvo por un problema de ssl
Uso de MLX:
- El rendimiento mejoró usando el framework MLX de Apple Silicon
- Ejecutó en la terminal código para generar un fractal de Mandelbrot y logró representarlo como arte ASCII
- Métricas de rendimiento:
  - Velocidad de generación de tokens: 10.016 tokens/sec
  - Uso de memoria: máximo de 32.685 GB

Prueba adicional: benchmark Pelican on a bicycle

Se ejecutó la solicitud llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
El resultado fue una imagen SVG de un pelícano y una bicicleta con forma poco definida, pero interesante desde el punto de vista de la experiencia de usuario

Conclusión y experiencia de uso

El uso de 32 GB de memoria está dentro de un nivel manejable para ejecutarlo en Mac, incluso sin cerrar otras aplicaciones
En términos de velocidad y calidad de resultados, está a un nivel competitivo frente a los modelos alojados disponibles actualmente
Como el 80% del uso de LLM del usuario está relacionado con la escritura de código, Qwen2.5-Coder parece una mejora significativa

1 comentarios

savvykang 2024-11-15

Es un caso de uso un poco distinto al de programación, pero me intriga cómo implementaron el modo JSON de Claude. Algunos modelos alojados, aunque los induzcas a generar salida JSON, terminan produciendo JavaScript con comentarios o texto en Markdown. Por mi experiencia usando modelos alojados unas cuantas veces, los resultados me dejaron más satisfecho cuando usé un servicio administrado. Parece que hay algo más que no se puede implementar con un modelo alojado.