- Se publicó un PR en el proyecto
llama.cpp que "duplica la velocidad de WASM"
- Se optimizaron las funciones de producto punto (
dot product) qX_K_q8_K y qX_0_q8_0 aprovechando instrucciones SIMD
- La mayor parte del código (99%) fue generada automáticamente por "DeepSeek-R1"
- DeepSeek-R1 tardó entre 3 y 5 minutos en procesar el prompt
Rendimiento de generación de código de DeepSeek-R1
- El autor del PR usó DeepSeek-R1 para generar y mejorar el código de optimización, y personalmente solo realizó las pruebas y redactó los prompts
- Puede verse en el prompt utilizado
- DeepSeek-R1 mostró una excelente cadena de razonamiento durante el proceso de optimización de
llm_groq.py
Comparación de rendimiento entre DeepSeek-R1 y OpenAI o1
- Se realizó la misma tarea con OpenAI o1, pero el resultado de DeepSeek-R1 fue superior
- Proceso de razonamiento para optimizar
model_map en el código de ejemplo:
- Al principio concluyó que
model_map era necesario
- Luego consideró que podía construirse dinámicamente con base en la respuesta de la API
- Finalmente decidió que eliminar
model_map era la mejor solución
Conclusión
- DeepSeek-R1 mostró un rendimiento sobresaliente en generación y optimización automática de código
- La optimización en WASM usando SIMD mejora significativamente el rendimiento de llama.cpp
- Si el PR se integra, se espera una mejora importante en la velocidad de ejecución de aplicaciones basadas en WebAssembly
4 comentarios
Probé deepseek r1 14b, 30b y 70b con ollama; en general el razonamiento es bueno, pero tiene muchos pequeños errores. r1 es realmente excelente.
Probé la versión destilada de 8b, pero el rendimiento en coreano bajó.
Parece que está logrando resultados significativos en la generación de código.
Opiniones de Hacker News
DeepSeek-R1 escribió el 99% del código de un PR de llama.cpp. Es un caso que muestra que la IA puede aportar mucho a la programación.
Están ejecutando DeepSeek-R1-Distill-Qwen-32B en una laptop mediante Ollama, y requiere unos 20 GB de RAM.
Que DeepSeek-R1 haya escrito el 99% del código de un PR de llama.cpp es un hito digno de atención.
Le pidieron a DeepSeek que convirtiera código ARM SIMD a código WASM, lo que ayudó con la optimización del código.
La afirmación de que los LLM no son útiles para programar es incorrecta.
Usaron o1 Pro y DeepSeek R1 para escribir pruebas e2e, y DeepSeek escribió mejores pruebas.
Xuan-Son pidió desarrollar un enfoque nuevo además de convertir ARM NEON a SIMD.
Reescribieron el plugin llm_groq.py usando DeepSeek R1, y esto se hizo con deepseek-r1-distill-llama-70b, un modelo Llama ajustado finamente.
Existe la posibilidad de que la AGI llegue en unos meses, y el entrenamiento se realizará en tres etapas.