DeepSeek R1 muestra resultados prometedores en programación

(simonwillison.net)

12 puntos por GN⁺ 2025-01-29 | 4 comentarios | Compartir por WhatsApp

Se publicó un PR en el proyecto llama.cpp que "duplica la velocidad de WASM"
- Se optimizaron las funciones de producto punto (dot product) qX_K_q8_K y qX_0_q8_0 aprovechando instrucciones SIMD
- La mayor parte del código (99%) fue generada automáticamente por "DeepSeek-R1"
- DeepSeek-R1 tardó entre 3 y 5 minutos en procesar el prompt

Rendimiento de generación de código de DeepSeek-R1

El autor del PR usó DeepSeek-R1 para generar y mejorar el código de optimización, y personalmente solo realizó las pruebas y redactó los prompts
Puede verse en el prompt utilizado
DeepSeek-R1 mostró una excelente cadena de razonamiento durante el proceso de optimización de llm_groq.py

Comparación de rendimiento entre DeepSeek-R1 y OpenAI o1

Se realizó la misma tarea con OpenAI o1, pero el resultado de DeepSeek-R1 fue superior
Proceso de razonamiento para optimizar model_map en el código de ejemplo:
- Al principio concluyó que model_map era necesario
- Luego consideró que podía construirse dinámicamente con base en la respuesta de la API
- Finalmente decidió que eliminar model_map era la mejor solución

Conclusión

DeepSeek-R1 mostró un rendimiento sobresaliente en generación y optimización automática de código
La optimización en WASM usando SIMD mejora significativamente el rendimiento de llama.cpp
Si el PR se integra, se espera una mejora importante en la velocidad de ejecución de aplicaciones basadas en WebAssembly

4 comentarios

bungker 2025-01-29

Probé deepseek r1 14b, 30b y 70b con ollama; en general el razonamiento es bueno, pero tiene muchos pequeños errores. r1 es realmente excelente.

yangeok 2025-01-29

Probé la versión destilada de 8b, pero el rendimiento en coreano bajó.

yangeok 2025-01-29

Parece que está logrando resultados significativos en la generación de código.

GN⁺ 2025-01-29

Opiniones de Hacker News

DeepSeek-R1 escribió el 99% del código de un PR de llama.cpp. Es un caso que muestra que la IA puede aportar mucho a la programación.
- Aider escribe alrededor del 70% del código nuevo en cada lanzamiento, y desde Sonnet la proporción de código generado por IA aumentó a más del 50%.
- En los últimos meses, la proporción de código nuevo escrito por Aider ha sido del 70%, y el récord es del 82%.
- Cada vez están migrando más trabajo de programación de Sonnet a DeepSeek V3, y están probando R1, aunque han tenido dificultades por interrupciones recientes en la API.
Están ejecutando DeepSeek-R1-Distill-Qwen-32B en una laptop mediante Ollama, y requiere unos 20 GB de RAM.
- Es útil para refactorizar código y ayuda a detectar errores en el código.
Que DeepSeek-R1 haya escrito el 99% del código de un PR de llama.cpp es un hito digno de atención.
Le pidieron a DeepSeek que convirtiera código ARM SIMD a código WASM, lo que ayudó con la optimización del código.
- Trabajar con instrucciones SIMD es una tarea más difícil que la optimización avanzada de código.
La afirmación de que los LLM no son útiles para programar es incorrecta.
- La idea de que la IA puede reemplazar a los desarrolladores no es puro humo.
- Si no aumenta la demanda de más aplicaciones, los empleos podrían reducirse.
Usaron o1 Pro y DeepSeek R1 para escribir pruebas e2e, y DeepSeek escribió mejores pruebas.
- Las pruebas no pasaron.
Xuan-Son pidió desarrollar un enfoque nuevo además de convertir ARM NEON a SIMD.
- Intentó optimizar wllama como proyecto de fin de semana, y logró completar el trabajo con éxito usando un LLM.
Reescribieron el plugin llm_groq.py usando DeepSeek R1, y esto se hizo con deepseek-r1-distill-llama-70b, un modelo Llama ajustado finamente.
Existe la posibilidad de que la AGI llegue en unos meses, y el entrenamiento se realizará en tres etapas.
- Es importante entrenar diversos modelos para asegurar diversidad para la supervivencia a largo plazo.