3 puntos por GN⁺ 2025-02-17 | 1 comentarios | Compartir por WhatsApp
  • Este proyecto comparte resultados sobre cómo ejecutar el modelo Deepseek R1 Distill 8B Q40 en dispositivos Raspberry Pi 5 de 8 GB.
  • Se evaluó y estimó el rendimiento del modelo usando varias Raspberry Pi.
  • Resultados de evaluación y predicción
    • 2 x Raspberry Pi 5 8GB
      • Evaluación: 7.70 tokens por segundo
      • Predicción: 3.54 tokens por segundo
    • 4 x Raspberry Pi 5 8GB
      • Evaluación: 11.68 tokens por segundo
      • Predicción: 6.43 tokens por segundo
  • Información adicional
    • La prueba se realizó con la red en estado cerrado.
    • Se verificó el rendimiento en un entorno de clúster con múltiples dispositivos.

1 comentarios

 
GN⁺ 2025-02-17
Comentarios en Hacker News
  • Los anuncios de ejecutar 'Deepseek R1' en Raspberry Pi siempre siguen un patrón similar al de correr llama o qwen modificados con la técnica de destilación de Deepseek
    • La demo muestra que la pregunta se "resuelve" en menos de 500 tokens
    • Hay que tener en cuenta que no se pueden alcanzar estas velocidades al manejar modelos de "razonamiento" con longitudes de contexto útiles en el mundo real (8-16k tokens)
    • Incluso un epyc con muchos canales baja a unos 2-4 t/s después de una longitud de contexto de aproximadamente 4096
  • Por £320 puedes comprar 4 Pi5, pero si encuentras una 3080 usada de 12GB probablemente obtendrás más de 10 veces la velocidad de tokens
  • Lo interesante aquí es que se puede ejecutar inferencia de llama de forma distribuida a través de varias computadoras
    • Este es el Beowulf cluster moderno
  • No entendí cómo se están usando varias Raspberry Pi en paralelo. Ojalá alguien pueda orientarme en esa dirección
  • Si quieres probar este modelo en Mac, puedes usar el nuevo plugin llm-mlx y ejecutarlo así
    • brew install llm o pipx install llm o uv tool install llm
    • llm install llm-mlx
    • llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
    • llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
    • Justo ahora que lo ejecuté obtuve un rendimiento de 22 tokens/segundo
  • Me pregunto cuándo podremos hacer apt-get install de toda esta nueva tecnología de IA
  • Me pregunto si agregar memoria ayudaría. Hace poco salió la RPi 5 con 16GB de RAM
  • Un producto basado en LLM, similar a Alexa o Google Home, necesita un LLM que corra localmente en lugar de conectarse a la nube. No sé por qué todavía no existe o por qué nadie lo está haciendo