2 puntos por GN⁺ 2025-03-08 | Aún no hay comentarios. | Compartir por WhatsApp
  • Con el llama.cpp Portable Zip más reciente, es posible ejecutar DeepSeek-R1-671B-Q4_K_M en Xeon con 1 o 2 Arc A770
  • Esta guía explica cómo ejecutar llama.cpp directamente usando ipex-llm en GPU Intel

Entornos compatibles

  • Procesadores Intel Core Ultra
  • Procesadores Intel Core de 11.ª a 14.ª generación
  • GPU Intel Arc Serie A
  • GPU Intel Arc Serie B

Índice

  • Inicio rápido en Windows
    • Requisitos previos
    • Paso 1: Descargar y descomprimir
    • Paso 2: Configurar el entorno de ejecución
    • Paso 3: Ejecutar el modelo GGUF
  • Inicio rápido en Linux
    • Requisitos previos
    • Paso 1: Descargar y extraer
    • Paso 2: Configurar el entorno de ejecución
    • Paso 3: Ejecutar el modelo GGUF
  • (Nueva función) Ejecutar DeepSeek V3/R1 671B con FlashMoE
  • Consejos y solución de problemas
    • Error: se detectaron dispositivos sycl diferentes
    • Uso de múltiples GPU
    • Entorno de rendimiento
  • Más detalles

Inicio rápido en Windows

Requisitos previos

  • Verifica la versión del driver de la GPU y actualízala si es necesario
    • Para procesadores Intel Core Ultra o GPU Intel Arc Serie B, se recomienda el driver más reciente
    • Para otras Intel iGPU/dGPU, se recomienda la versión de driver 32.0.101.6078

Paso 1: Descargar y descomprimir

  • Los usuarios de Windows deben descargar el portable zip de IPEX-LLM llama.cpp y descomprimirlo en una carpeta

Paso 2: Configurar el entorno de ejecución

  • Abre el "Símbolo del sistema" y entra a la carpeta con el comando cd /d PATH\TO\EXTRACTED\FOLDER
  • Se requieren o recomiendan algunas variables de entorno para usar la aceleración por GPU
    • Configura set SYCL_CACHE_PERSISTENT=1
  • Si usas múltiples GPU, revisa los consejos para ver cómo seleccionar una GPU específica

Paso 3: Ejecutar el modelo GGUF

  • Descarga o copia un modelo GGUF de la comunidad en un directorio local
  • Después de definir la ruta del modelo, ejecútalo con el comando llama-cli.exe

Inicio rápido en Linux

Requisitos previos

  • Verifica la versión del driver de la GPU y actualízala si es necesario
  • Se recomienda instalar el driver siguiendo la guía de instalación de drivers para GPU cliente de Intel

Paso 1: Descargar y extraer

  • Los usuarios de Linux deben descargar el portable tgz de IPEX-LLM llama.cpp y extraerlo en una carpeta

Paso 2: Configurar el entorno de ejecución

  • Abre la "Terminal" y entra a la carpeta con el comando cd /PATH/TO/EXTRACTED/FOLDER
  • Se requieren o recomiendan algunas variables de entorno para usar la aceleración por GPU
    • Configura export SYCL_CACHE_PERSISTENT=1
  • Si usas múltiples GPU, revisa los consejos para ver cómo seleccionar una GPU específica

Paso 3: Ejecutar el modelo GGUF

  • Descarga o copia un modelo GGUF de la comunidad en un directorio local
  • Después de definir la ruta del modelo, ejecútalo con el comando ./llama-cli

FlashMoE para DeepSeek V3/R1

  • FlashMoE es una herramienta de línea de comandos basada en llama.cpp, optimizada para modelos MoE
  • Disponible en la plataforma Linux
  • Modelos MoE GGUF probados: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K, etc.

Consejos y solución de problemas

Error: se detectaron dispositivos sycl diferentes

  • Si se detectan dispositivos sycl diferentes, el rendimiento queda limitado al dispositivo más lento
  • Puedes desactivar esta verificación y usar todos los dispositivos configurando SYCL_DEVICE_CHECK=0

Uso de múltiples GPU

  • Si hay varias GPU Intel, por defecto se ejecutará en todas las GPU
  • Para usar una GPU específica, configura la variable de entorno ONEAPI_DEVICE_SELECTOR

Entorno de rendimiento

  • Configurar SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS puede mejorar el rendimiento
  • Aunque este modo puede mejorar el rendimiento, podrían producirse excepciones

Esta guía ofrece una forma de ejecutar llama.cpp de manera eficiente en GPU Intel, e incluye varias configuraciones y métodos de optimización.

Aún no hay comentarios.

Aún no hay comentarios.