Ejecutar DeepSeek-R1-671B-Q4_K_M en Xeon con 1 o 2 Arc A770
(github.com/intel)- Con el llama.cpp Portable Zip más reciente, es posible ejecutar DeepSeek-R1-671B-Q4_K_M en Xeon con 1 o 2 Arc A770
- Esta guía explica cómo ejecutar llama.cpp directamente usando
ipex-llmen GPU Intel
Entornos compatibles
- Procesadores Intel Core Ultra
- Procesadores Intel Core de 11.ª a 14.ª generación
- GPU Intel Arc Serie A
- GPU Intel Arc Serie B
Índice
- Inicio rápido en Windows
- Requisitos previos
- Paso 1: Descargar y descomprimir
- Paso 2: Configurar el entorno de ejecución
- Paso 3: Ejecutar el modelo GGUF
- Inicio rápido en Linux
- Requisitos previos
- Paso 1: Descargar y extraer
- Paso 2: Configurar el entorno de ejecución
- Paso 3: Ejecutar el modelo GGUF
- (Nueva función) Ejecutar DeepSeek V3/R1 671B con FlashMoE
- Consejos y solución de problemas
- Error: se detectaron dispositivos sycl diferentes
- Uso de múltiples GPU
- Entorno de rendimiento
- Más detalles
Inicio rápido en Windows
Requisitos previos
- Verifica la versión del driver de la GPU y actualízala si es necesario
- Para procesadores Intel Core Ultra o GPU Intel Arc Serie B, se recomienda el driver más reciente
- Para otras Intel iGPU/dGPU, se recomienda la versión de driver 32.0.101.6078
Paso 1: Descargar y descomprimir
- Los usuarios de Windows deben descargar el portable zip de IPEX-LLM llama.cpp y descomprimirlo en una carpeta
Paso 2: Configurar el entorno de ejecución
- Abre el "Símbolo del sistema" y entra a la carpeta con el comando
cd /d PATH\TO\EXTRACTED\FOLDER - Se requieren o recomiendan algunas variables de entorno para usar la aceleración por GPU
- Configura
set SYCL_CACHE_PERSISTENT=1
- Configura
- Si usas múltiples GPU, revisa los consejos para ver cómo seleccionar una GPU específica
Paso 3: Ejecutar el modelo GGUF
- Descarga o copia un modelo GGUF de la comunidad en un directorio local
- Después de definir la ruta del modelo, ejecútalo con el comando
llama-cli.exe
Inicio rápido en Linux
Requisitos previos
- Verifica la versión del driver de la GPU y actualízala si es necesario
- Se recomienda instalar el driver siguiendo la guía de instalación de drivers para GPU cliente de Intel
Paso 1: Descargar y extraer
- Los usuarios de Linux deben descargar el portable tgz de IPEX-LLM llama.cpp y extraerlo en una carpeta
Paso 2: Configurar el entorno de ejecución
- Abre la "Terminal" y entra a la carpeta con el comando
cd /PATH/TO/EXTRACTED/FOLDER - Se requieren o recomiendan algunas variables de entorno para usar la aceleración por GPU
- Configura
export SYCL_CACHE_PERSISTENT=1
- Configura
- Si usas múltiples GPU, revisa los consejos para ver cómo seleccionar una GPU específica
Paso 3: Ejecutar el modelo GGUF
- Descarga o copia un modelo GGUF de la comunidad en un directorio local
- Después de definir la ruta del modelo, ejecútalo con el comando
./llama-cli
FlashMoE para DeepSeek V3/R1
- FlashMoE es una herramienta de línea de comandos basada en llama.cpp, optimizada para modelos MoE
- Disponible en la plataforma Linux
- Modelos MoE GGUF probados: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K, etc.
Consejos y solución de problemas
Error: se detectaron dispositivos sycl diferentes
- Si se detectan dispositivos sycl diferentes, el rendimiento queda limitado al dispositivo más lento
- Puedes desactivar esta verificación y usar todos los dispositivos configurando
SYCL_DEVICE_CHECK=0
Uso de múltiples GPU
- Si hay varias GPU Intel, por defecto se ejecutará en todas las GPU
- Para usar una GPU específica, configura la variable de entorno
ONEAPI_DEVICE_SELECTOR
Entorno de rendimiento
- Configurar
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTSpuede mejorar el rendimiento - Aunque este modo puede mejorar el rendimiento, podrían producirse excepciones
Esta guía ofrece una forma de ejecutar llama.cpp de manera eficiente en GPU Intel, e incluye varias configuraciones y métodos de optimización.
Aún no hay comentarios.