Cómo ejecutar LLM localmente

(abishekmuthian.com)

27 puntos por GN⁺ 2024-12-30 | Aún no hay comentarios. | Compartir por WhatsApp

Se puede obtener información útil para empezar a ejecutar LLM localmente en el subreddit r/LocalLLaMA y en el blog de Ollama

Configuración de hardware

Se usa una laptop basada en Linux con CPU Core i9 (32 hilos), GPU 4090 (16GB de VRAM) y 96GB de RAM
Los modelos que caben en la VRAM funcionan rápido, y los modelos grandes pueden descargarse a la RAM, lo que puede volverlos más lentos
No se necesita una computadora de alto rendimiento; los modelos pequeños pueden funcionar incluso en una GPU antigua o solo con CPU

Ollama: middleware para ejecutar Llama.cpp, con librerías de Python y JavaScript; se usa en Docker
Open WebUI: ofrece una interfaz amigable para entrada de texto e imágenes
llamafile: permite ejecutar LLM con un solo archivo ejecutable
AUTOMATIC1111 y Fooocus: herramientas de generación de imágenes; para flujos de trabajo complejos se usa ComfyUI
Continue: admite autocompletado de código en VSCode
Obsidian Smart Connections: ofrece la función de consultar notas usando Ollama

Descargar los LLM más recientes desde la página de modelos de Ollama
Seguir las actualizaciones de modelos por RSS
Descargar modelos de generación de imágenes desde CivitAI (atención: algunos modelos están optimizados para generar imágenes para adultos)
Modelos usados principalmente:
- Llama3.2: para consultas generales y Smart Connections
- Deepseek-coder-v2: para completar código en VSCode
- Qwen2.5-coder: para conversaciones relacionadas con código
- Stable Diffusion: para generación de imágenes

Actualmente no se realiza fine-tuning ni cuantización (para evitar trabajos prolongados a alta temperatura debido a una posible falla del CPU)

Ejecutar LLM localmente ofrece control total sobre los datos y baja latencia de respuesta
Esto es posible gracias a los proyectos open source y los modelos gratuitos
Se actualizará el contenido cuando se usen nuevas herramientas o modelos