27 puntos por GN⁺ 2024-12-30 | Aún no hay comentarios. | Compartir por WhatsApp
  • Se puede obtener información útil para empezar a ejecutar LLM localmente en el subreddit r/LocalLLaMA y en el blog de Ollama

Configuración de hardware

  • Se usa una laptop basada en Linux con CPU Core i9 (32 hilos), GPU 4090 (16GB de VRAM) y 96GB de RAM
  • Los modelos que caben en la VRAM funcionan rápido, y los modelos grandes pueden descargarse a la RAM, lo que puede volverlos más lentos
  • No se necesita una computadora de alto rendimiento; los modelos pequeños pueden funcionar incluso en una GPU antigua o solo con CPU

Herramientas usadas

  • Ollama: middleware para ejecutar Llama.cpp, con librerías de Python y JavaScript; se usa en Docker
  • Open WebUI: ofrece una interfaz amigable para entrada de texto e imágenes
  • llamafile: permite ejecutar LLM con un solo archivo ejecutable
  • AUTOMATIC1111 y Fooocus: herramientas de generación de imágenes; para flujos de trabajo complejos se usa ComfyUI
  • Continue: admite autocompletado de código en VSCode
  • Obsidian Smart Connections: ofrece la función de consultar notas usando Ollama

Selección de modelos

  • Descargar los LLM más recientes desde la página de modelos de Ollama
  • Seguir las actualizaciones de modelos por RSS
  • Descargar modelos de generación de imágenes desde CivitAI (atención: algunos modelos están optimizados para generar imágenes para adultos)
  • Modelos usados principalmente:
    • Llama3.2: para consultas generales y Smart Connections
    • Deepseek-coder-v2: para completar código en VSCode
    • Qwen2.5-coder: para conversaciones relacionadas con código
    • Stable Diffusion: para generación de imágenes

Actualizaciones

  • Usar WatchTower para actualizar contenedores de Docker
  • Actualizar modelos mediante Open Web UI

Fine-tuning y cuantización

  • Actualmente no se realiza fine-tuning ni cuantización (para evitar trabajos prolongados a alta temperatura debido a una posible falla del CPU)

Conclusión

  • Ejecutar LLM localmente ofrece control total sobre los datos y baja latencia de respuesta
  • Esto es posible gracias a los proyectos open source y los modelos gratuitos
  • Se actualizará el contenido cuando se usen nuevas herramientas o modelos

Aún no hay comentarios.

Aún no hay comentarios.