Guía de Llama.cpp: cómo ejecutar LLMs localmente desde cero en cualquier hardware

(steelph0enix.github.io)

2 puntos por GN⁺ 2024-11-30 | 1 comentarios | Compartir por WhatsApp

1 comentarios

GN⁺ 2024-11-30

Comentarios de Hacker News

Es positivo que aumente la cantidad de blogs, pero la forma de compilar llama.cpp se siente compleja
- Con el comando ccmake . se pueden configurar parámetros según el hardware y compilar
Se comparte la experiencia de haber ejecutado Llama.cpp con éxito en una laptop Dell antigua
- Funcionó incluso con especificaciones mínimas, y aunque era lento, daba respuestas precisas
- Le gustaría probar ejecutar modelos más grandes en un hardware mejor
Quería instalar Llama.cpp, pero terminó instalando kobold.cpp porque la UX es mejor
Se comparte la experiencia de intentar compilar en Windows y AMD
- Vulkan y MSYS2 fueron lo más fácil de poner en marcha
Pregunta sobre las limitaciones de los LLM que soporta Llama.cpp
- Tiene curiosidad por saber si solo soporta ciertos modelos transformer
Se comparte la experiencia de haberse cambiado a Ollama
- La configuración de servidor y cliente de Ollama funciona de forma sencilla
Se enfatiza que Ollama no es solo un wrapper simple de llama.cpp
- Ollama ofrece varias funciones para la interfaz y el empaquetado de modelos
Pregunta por qué usar Llama.cpp en lugar de la interfaz web de ChatGPT
- Tiene curiosidad por saber si la privacidad es la razón principal
Usa ChatGPT y Claude todos los días, pero no encuentra motivos para usar un LLM fuera de otros servicios
Discusión sobre Ollama y ejecutar llama.cpp directamente
- Configurar CUDA no siempre es fácil, y la inferencia local puede ser más rápida
- Ejecutarlo con PyTorch es más fácil, y los modelos AWQ se pueden instalar fácilmente

Guía de Llama.cpp: cómo ejecutar LLMs localmente desde cero en cualquier hardware

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News