1 comentarios

 
GN⁺ 2024-11-30
Comentarios de Hacker News
  • Es positivo que aumente la cantidad de blogs, pero la forma de compilar llama.cpp se siente compleja

    • Con el comando ccmake . se pueden configurar parámetros según el hardware y compilar
  • Se comparte la experiencia de haber ejecutado Llama.cpp con éxito en una laptop Dell antigua

    • Funcionó incluso con especificaciones mínimas, y aunque era lento, daba respuestas precisas
    • Le gustaría probar ejecutar modelos más grandes en un hardware mejor
  • Quería instalar Llama.cpp, pero terminó instalando kobold.cpp porque la UX es mejor

  • Se comparte la experiencia de intentar compilar en Windows y AMD

    • Vulkan y MSYS2 fueron lo más fácil de poner en marcha
  • Pregunta sobre las limitaciones de los LLM que soporta Llama.cpp

    • Tiene curiosidad por saber si solo soporta ciertos modelos transformer
  • Se comparte la experiencia de haberse cambiado a Ollama

    • La configuración de servidor y cliente de Ollama funciona de forma sencilla
  • Se enfatiza que Ollama no es solo un wrapper simple de llama.cpp

    • Ollama ofrece varias funciones para la interfaz y el empaquetado de modelos
  • Pregunta por qué usar Llama.cpp en lugar de la interfaz web de ChatGPT

    • Tiene curiosidad por saber si la privacidad es la razón principal
  • Usa ChatGPT y Claude todos los días, pero no encuentra motivos para usar un LLM fuera de otros servicios

  • Discusión sobre Ollama y ejecutar llama.cpp directamente

    • Configurar CUDA no siempre es fácil, y la inferencia local puede ser más rápida
    • Ejecutarlo con PyTorch es más fácil, y los modelos AWQ se pueden instalar fácilmente