4 puntos por GN⁺ 2025-01-24 | 1 comentarios | Compartir por WhatsApp
  • Proporciona autocompletado de texto basado en LLM local dentro de VIM
  • Sugerencias automáticas al mover el cursor en modo Insert
  • Se puede cambiar a sugerencias manuales con Ctrl+F
  • Aceptar sugerencia con Tab
  • Aceptar la sugerencia de la primera línea con Shift+Tab
  • Permite configurar el tiempo máximo de generación de texto
  • Permite configurar el rango de contexto alrededor del cursor
  • Construye un anillo de contexto usando fragmentos de contexto de archivos abiertos, archivos en edición y texto copiado
  • Soporta contextos muy grandes incluso en hardware modesto mediante la reutilización inteligente del contexto
  • Muestra estadísticas de rendimiento

Instalación

  • vim-plug : Plug 'ggml-org/llama.vim'
  • Vundle :

Configuración de llama.cpp

  • El plugin requiere una instancia del servidor llama.cpp ejecutándose en g:llama_config.endpoint
  • Mac OS : brew install llama.cpp
  • Otros sistemas operativos: compilar desde el código fuente o usar el binario más reciente: llama.cpp releases

Configuración de llama.cpp

  • Configuración recomendada según la capacidad de VRAM:
    • 16GB de VRAM o más: Qwen2.5-Coder-7B-Q8_0-GGUF
    • Menos de 16GB de VRAM: Qwen2.5-Coder-3B-Q8_0-GGUF
    • Menos de 8GB de VRAM: Qwen2.5-Coder-1.5B-Q8_0-GGUF
  • Para más detalles, consulta :help llama

LLM recomendados

Detalles de implementación

  • El plugin busca ofrecer completado FIM local simple y ligero, con rendimiento de alta calidad incluso en hardware de consumo

Otros IDEs

1 comentarios

 
GN⁺ 2025-01-24
Opiniones de Hacker News
  • Recomiendan revisar los detalles técnicos de la implementación del servidor, ya que incluye ideas interesantes y geniales. Este plugin también puede usarse en VS Code. El rendimiento mejoró gracias al caché del lado del cliente.

  • Este usuario ha hecho muchas contribuciones al ecosistema de IA de código abierto y esperan que consiga suficiente financiamiento para seguir desarrollando software y publicándolo como código abierto verdaderamente "sin condiciones".

  • Creen que integrar más estrechamente las herramientas de LLM con LSP, compiladores y otras herramientas de análisis estático podría ofrecer más contexto y mejores resultados. Sería bueno poder ajustar finamente LLM por lenguaje y distribuirlos junto con las herramientas comunes del editor. Señalan el problema de que las herramientas de IA funcionan mejor con lenguajes antiguos y populares, lo que podría volverse un factor importante al elegir un lenguaje. Piensan que sería bueno poder instalar un modelo específico para Gleam que reciba datos del LSP y del compilador para no generar sintaxis incorrecta.

  • Se preguntan cómo funciona el "ring context" y proponen una solución para manejar el caché KV en proyectos similares. Consistiría en mantener un árbol de tokens y guardar snapshots completos del estado del LLM a intervalos de profundidad fija, de modo que cuando cambie el búfer solo haya que "reproducir" unos pocos tokens. Creen que podría haber propiedades matemáticas sobre cómo funcionan las partes importantes del estado.

  • Piensan que el cursor parpadeante del video de demostración provoca palpitaciones, pero que se ve muy bien. Se preguntan cómo funciona Linux en hardware M*.

  • Se preguntan si este plugin es el mismo que la versión para VSCode.

  • Se preguntan qué será posible en los próximos diez años con hardware de consumo y mejoras en la cuantización. Incluso con una GPU de 24 GB, hoy todavía no logran igualar el rendimiento de los servicios de hosting.

  • Prefieren programar en la terminal y, si se atoran, pueden usar askds para hacer un análisis más profundo desde la terminal.

  • Se preguntan si es posible usar llama en hardware de gama media y creen que falla por falta de RAM. Sienten que 2G de VRAM y 16G de RAM del sistema no son suficientes, y que aunque en la mayoría de los productos de Apple la memoria está integrada y funciona de esa manera, fuera de eso parece necesario tener una costosa GPU Nvidia con mucha VRAM. Se preguntan si existe alguna opción más económica.

  • Piden consejos a alguien que conozca este tema, ya que están buscando una forma de comprar una tarjeta gráfica a un precio razonable para ejecutar LLM locales.