Llama.vim – Plugin de autocompletado de código/texto para VIM usando LLM

Proporciona autocompletado de texto basado en LLM local dentro de VIM
Sugerencias automáticas al mover el cursor en modo Insert
Se puede cambiar a sugerencias manuales con Ctrl+F
Aceptar sugerencia con Tab
Aceptar la sugerencia de la primera línea con Shift+Tab
Permite configurar el tiempo máximo de generación de texto
Permite configurar el rango de contexto alrededor del cursor
Construye un anillo de contexto usando fragmentos de contexto de archivos abiertos, archivos en edición y texto copiado
Soporta contextos muy grandes incluso en hardware modesto mediante la reutilización inteligente del contexto
Muestra estadísticas de rendimiento

Instalación

vim-plug : Plug 'ggml-org/llama.vim'
Vundle :
- Ir a ~/.vim/bundle y luego ejecutar git clone https://github.com/ggml-org/llama.vim
- Agregar Plugin 'llama.vim' en la sección vundle#begin() de .vimrc

Configuración de llama.cpp

El plugin requiere una instancia del servidor llama.cpp ejecutándose en g:llama_config.endpoint
Mac OS : brew install llama.cpp
Otros sistemas operativos: compilar desde el código fuente o usar el binario más reciente: llama.cpp releases

Configuración de llama.cpp

Configuración recomendada según la capacidad de VRAM:
- 16GB de VRAM o más: Qwen2.5-Coder-7B-Q8_0-GGUF
- Menos de 16GB de VRAM: Qwen2.5-Coder-3B-Q8_0-GGUF
- Menos de 8GB de VRAM: Qwen2.5-Coder-1.5B-Q8_0-GGUF
Para más detalles, consulta :help llama

LLM recomendados

Se requiere un modelo compatible con FIM: HF collection

Detalles de implementación

El plugin busca ofrecer completado FIM local simple y ligero, con rendimiento de alta calidad incluso en hardware de consumo

Otros IDEs

VS Code: llama.vscode

1 comentarios

GN⁺ 2025-01-24

Opiniones de Hacker News

Recomiendan revisar los detalles técnicos de la implementación del servidor, ya que incluye ideas interesantes y geniales. Este plugin también puede usarse en VS Code. El rendimiento mejoró gracias al caché del lado del cliente.
Este usuario ha hecho muchas contribuciones al ecosistema de IA de código abierto y esperan que consiga suficiente financiamiento para seguir desarrollando software y publicándolo como código abierto verdaderamente "sin condiciones".
Creen que integrar más estrechamente las herramientas de LLM con LSP, compiladores y otras herramientas de análisis estático podría ofrecer más contexto y mejores resultados. Sería bueno poder ajustar finamente LLM por lenguaje y distribuirlos junto con las herramientas comunes del editor. Señalan el problema de que las herramientas de IA funcionan mejor con lenguajes antiguos y populares, lo que podría volverse un factor importante al elegir un lenguaje. Piensan que sería bueno poder instalar un modelo específico para Gleam que reciba datos del LSP y del compilador para no generar sintaxis incorrecta.
Se preguntan cómo funciona el "ring context" y proponen una solución para manejar el caché KV en proyectos similares. Consistiría en mantener un árbol de tokens y guardar snapshots completos del estado del LLM a intervalos de profundidad fija, de modo que cuando cambie el búfer solo haya que "reproducir" unos pocos tokens. Creen que podría haber propiedades matemáticas sobre cómo funcionan las partes importantes del estado.
Piensan que el cursor parpadeante del video de demostración provoca palpitaciones, pero que se ve muy bien. Se preguntan cómo funciona Linux en hardware M*.
Se preguntan si este plugin es el mismo que la versión para VSCode.
Se preguntan qué será posible en los próximos diez años con hardware de consumo y mejoras en la cuantización. Incluso con una GPU de 24 GB, hoy todavía no logran igualar el rendimiento de los servicios de hosting.
Prefieren programar en la terminal y, si se atoran, pueden usar askds para hacer un análisis más profundo desde la terminal.
Se preguntan si es posible usar llama en hardware de gama media y creen que falla por falta de RAM. Sienten que 2G de VRAM y 16G de RAM del sistema no son suficientes, y que aunque en la mayoría de los productos de Apple la memoria está integrada y funciona de esa manera, fuera de eso parece necesario tener una costosa GPU Nvidia con mucha VRAM. Se preguntan si existe alguna opción más económica.
Piden consejos a alguien que conozca este tema, ya que están buscando una forma de comprar una tarjeta gráfica a un precio razonable para ejecutar LLM locales.

Llama.vim – Plugin de autocompletado de código/texto para VIM usando LLM

Instalación

Configuración de llama.cpp

Configuración de llama.cpp

LLM recomendados

Detalles de implementación

Otros IDEs

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News