19 puntos por GN⁺ 2026-01-23 | 2 comentarios | Compartir por WhatsApp
  • El modelo Sweep Next-Edit de 1.5B parámetros predice la siguiente modificación de código del usuario para ofrecer autocompletado
  • Se ejecuta en entornos locales con una velocidad inferior a 500 ms y muestra mejor rendimiento que modelos más de 4 veces más grandes
  • Se ofrece en formato de cuantización Q8_0 GGUF, y aun en estado liviano admite una longitud de contexto de 8192 tokens
  • Está basado en Qwen2.5-Coder y puede integrarse con el plugin de JetBrains
  • Se publica bajo licencia Apache 2.0, por lo que es un modelo útil para experimentación e integración para desarrolladores de IA de código abierto

Descripción general del modelo

  • Sweep Next-Edit 1.5B es un modelo de predicción de next-edit para autocompletado de código
    • Predice y sugiere la siguiente edición antes de que el usuario modifique el código
    • Puede ejecutarse incluso en un entorno local de laptop con una latencia inferior a 500 ms
  • Ofrece tiempos de respuesta rápidos mediante speculative decoding
  • Registró mejor rendimiento que modelos más de 4 veces más grandes en benchmarks de next-edit

Detalles del modelo

  • Número de parámetros: 1.5B
  • Formato: GGUF (cuantización Q8_0)
  • Longitud de contexto: 8192 tokens
  • Modelo base: Qwen2.5-Coder
  • Licencia: Apache 2.0

Cómo usarlo

  • Descarga run_model.py y el archivo del modelo, luego ejecútalos
    • Comandos de instalación:
      uv pip install llama-cpp-python huggingface_hub  
      python run_model.py  
      
  • Tiene una arquitectura centrada en ejecución local, por lo que no hay un proveedor separado de inferencia en la nube

2 comentarios

 
minsuchae 2026-01-23

Últimamente las big tech han crecido aumentando la cantidad de parámetros, pero ¿estará cambiando esa dirección?
Personalmente, siempre he pensado que seguir creciendo simplemente subiendo los parámetros no tenía realmente una respuesta clara.
Se siente como renunciar al futuro inmediato para seguir creciendo, por decirlo de alguna manera. En especial, me parecía que eso se notaba más cuando MoE estaba en su punto más fuerte.
Google con Gemma 3 27b estaba bastante alto, pero ahora en los LLM una cantidad de parámetros así ya hasta parecía poca cosa.
El avance tecnológico es importante, pero también hace falta que salga algo considerando la etapa real de servir todo eso, y esta vez me parece un intento bastante decente.
(La razón por la que soy escéptico con el aumento de parámetros es que sé que mejora el rendimiento, pero servir eso termina costando más.)

 
GN⁺ 2026-01-23
Comentarios de Hacker News
  • Probé el modelo yo mismo y el rendimiento y la calidad me parecieron realmente impresionantes
    Gracias por liberarlo como open source
    Yo soy quien hizo un plugin de edit completion para Neovim, y logré integrarlo con el modelo Sweep Edit
    Si a alguien le interesa, puede revisar cursortab.nvim

    • Me pregunto si también existe un port para Emacs o una versión integrada con gptel
    • Se ve interesante, así que voy a probar de inmediato el plugin para nvim
    • Genial. Yo también pienso intentarlo por mi cuenta
  • Hace tiempo probé Qwen 2.5 Coder para autocompletado en Continue.dev, pero fue un desastre tanto en JetBrains IDE como en VS Code
    Da mucho gusto que compartan este tipo de intentos. La mayoría de los plugins para IDE (Cline, RooCode, KiloCode, etc.) no soportan bien la configuración de modelos de autocompletado
    Básicamente mantenía mi suscripción a Copilot por el autocompletado, así que me alegra ver que ahora parece haber una alternativa

    • También probé la extensión de VS Code de llama.cpp, pero la UX de configuración era realmente pésima
  • Cada vez que uso plugins así, vuelvo a sentir lo ineficiente que es programar sin IA de autocompletado
    Mientras más código boilerplate hay, más útil resulta que Claude Code
    Como usé JetBrains durante mucho tiempo, me costaba pasarme a VSCode, pero las funciones de IA de JetBrains estaban demasiado atrasadas
    Ahora que por fin salió una herramienta de autocompletado decente, pienso cambiar mi suscripción de Copilot por esta
    Además, me gusta que publiquen los pesos abiertos y que ofrezcan modo de privacidad

    • Llevo tiempo insistiendo en la utilidad del autocompletado, pero apenas ahora entiendo que existen dos culturas de desarrollo distintas
      Quienes escriben sobre todo código nuevo sienten mucho la mejora de productividad del autocompletado, mientras que quienes se enfocan más en mantenimiento reciben más ayuda de herramientas como Claude Code
    • Yo también estoy de acuerdo. En Emacs uso un modelo local integrado con gemini 3 flash
      Pero normalmente mantengo los LLM apagados y solo los activo cuando hacen falta
      Creo que se está subestimando el potencial de los modelos pequeños especializados
      De hecho, estoy escribiendo un libro llamado ‘Winning Big With Small AI’
    • Esto se sale un poco del tema, pero me da curiosidad por qué hay tanto código boilerplate
      Creo que la mayor parte se puede refactorizar en utilidades o bibliotecas
      Tal vez lo percibo distinto porque yo escribo principalmente código de pipelines de investigación
      Como referencia, con herramientas como yasnippet, ultisnips, VSCode snippets también se puede implementar autocompletado básico
    • Junie no es gran cosa, pero si tu problema es el autocompletado, IntelliJ también tiene funciones de autocompletado local/en la nube
    • Da un poco de pena que la solución al problema del boilerplate termine reduciéndose a la generación automática
  • Llevaba muchísimo tiempo esperando algo así
    Me molestaba que Cursor cobrara 20 dólares al mes aunque solo usara el autocompletado
    Incluso pensé en hacer algo por mi cuenta, pero no estaba seguro de que un modelo lo bastante pequeño para correr en local pudiera ser realmente útil
    Así que improvisé una extensión para VSCode, y el modelo es bastante bueno
    Los modelos locales de antes eran terribles para completado en línea, pero esta vez es mucho mejor
    Ojalá la competencia se ponga intensa

    • Dice que si alguien tiene preguntas, se las haga saber
      También comenta que mejoraron la calidad con funciones como token healingpost relacionado
  • Escuché que el modelo de 1.5B es lo bastante pequeño para correr en local, así que me pregunto si en el plugin de Sweep AI para JetBrains también se ejecuta realmente en local
    Quisiera saber si al instalarlo el modelo se descarga automáticamente y si no hay comunicación externa

    • Por ahora no; el plugin de JetBrains usa un modelo grande alojado
    • No parece haber una forma de configurar un endpoint local en el plugin de JetBrains
  • Me sorprendió lo bajo que es el nivel de la implementación de IA de JetBrains
    Han pasado varios años y sigue estando a este nivel; casi parece que una empresa nueva podría hacerlo mejor
    El artículo técnico también estuvo interesante

    • Gracias. Siempre son bienvenidos los comentarios o preguntas
  • Viendo GLM-4.7-Flash y este anuncio, es realmente interesante cómo están rompiendo los límites de los modelos pequeños
    Me entusiasma que cada vez haya mejores modelos que sí pueden correr en el hardware que tengo

  • Está realmente genial
    Sobre todo me da curiosidad cómo generaron en el repositorio los datos de entrenamiento para next edit
    Me gustaría escuchar ideas o detalles al respecto

  • Excelente. El post del blog relacionado también estuvo muy interesante
    Ojalá pronto salga un plugin para Neovim
    Post relacionado

    • Ya escuché que alguien hizo un plugin para Neovim conectado con este modelo
    • También está llama.vim
      Me funcionó bien con Qwen3 Coder, y mientras soporte infill no debería haber problema
      Hoy planeo probarlo
    • El autor del plugin ya dejó un comentario en este hilo
  • No me queda clara la diferencia entre un modelo next-edit y un modelo FIM
    Me vendría bien que alguien explicara cuándo conviene usar cada uno
    Si se puede, también me gustaría hacer un plugin para Sublime y probarlo yo mismo

    • A mí también me dio curiosidad, así que le pedí a Claude que hiciera un plugin
      La estructura aprovecha la función básica de autocompletado
      Se puede ver en AItoComplete
    • Mi suposición es que FIM debe significar Fill-In-the-Middle
      El autocompletado tradicional simplemente completa el final, mientras que FIM rellena entre bloques de código
      Es decir, es un modelo que mira tanto el contexto anterior como el posterior al punto de inserción para encontrar la completación intermedia más natural