- El modelo Sweep Next-Edit de 1.5B parámetros predice la siguiente modificación de código del usuario para ofrecer autocompletado
- Se ejecuta en entornos locales con una velocidad inferior a 500 ms y muestra mejor rendimiento que modelos más de 4 veces más grandes
- Se ofrece en formato de cuantización Q8_0 GGUF, y aun en estado liviano admite una longitud de contexto de 8192 tokens
- Está basado en Qwen2.5-Coder y puede integrarse con el plugin de JetBrains
- Se publica bajo licencia Apache 2.0, por lo que es un modelo útil para experimentación e integración para desarrolladores de IA de código abierto
Descripción general del modelo
- Sweep Next-Edit 1.5B es un modelo de predicción de next-edit para autocompletado de código
- Predice y sugiere la siguiente edición antes de que el usuario modifique el código
- Puede ejecutarse incluso en un entorno local de laptop con una latencia inferior a 500 ms
- Ofrece tiempos de respuesta rápidos mediante speculative decoding
- Registró mejor rendimiento que modelos más de 4 veces más grandes en benchmarks de next-edit
Detalles del modelo
- Número de parámetros: 1.5B
- Formato: GGUF (cuantización Q8_0)
- Longitud de contexto: 8192 tokens
- Modelo base: Qwen2.5-Coder
- Licencia: Apache 2.0
Cómo usarlo
- Descarga
run_model.py y el archivo del modelo, luego ejecútalos
- Tiene una arquitectura centrada en ejecución local, por lo que no hay un proveedor separado de inferencia en la nube
2 comentarios
Últimamente las big tech han crecido aumentando la cantidad de parámetros, pero ¿estará cambiando esa dirección?
Personalmente, siempre he pensado que seguir creciendo simplemente subiendo los parámetros no tenía realmente una respuesta clara.
Se siente como renunciar al futuro inmediato para seguir creciendo, por decirlo de alguna manera. En especial, me parecía que eso se notaba más cuando MoE estaba en su punto más fuerte.
Google con Gemma 3 27b estaba bastante alto, pero ahora en los LLM una cantidad de parámetros así ya hasta parecía poca cosa.
El avance tecnológico es importante, pero también hace falta que salga algo considerando la etapa real de servir todo eso, y esta vez me parece un intento bastante decente.
(La razón por la que soy escéptico con el aumento de parámetros es que sé que mejora el rendimiento, pero servir eso termina costando más.)
Comentarios de Hacker News
Probé el modelo yo mismo y el rendimiento y la calidad me parecieron realmente impresionantes
Gracias por liberarlo como open source
Yo soy quien hizo un plugin de edit completion para Neovim, y logré integrarlo con el modelo Sweep Edit
Si a alguien le interesa, puede revisar cursortab.nvim
Hace tiempo probé Qwen 2.5 Coder para autocompletado en Continue.dev, pero fue un desastre tanto en JetBrains IDE como en VS Code
Da mucho gusto que compartan este tipo de intentos. La mayoría de los plugins para IDE (Cline, RooCode, KiloCode, etc.) no soportan bien la configuración de modelos de autocompletado
Básicamente mantenía mi suscripción a Copilot por el autocompletado, así que me alegra ver que ahora parece haber una alternativa
Cada vez que uso plugins así, vuelvo a sentir lo ineficiente que es programar sin IA de autocompletado
Mientras más código boilerplate hay, más útil resulta que Claude Code
Como usé JetBrains durante mucho tiempo, me costaba pasarme a VSCode, pero las funciones de IA de JetBrains estaban demasiado atrasadas
Ahora que por fin salió una herramienta de autocompletado decente, pienso cambiar mi suscripción de Copilot por esta
Además, me gusta que publiquen los pesos abiertos y que ofrezcan modo de privacidad
Quienes escriben sobre todo código nuevo sienten mucho la mejora de productividad del autocompletado, mientras que quienes se enfocan más en mantenimiento reciben más ayuda de herramientas como Claude Code
Pero normalmente mantengo los LLM apagados y solo los activo cuando hacen falta
Creo que se está subestimando el potencial de los modelos pequeños especializados
De hecho, estoy escribiendo un libro llamado ‘Winning Big With Small AI’
Creo que la mayor parte se puede refactorizar en utilidades o bibliotecas
Tal vez lo percibo distinto porque yo escribo principalmente código de pipelines de investigación
Como referencia, con herramientas como yasnippet, ultisnips, VSCode snippets también se puede implementar autocompletado básico
Llevaba muchísimo tiempo esperando algo así
Me molestaba que Cursor cobrara 20 dólares al mes aunque solo usara el autocompletado
Incluso pensé en hacer algo por mi cuenta, pero no estaba seguro de que un modelo lo bastante pequeño para correr en local pudiera ser realmente útil
Así que improvisé una extensión para VSCode, y el modelo es bastante bueno
Los modelos locales de antes eran terribles para completado en línea, pero esta vez es mucho mejor
Ojalá la competencia se ponga intensa
También comenta que mejoraron la calidad con funciones como token healing — post relacionado
Escuché que el modelo de 1.5B es lo bastante pequeño para correr en local, así que me pregunto si en el plugin de Sweep AI para JetBrains también se ejecuta realmente en local
Quisiera saber si al instalarlo el modelo se descarga automáticamente y si no hay comunicación externa
Me sorprendió lo bajo que es el nivel de la implementación de IA de JetBrains
Han pasado varios años y sigue estando a este nivel; casi parece que una empresa nueva podría hacerlo mejor
El artículo técnico también estuvo interesante
Viendo GLM-4.7-Flash y este anuncio, es realmente interesante cómo están rompiendo los límites de los modelos pequeños
Me entusiasma que cada vez haya mejores modelos que sí pueden correr en el hardware que tengo
Está realmente genial
Sobre todo me da curiosidad cómo generaron en el repositorio los datos de entrenamiento para next edit
Me gustaría escuchar ideas o detalles al respecto
Excelente. El post del blog relacionado también estuvo muy interesante
Ojalá pronto salga un plugin para Neovim
Post relacionado
Me funcionó bien con Qwen3 Coder, y mientras soporte infill no debería haber problema
Hoy planeo probarlo
No me queda clara la diferencia entre un modelo next-edit y un modelo FIM
Me vendría bien que alguien explicara cuándo conviene usar cada uno
Si se puede, también me gustaría hacer un plugin para Sublime y probarlo yo mismo
La estructura aprovecha la función básica de autocompletado
Se puede ver en AItoComplete
El autocompletado tradicional simplemente completa el final, mientras que FIM rellena entre bloques de código
Es decir, es un modelo que mira tanto el contexto anterior como el posterior al punto de inserción para encontrar la completación intermedia más natural