- Un LLM de 3B parámetros que es 60% más pequeño que CodeLLaMA 7b, pero ofrece un rendimiento similar en generación de código
- Puede funcionar sin conexión en una laptop común incluso sin GPU (como una MacBook Air)
- Basado en el modelo Stable LM 3B, entrenado con 4 billones de datos de lenguaje natural, y luego ajustado adicionalmente con datos sobre ingeniería de software/código
- Se seleccionaron 18 lenguajes de programación tomando como referencia la encuesta para desarrolladores de StackOverflow 2023
5 comentarios
Como estamos en el sector financiero, desarrollamos solo dentro de la red interna. En un caso así, ¿cuál sería una buena forma de abordarlo? En casa uso cosas como Copilot, así que quería preguntar porque me gustaría que en la empresa también pudiéramos usar algo así.
https://github.com/janhq/jan
Es una app con interfaz gráfica que permite usar modelos sin conexión. Si están en una red interna, parece que bastaría con descargar de antemano desde fuera de la red el instalador de esta app y el archivo del modelo que vayan a usar, y luego moverlos a la red interna para utilizarlos.
A continuación se explica cómo agregar modelos manualmente.
https://jan.ai/guides/using-models/import-manually/
En un entorno con separación de redes, sinceramente no es muy distinto de ponerle grilletes a los desarrolladores.
Últimamente también se está hablando de relajar la política de aislamiento de redes y se ven algunos esfuerzos por mejorarla, así que quizá se pueda tener algo de esperanza, pero en lugares que manejan datos personales, como bancos y telecomunicaciones, probablemente siga siendo difícil. Para los desarrolladores, es un entorno que se siente totalmente como una cárcel.
Solo compararon el rendimiento con otros modelos de tamaño similar, pero si miras un leaderboard más amplio, se ve así.
https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
Como es para código, me hace pensar aún más que quizá sería mejor algo con mayor rendimiento, aunque sea un poco más lento o más caro.