9 puntos por xguru 2024-01-18 | 5 comentarios | Compartir por WhatsApp
  • Un LLM de 3B parámetros que es 60% más pequeño que CodeLLaMA 7b, pero ofrece un rendimiento similar en generación de código
  • Puede funcionar sin conexión en una laptop común incluso sin GPU (como una MacBook Air)
  • Basado en el modelo Stable LM 3B, entrenado con 4 billones de datos de lenguaje natural, y luego ajustado adicionalmente con datos sobre ingeniería de software/código
    • Se seleccionaron 18 lenguajes de programación tomando como referencia la encuesta para desarrolladores de StackOverflow 2023

5 comentarios

 
misolab 2024-01-18

Como estamos en el sector financiero, desarrollamos solo dentro de la red interna. En un caso así, ¿cuál sería una buena forma de abordarlo? En casa uso cosas como Copilot, así que quería preguntar porque me gustaría que en la empresa también pudiéramos usar algo así.

  • Desarrollo aplicaciones, así que no sé mucho de IA. Si me dan alguna pista, la voy a investigar con ganas.
 
cosine20 2024-01-19

https://github.com/janhq/jan
Es una app con interfaz gráfica que permite usar modelos sin conexión. Si están en una red interna, parece que bastaría con descargar de antemano desde fuera de la red el instalador de esta app y el archivo del modelo que vayan a usar, y luego moverlos a la red interna para utilizarlos.
A continuación se explica cómo agregar modelos manualmente.
https://jan.ai/guides/using-models/import-manually/

 
ahwjdekf 2024-01-18

En un entorno con separación de redes, sinceramente no es muy distinto de ponerle grilletes a los desarrolladores.

 
ahwjdekf 2024-01-18

Últimamente también se está hablando de relajar la política de aislamiento de redes y se ven algunos esfuerzos por mejorarla, así que quizá se pueda tener algo de esperanza, pero en lugares que manejan datos personales, como bancos y telecomunicaciones, probablemente siga siendo difícil. Para los desarrolladores, es un entorno que se siente totalmente como una cárcel.

 
laeyoung 2024-01-18

Solo compararon el rendimiento con otros modelos de tamaño similar, pero si miras un leaderboard más amplio, se ve así.
https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard

Como es para código, me hace pensar aún más que quizá sería mejor algo con mayor rendimiento, aunque sea un poco más lento o más caro.