- Code Llama es un modelo de lenguaje grande (LLM) de vanguardia diseñado especialmente para tareas de programación.
- Puede generar código y lenguaje natural sobre el código tanto a partir de prompts de código como de lenguaje natural.
- Code Llama está construido sobre Llama 2 y se ofrece en tres variantes: un modelo base de código, un modelo especializado en Python y un modelo ajustado finamente para comprender instrucciones en lenguaje natural.
- El modelo es gratuito tanto para investigación como para uso comercial, y supera a otros LLM disponibles públicamente en tareas de código.
- Code Llama puede usarse como una herramienta de productividad para ayudar a los programadores a escribir software más robusto y mejor documentado, y como una herramienta educativa que reduce la barrera de entrada para quienes están aprendiendo a programar.
- El modelo admite muchos lenguajes populares, incluidos Python, C++, Java, PHP, Typescript (Javascript), C#, Bash y más.
- Code Llama está disponible en tres tamaños, con 7B, 13B y 34B parámetros respectivamente, y cada uno fue entrenado con 500B tokens de código y datos relacionados con código.
- Los distintos modelos se ofrecen para ajustarse a diferentes servicios y requisitos de latencia; el modelo de 34B ofrece los mejores resultados, mientras que los modelos más pequeños son más adecuados para tareas que requieren rapidez y baja latencia.
- Code Llama puede manejar contextos de hasta 100,000 tokens, lo que resulta útil para generar programas más largos y depurar bases de código más grandes.
- Se ajustaron finamente dos variantes adicionales, Code Llama - Python y Code Llama - Instruct, especializadas respectivamente en código Python y en generar respuestas útiles y seguras en lenguaje natural.
- En pruebas de benchmark con los benchmarks de programación HumanEval y Mostly Basic Python Programming (MBPP), Code Llama superó a otros LLM de código de código abierto y a Llama 2.
- Antes del lanzamiento de Code Llama se tomaron medidas de seguridad, incluida una evaluación cuantitativa del riesgo de que el modelo genere código malicioso.
- La receta de entrenamiento y los pesos del modelo de Code Llama están disponibles en GitHub, y su desarrollo, pruebas de benchmark, limitaciones y desafíos futuros se describen en detalle en el artículo de investigación.
- Los creadores de Code Llama creen que los modelos de IA, especialmente los LLM para programación, obtienen el mayor beneficio de un enfoque abierto, ya que esto permite que toda la comunidad evalúe sus capacidades, identifique problemas y corrija vulnerabilidades.
- Se recomienda a los desarrolladores usar Code Llama de forma responsable, lo que incluye seguir lineamientos sobre desarrollo de modelos derivados, definición de políticas de contenido, preparación de datos, ajuste fino del modelo, evaluación y mejora del rendimiento, respuesta ante riesgos, transparencia en la interacción con usuarios y creación de mecanismos de reporte.
- Code Llama fue diseñado para apoyar a ingenieros de software de todos los campos e inspirar a otros a aprovechar Llama 2 para crear nuevas herramientas innovadoras para investigación y productos comerciales.
1 comentarios
Comentarios de Hacker News