OpenCoder: un libro de recetas abierto para LLM de código de primer nivel

(opencoder-llm.github.io)

12 puntos por GN⁺ 2024-11-10 | 1 comentarios | Compartir por WhatsApp

OpenCoder es un modelo de lenguaje grande (LLM) de código de código abierto, que incluye modelos base y de chat de 1.5B y 8B, y admite inglés y chino
- Fue entrenado con datos compuestos por 2.5 billones de tokens, de los cuales 90% son código fuente sin procesar y 10% son datos web relacionados con código
- Alcanza el rendimiento de los LLM de código de primer nivel y proporciona pesos del modelo, código de inferencia, datos de entrenamiento reproducibles, pipeline de procesamiento de datos, resultados experimentales de ablación y protocolos de entrenamiento detallados
- Una plataforma abierta que ayuda a los investigadores a avanzar e innovar en la IA de código
Características de OpenCoder
- Un LLM de código totalmente de código abierto, construido sobre un pipeline transparente de procesamiento de datos y un conjunto de datos reproducible, que logra rendimiento de primer nivel en varios benchmarks de evaluación de LLM de código
- RefineCode: un corpus de preentrenamiento de código reproducible y de alta calidad compuesto por 960 mil millones de tokens en 607 lenguajes de programación
- Estudios de ablación significativos: incluye múltiples experimentos de ablación para ofrecer perspectivas valiosas sobre distintas decisiones de diseño y estrategias de entrenamiento de LLM de código
- Recursos publicados: pesos finales del modelo, pipeline completo de procesamiento de datos, pipeline eficiente de evaluación, conjunto de datos de preentrenamiento reproducible, conjunto de datos SFT a gran escala y checkpoints intermedios

1 comentarios

GN⁺ 2024-11-10

Opiniones de Hacker News

Contribuye a la investigación científica al publicar no solo los pesos del modelo y el código de inferencia, sino también datos de entrenamiento reproducibles, el pipeline de procesamiento de datos, resultados experimentales y protocolos de entrenamiento.
- Se enfatiza que este tipo de trabajo beneficia a todos independientemente del rendimiento del modelo.
En las pruebas, presentó muchas alucinaciones y rindió peor que modelos generales como Qwen 2.5 o Mistral-Nemo.
Se comparte el enlace a la página del artículo en arXiv: https://opencoder-llm.github.io/
Resultó confuso que el puntaje de HumanEval de Qwen2.5-Coder-7B sea 61.6, pero en la Tabla 1 aparezca como 88.4.
- Esto se debe a que son dos modelos distintos (Qwen2.5-Coder-7B-Base es 61.6, y Qwen2.5-Coder-7B-Instruct es 88.4).
Debido a los forks y al copiado y pegado dentro de la base de código, el 75% de los archivos está completamente duplicado.
- Como el hashing se hace a nivel de archivo, no se puede asegurar que se trate de copias completas de archivos sin modificaciones.
¿Hay gente entrenando con metadatos de compilación y ejecución, como datos de profiling?
- Da curiosidad si incluir eso podría orientar al modelo hacia código más eficiente.
Es un artículo interesante, pero el modelo no parece superar a Qwen2.5-Coder en algunos lenguajes, incluido Ruby.
Da curiosidad qué hardware se necesita para ejecutar este modelo.
La plomería importa.
Bien.

OpenCoder: un libro de recetas abierto para LLM de código de primer nivel

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News