- OpenCoder es un modelo de lenguaje grande (LLM) de código de código abierto, que incluye modelos base y de chat de 1.5B y 8B, y admite inglés y chino
- Fue entrenado con datos compuestos por 2.5 billones de tokens, de los cuales 90% son código fuente sin procesar y 10% son datos web relacionados con código
- Alcanza el rendimiento de los LLM de código de primer nivel y proporciona pesos del modelo, código de inferencia, datos de entrenamiento reproducibles, pipeline de procesamiento de datos, resultados experimentales de ablación y protocolos de entrenamiento detallados
- Una plataforma abierta que ayuda a los investigadores a avanzar e innovar en la IA de código
- Características de OpenCoder
- Un LLM de código totalmente de código abierto, construido sobre un pipeline transparente de procesamiento de datos y un conjunto de datos reproducible, que logra rendimiento de primer nivel en varios benchmarks de evaluación de LLM de código
- RefineCode: un corpus de preentrenamiento de código reproducible y de alta calidad compuesto por 960 mil millones de tokens en 607 lenguajes de programación
- Estudios de ablación significativos: incluye múltiples experimentos de ablación para ofrecer perspectivas valiosas sobre distintas decisiones de diseño y estrategias de entrenamiento de LLM de código
- Recursos publicados: pesos finales del modelo, pipeline completo de procesamiento de datos, pipeline eficiente de evaluación, conjunto de datos de preentrenamiento reproducible, conjunto de datos SFT a gran escala y checkpoints intermedios
1 comentarios
Opiniones de Hacker News
Contribuye a la investigación científica al publicar no solo los pesos del modelo y el código de inferencia, sino también datos de entrenamiento reproducibles, el pipeline de procesamiento de datos, resultados experimentales y protocolos de entrenamiento.
En las pruebas, presentó muchas alucinaciones y rindió peor que modelos generales como Qwen 2.5 o Mistral-Nemo.
Se comparte el enlace a la página del artículo en arXiv: https://opencoder-llm.github.io/
Resultó confuso que el puntaje de HumanEval de Qwen2.5-Coder-7B sea 61.6, pero en la Tabla 1 aparezca como 88.4.
Debido a los forks y al copiado y pegado dentro de la base de código, el 75% de los archivos está completamente duplicado.
¿Hay gente entrenando con metadatos de compilación y ejecución, como datos de profiling?
Es un artículo interesante, pero el modelo no parece superar a Qwen2.5-Coder en algunos lenguajes, incluido Ruby.
Da curiosidad qué hardware se necesita para ejecutar este modelo.
La plomería importa.
Bien.