12 puntos por GN⁺ 2024-11-10 | 1 comentarios | Compartir por WhatsApp
  • OpenCoder es un modelo de lenguaje grande (LLM) de código de código abierto, que incluye modelos base y de chat de 1.5B y 8B, y admite inglés y chino
    • Fue entrenado con datos compuestos por 2.5 billones de tokens, de los cuales 90% son código fuente sin procesar y 10% son datos web relacionados con código
    • Alcanza el rendimiento de los LLM de código de primer nivel y proporciona pesos del modelo, código de inferencia, datos de entrenamiento reproducibles, pipeline de procesamiento de datos, resultados experimentales de ablación y protocolos de entrenamiento detallados
    • Una plataforma abierta que ayuda a los investigadores a avanzar e innovar en la IA de código
  • Características de OpenCoder
    • Un LLM de código totalmente de código abierto, construido sobre un pipeline transparente de procesamiento de datos y un conjunto de datos reproducible, que logra rendimiento de primer nivel en varios benchmarks de evaluación de LLM de código
    • RefineCode: un corpus de preentrenamiento de código reproducible y de alta calidad compuesto por 960 mil millones de tokens en 607 lenguajes de programación
    • Estudios de ablación significativos: incluye múltiples experimentos de ablación para ofrecer perspectivas valiosas sobre distintas decisiones de diseño y estrategias de entrenamiento de LLM de código
    • Recursos publicados: pesos finales del modelo, pipeline completo de procesamiento de datos, pipeline eficiente de evaluación, conjunto de datos de preentrenamiento reproducible, conjunto de datos SFT a gran escala y checkpoints intermedios

1 comentarios

 
GN⁺ 2024-11-10
Opiniones de Hacker News
  • Contribuye a la investigación científica al publicar no solo los pesos del modelo y el código de inferencia, sino también datos de entrenamiento reproducibles, el pipeline de procesamiento de datos, resultados experimentales y protocolos de entrenamiento.

    • Se enfatiza que este tipo de trabajo beneficia a todos independientemente del rendimiento del modelo.
  • En las pruebas, presentó muchas alucinaciones y rindió peor que modelos generales como Qwen 2.5 o Mistral-Nemo.

  • Se comparte el enlace a la página del artículo en arXiv: https://opencoder-llm.github.io/

  • Resultó confuso que el puntaje de HumanEval de Qwen2.5-Coder-7B sea 61.6, pero en la Tabla 1 aparezca como 88.4.

    • Esto se debe a que son dos modelos distintos (Qwen2.5-Coder-7B-Base es 61.6, y Qwen2.5-Coder-7B-Instruct es 88.4).
  • Debido a los forks y al copiado y pegado dentro de la base de código, el 75% de los archivos está completamente duplicado.

    • Como el hashing se hace a nivel de archivo, no se puede asegurar que se trate de copias completas de archivos sin modificaciones.
  • ¿Hay gente entrenando con metadatos de compilación y ejecución, como datos de profiling?

    • Da curiosidad si incluir eso podría orientar al modelo hacia código más eficiente.
  • Es un artículo interesante, pero el modelo no parece superar a Qwen2.5-Coder en algunos lenguajes, incluido Ruby.

  • Da curiosidad qué hardware se necesita para ejecutar este modelo.

  • La plomería importa.

  • Bien.