Superar a GPT-4 en HumanEval con CodeLlama-34B ajustado

(phind.com)

2 puntos por GN⁺ 2023-08-26 | 1 comentarios | Compartir por WhatsApp

CodeLlama-34B y CodeLlama-34B-Python fueron ajustados con el dataset interno de Phind, logrando un pass@1 de 67.6% y 69.5% respectivamente en HumanEval, superando el 67% de GPT-4
Los modelos CodeLlama publicados recientemente mostraron un rendimiento impresionante en HumanEval; CodeLlama-34B alcanzó un pass@1 de 48.8% y CodeLlama-34B-Python un pass@1 de 53.7%
Ambos modelos fueron afinados con un dataset propietario que incluye alrededor de 80k problemas de programación de alta calidad y sus soluciones, estructuralmente distinto de HumanEval porque se caracteriza por pares instrucción-respuesta en lugar de ejemplos de autocompletado de código
Los modelos se entrenaron durante dos epochs con un total de 160k ejemplos usando DeepSpeed ZeRO 3 y Flash Attention 2, en un proceso de tres horas con 32 GPU A100-80GB y una longitud de secuencia de 4096 tokens
Se aplicó la metodología de descontaminación de OpenAI al dataset para garantizar resultados válidos, y no se encontraron ejemplos contaminados. Esta metodología toma aleatoriamente tres subcadenas de 50 caracteres de cada ejemplo de evaluación, o usa el ejemplo completo si tiene menos de 50 caracteres, e identifica una coincidencia si alguna de las subcadenas muestreadas aparece como subcadena en un ejemplo de entrenamiento procesado.
Los modelos ajustados lograron en HumanEval un pass@1 de 67.6% para Phind-CodeLlama-34B-v1 y de 69.5% para Phind-CodeLlama-34B-Python-v1
Ambos modelos fueron publicados en Huggingface para asegurar la verificabilidad y apoyar a la comunidad open source, y se recomienda la verificación independiente de los resultados

1 comentarios

alstjr7375 2023-08-27

Es una publicación de HN.
https://news.ycombinator.com/item?id=37267597

Superar a GPT-4 en HumanEval con CodeLlama-34B ajustado

Lecturas relacionadas

1 comentarios