Reemplazar GPT-3.5/4 con un Llama 2 ajustado por cuenta propia
(news.ycombinator.com)- Al ajustar Llama 2 7B en un ejemplo de clasificación de recetas, el resultado obtuvo una coincidencia del 95% con las etiquetas de GPT-4 en el conjunto de prueba
- El fine-tuning consiste en enseñarle a los pesos del modelo el modo deseado de realizar una tarea mediante ejemplos de entrada/salida; puede funcionar con 50 ejemplos, aunque normalmente se apunta a 1,000 o más
- Los prompts son convenientes para iterar rápido y operar un único modelo grande, pero el fine-tuning permite adaptar con fuerza incluso modelos pequeños a una tarea específica
- Un Llama 7B ajustado cuesta 50 veces menos que GPT-3.5 por token, por lo que en tareas suficientemente acotadas puede mejorar mucho la relación costo-rendimiento
- El costo de clasificar 2 millones de recetas es de 23,000 dólares con GPT-4 y más de 1,000 dólares con GPT-3.5, mientras que este modelo ajustado procesa todo el dataset por 19 dólares
En qué difiere el fine-tuning de los prompts
- En medio del creciente interés en Hacker News por el fine-tuning de LLM públicos, se publicó un conjunto de notebooks para un ejemplo de clasificación de recetas
- Los notebooks están en ejemplos de OpenPipe y cubren etiquetado de datos, fine-tuning, ejecución de inferencia eficiente y evaluación de costo/rendimiento
- El fine-tuning puede verse como una forma de instrucción más fuerte que los prompts
- En vez de incluir instrucciones de texto en el prompt cada vez, se le enseña al propio modelo cómo realizar la tarea mediante pares de entrada/salida de ejemplo
- Puede funcionar con apenas 50 ejemplos, pero, si es posible, se prefiere contar con 1,000 o más
- Los prompts siguen teniendo grandes ventajas en operación y experimentación
- Permiten iterar y mejorar instrucciones de forma más fácil y rápida, sin etiquetado ni reentrenamiento
- Operativamente es más simple desplegar un solo modelo grande y ajustar solo su comportamiento que desplegar varios modelos pequeños ajustados
- Es posible que cada uno de los modelos pequeños ajustados tenga una baja tasa de uso
Ejemplos de costo/rendimiento y OpenPipe
- La mayor ventaja del fine-tuning es que permite inducir de manera más efectiva el comportamiento del modelo y usar modelos más pequeños
- Los modelos pequeños pueden aumentar la velocidad de respuesta y reducir el costo de inferencia
- Un modelo Llama 7B ajustado es 50 veces más barato que GPT-3.5 según el costo por token
- El ejemplo de clasificación de recetas compara costos sobre 2 millones de recetas del dataset all-recipes
- Clasificarlas con GPT-4 cuesta 23,000 dólares
- Incluso con GPT-3.5, el costo supera los 1,000 dólares
- El modelo ajustado logra un rendimiento similar al de GPT-4 y cuesta 19 dólares ejecutar todo el dataset
- En el conjunto de prueba, el modelo 7B entrenado coincide en un 95% con las etiquetas de GPT-4
- En el 5% de casos donde no coincide, a menudo la respuesta correcta es realmente ambigua
- OpenPipe es un producto open source que ayuda a los ingenieros a adoptar el fine-tuning con mayor facilidad
- El proyecto está disponible en el repositorio de GitHub de OpenPipe
- La información de fine-tuning proporcionada no depende del producto OpenPipe en sí
1 comentarios
Opiniones de Hacker News