Reemplazar GPT-3.5/4 con un Llama 2 ajustado por cuenta propia

(news.ycombinator.com)

3 puntos por GN⁺ 2023-09-13 | 1 comentarios | Compartir por WhatsApp

Al ajustar Llama 2 7B en un ejemplo de clasificación de recetas, el resultado obtuvo una coincidencia del 95% con las etiquetas de GPT-4 en el conjunto de prueba
El fine-tuning consiste en enseñarle a los pesos del modelo el modo deseado de realizar una tarea mediante ejemplos de entrada/salida; puede funcionar con 50 ejemplos, aunque normalmente se apunta a 1,000 o más
Los prompts son convenientes para iterar rápido y operar un único modelo grande, pero el fine-tuning permite adaptar con fuerza incluso modelos pequeños a una tarea específica
Un Llama 7B ajustado cuesta 50 veces menos que GPT-3.5 por token, por lo que en tareas suficientemente acotadas puede mejorar mucho la relación costo-rendimiento
El costo de clasificar 2 millones de recetas es de 23,000 dólares con GPT-4 y más de 1,000 dólares con GPT-3.5, mientras que este modelo ajustado procesa todo el dataset por 19 dólares

En qué difiere el fine-tuning de los prompts

En medio del creciente interés en Hacker News por el fine-tuning de LLM públicos, se publicó un conjunto de notebooks para un ejemplo de clasificación de recetas
- Los notebooks están en ejemplos de OpenPipe y cubren etiquetado de datos, fine-tuning, ejecución de inferencia eficiente y evaluación de costo/rendimiento
El fine-tuning puede verse como una forma de instrucción más fuerte que los prompts
- En vez de incluir instrucciones de texto en el prompt cada vez, se le enseña al propio modelo cómo realizar la tarea mediante pares de entrada/salida de ejemplo
- Puede funcionar con apenas 50 ejemplos, pero, si es posible, se prefiere contar con 1,000 o más
Los prompts siguen teniendo grandes ventajas en operación y experimentación
- Permiten iterar y mejorar instrucciones de forma más fácil y rápida, sin etiquetado ni reentrenamiento
- Operativamente es más simple desplegar un solo modelo grande y ajustar solo su comportamiento que desplegar varios modelos pequeños ajustados
- Es posible que cada uno de los modelos pequeños ajustados tenga una baja tasa de uso

Ejemplos de costo/rendimiento y OpenPipe

La mayor ventaja del fine-tuning es que permite inducir de manera más efectiva el comportamiento del modelo y usar modelos más pequeños
- Los modelos pequeños pueden aumentar la velocidad de respuesta y reducir el costo de inferencia
- Un modelo Llama 7B ajustado es 50 veces más barato que GPT-3.5 según el costo por token
El ejemplo de clasificación de recetas compara costos sobre 2 millones de recetas del dataset all-recipes
- Clasificarlas con GPT-4 cuesta 23,000 dólares
- Incluso con GPT-3.5, el costo supera los 1,000 dólares
- El modelo ajustado logra un rendimiento similar al de GPT-4 y cuesta 19 dólares ejecutar todo el dataset
En el conjunto de prueba, el modelo 7B entrenado coincide en un 95% con las etiquetas de GPT-4
- En el 5% de casos donde no coincide, a menudo la respuesta correcta es realmente ambigua
OpenPipe es un producto open source que ayuda a los ingenieros a adoptar el fine-tuning con mayor facilidad
- El proyecto está disponible en el repositorio de GitHub de OpenPipe
- La información de fine-tuning proporcionada no depende del producto OpenPipe en sí

1 comentarios

GN⁺ 2023-09-13

Opiniones de Hacker News

Artículo sobre el uso del ajuste fino de modelos de Llama 2 como alternativa a GPT-3.5/4
Algunos usuarios descubrieron que para tareas de traducción GPT-3.5 es 100 veces más barato que Llama 2, y que Llama 7B ofrece traducciones deficientes
Se especula sobre la estrategia agresiva de precios de OpenAI para GPT-3.5, como una forma de incentivar la dependencia de sus modelos frente a otros proveedores
Se discute la posibilidad de usar la salida de GPT y otros LLM para entrenar modelos sustitutos internos, lo que podría ser una solución rentable para quienes usan APIs regulares a escala de producción
Se cuestiona la afirmación de que un modelo Llama 7B ajustado finamente sea 50 veces más barato que GPT-3.5; algunos usuarios sugieren que eso solo puede lograrse con autoalojamiento
Se plantean dudas sobre la efectividad del ajuste fino frente a la adaptación de bajo rango
Algunos usuarios sostienen que la comparación entre Llama ajustado finamente y GPT-3.5 es engañosa, citando problemas para lograr una latencia de inferencia adecuada y escalabilidad
La calidad de los modelos Llama 2 ajustados finamente no necesariamente supera a ChatGPT; el ajuste fino requiere datasets de alta calidad que no son fáciles de construir
Se cuestionan la consistencia y la tasa de errores de la llamada de funciones de GPT
Los usuarios tienen curiosidad por saber cuál es el mejor LLM de código abierto para ajustar sus propios modelos
Se pide claridad sobre si el dataset de ajuste fino debe consistir en pares de entrada/salida o si puede ser autorregresivo
Los usuarios muestran interés en recursos para aprender a ajustar finamente estos modelos, especialmente para principiantes
Este artículo es considerado un recurso valioso para quienes están comenzando en el campo de ML/LLM.

Reemplazar GPT-3.5/4 con un Llama 2 ajustado por cuenta propia

En qué difiere el fine-tuning de los prompts

Ejemplos de costo/rendimiento y OpenPipe

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News