3 puntos por GN⁺ 2023-09-13 | 1 comentarios | Compartir por WhatsApp
  • Al ajustar Llama 2 7B en un ejemplo de clasificación de recetas, el resultado obtuvo una coincidencia del 95% con las etiquetas de GPT-4 en el conjunto de prueba
  • El fine-tuning consiste en enseñarle a los pesos del modelo el modo deseado de realizar una tarea mediante ejemplos de entrada/salida; puede funcionar con 50 ejemplos, aunque normalmente se apunta a 1,000 o más
  • Los prompts son convenientes para iterar rápido y operar un único modelo grande, pero el fine-tuning permite adaptar con fuerza incluso modelos pequeños a una tarea específica
  • Un Llama 7B ajustado cuesta 50 veces menos que GPT-3.5 por token, por lo que en tareas suficientemente acotadas puede mejorar mucho la relación costo-rendimiento
  • El costo de clasificar 2 millones de recetas es de 23,000 dólares con GPT-4 y más de 1,000 dólares con GPT-3.5, mientras que este modelo ajustado procesa todo el dataset por 19 dólares

En qué difiere el fine-tuning de los prompts

  • En medio del creciente interés en Hacker News por el fine-tuning de LLM públicos, se publicó un conjunto de notebooks para un ejemplo de clasificación de recetas
    • Los notebooks están en ejemplos de OpenPipe y cubren etiquetado de datos, fine-tuning, ejecución de inferencia eficiente y evaluación de costo/rendimiento
  • El fine-tuning puede verse como una forma de instrucción más fuerte que los prompts
    • En vez de incluir instrucciones de texto en el prompt cada vez, se le enseña al propio modelo cómo realizar la tarea mediante pares de entrada/salida de ejemplo
    • Puede funcionar con apenas 50 ejemplos, pero, si es posible, se prefiere contar con 1,000 o más
  • Los prompts siguen teniendo grandes ventajas en operación y experimentación
    • Permiten iterar y mejorar instrucciones de forma más fácil y rápida, sin etiquetado ni reentrenamiento
    • Operativamente es más simple desplegar un solo modelo grande y ajustar solo su comportamiento que desplegar varios modelos pequeños ajustados
    • Es posible que cada uno de los modelos pequeños ajustados tenga una baja tasa de uso

Ejemplos de costo/rendimiento y OpenPipe

  • La mayor ventaja del fine-tuning es que permite inducir de manera más efectiva el comportamiento del modelo y usar modelos más pequeños
    • Los modelos pequeños pueden aumentar la velocidad de respuesta y reducir el costo de inferencia
    • Un modelo Llama 7B ajustado es 50 veces más barato que GPT-3.5 según el costo por token
  • El ejemplo de clasificación de recetas compara costos sobre 2 millones de recetas del dataset all-recipes
    • Clasificarlas con GPT-4 cuesta 23,000 dólares
    • Incluso con GPT-3.5, el costo supera los 1,000 dólares
    • El modelo ajustado logra un rendimiento similar al de GPT-4 y cuesta 19 dólares ejecutar todo el dataset
  • En el conjunto de prueba, el modelo 7B entrenado coincide en un 95% con las etiquetas de GPT-4
    • En el 5% de casos donde no coincide, a menudo la respuesta correcta es realmente ambigua
  • OpenPipe es un producto open source que ayuda a los ingenieros a adoptar el fine-tuning con mayor facilidad

1 comentarios

 
GN⁺ 2023-09-13
Opiniones de Hacker News
  • Artículo sobre el uso del ajuste fino de modelos de Llama 2 como alternativa a GPT-3.5/4
  • Algunos usuarios descubrieron que para tareas de traducción GPT-3.5 es 100 veces más barato que Llama 2, y que Llama 7B ofrece traducciones deficientes
  • Se especula sobre la estrategia agresiva de precios de OpenAI para GPT-3.5, como una forma de incentivar la dependencia de sus modelos frente a otros proveedores
  • Se discute la posibilidad de usar la salida de GPT y otros LLM para entrenar modelos sustitutos internos, lo que podría ser una solución rentable para quienes usan APIs regulares a escala de producción
  • Se cuestiona la afirmación de que un modelo Llama 7B ajustado finamente sea 50 veces más barato que GPT-3.5; algunos usuarios sugieren que eso solo puede lograrse con autoalojamiento
  • Se plantean dudas sobre la efectividad del ajuste fino frente a la adaptación de bajo rango
  • Algunos usuarios sostienen que la comparación entre Llama ajustado finamente y GPT-3.5 es engañosa, citando problemas para lograr una latencia de inferencia adecuada y escalabilidad
  • La calidad de los modelos Llama 2 ajustados finamente no necesariamente supera a ChatGPT; el ajuste fino requiere datasets de alta calidad que no son fáciles de construir
  • Se cuestionan la consistencia y la tasa de errores de la llamada de funciones de GPT
  • Los usuarios tienen curiosidad por saber cuál es el mejor LLM de código abierto para ajustar sus propios modelos
  • Se pide claridad sobre si el dataset de ajuste fino debe consistir en pares de entrada/salida o si puede ser autorregresivo
  • Los usuarios muestran interés en recursos para aprender a ajustar finamente estos modelos, especialmente para principiantes
  • Este artículo es considerado un recurso valioso para quienes están comenzando en el campo de ML/LLM.