- Artículo sobre las dificultades de desplegar modelos de lenguaje a gran escala (Large Language Models, LLMs): debido a su tamaño y requisitos de cómputo, son de difícil acceso para muchos equipos de investigación, especialmente para aplicaciones que necesitan rendimiento de baja latencia
- Para superar estos desafíos, a menudo se despliegan modelos pequeños especializados entrenados mediante ajuste fino o destilación. Sin embargo, estos métodos también tienen sus propias limitaciones, como requerir etiquetas generadas por humanos o grandes volúmenes de datos sin etiquetar
- Los autores presentan un nuevo mecanismo llamado "destilación paso a paso", que permite entrenar modelos pequeños específicos para una tarea con muchos menos datos de entrenamiento que los que requieren los enfoques estándar de ajuste fino o destilación
- Este mecanismo permite que un modelo T5 de 770M parámetros supere a un modelo PaLM de 540B activado con few-shot prompts usando solo el 80% de los ejemplos de un dataset de referencia, y muestra una reducción de tamaño del modelo de más de 700 veces con muchos menos datos de entrenamiento que los que requieren los enfoques estándar
- La idea central de la destilación paso a paso es extraer razonamientos informativos en lenguaje natural de los LLMs y usarlos para entrenar de forma más eficiente a un modelo pequeño
- Este proceso consta de dos etapas principales: primero, extraer razonamientos de los LLMs usando prompts CoT con few-shot; segundo, estructurar el proceso de entrenamiento como un problema multitarea para incorporar esos razonamientos en el entrenamiento del modelo pequeño
- Los autores realizaron experimentos en cuatro datasets de referencia que abarcan tres tareas distintas de NLP, y encontraron que el método de destilación paso a paso logra un mejor rendimiento usando muchos menos datos de entrenamiento en comparación con el ajuste fino estándar
- El mecanismo de destilación paso a paso está disponible en vista previa privada en Vertex AI, la plataforma de Google Cloud
- Esta investigación fue realizada por Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee y Tomas Pfister.
1 comentarios
Comentarios en Hacker News