3 puntos por GN⁺ 2023-09-24 | 1 comentarios | Compartir por WhatsApp
  • Artículo sobre las dificultades de desplegar modelos de lenguaje a gran escala (Large Language Models, LLMs): debido a su tamaño y requisitos de cómputo, son de difícil acceso para muchos equipos de investigación, especialmente para aplicaciones que necesitan rendimiento de baja latencia
  • Para superar estos desafíos, a menudo se despliegan modelos pequeños especializados entrenados mediante ajuste fino o destilación. Sin embargo, estos métodos también tienen sus propias limitaciones, como requerir etiquetas generadas por humanos o grandes volúmenes de datos sin etiquetar
  • Los autores presentan un nuevo mecanismo llamado "destilación paso a paso", que permite entrenar modelos pequeños específicos para una tarea con muchos menos datos de entrenamiento que los que requieren los enfoques estándar de ajuste fino o destilación
  • Este mecanismo permite que un modelo T5 de 770M parámetros supere a un modelo PaLM de 540B activado con few-shot prompts usando solo el 80% de los ejemplos de un dataset de referencia, y muestra una reducción de tamaño del modelo de más de 700 veces con muchos menos datos de entrenamiento que los que requieren los enfoques estándar
  • La idea central de la destilación paso a paso es extraer razonamientos informativos en lenguaje natural de los LLMs y usarlos para entrenar de forma más eficiente a un modelo pequeño
  • Este proceso consta de dos etapas principales: primero, extraer razonamientos de los LLMs usando prompts CoT con few-shot; segundo, estructurar el proceso de entrenamiento como un problema multitarea para incorporar esos razonamientos en el entrenamiento del modelo pequeño
  • Los autores realizaron experimentos en cuatro datasets de referencia que abarcan tres tareas distintas de NLP, y encontraron que el método de destilación paso a paso logra un mejor rendimiento usando muchos menos datos de entrenamiento en comparación con el ajuste fino estándar
  • El mecanismo de destilación paso a paso está disponible en vista previa privada en Vertex AI, la plataforma de Google Cloud
  • Esta investigación fue realizada por Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee y Tomas Pfister.

1 comentarios

 
GN⁺ 2023-09-24
Comentarios en Hacker News
  • Se espera que los modelos expertos más pequeños dominen la mayoría de las aplicaciones debido al equilibrio óptimo entre tamaño y utilidad.
  • Los modelos destilados que usan T5 sugieren que la arquitectura encoder-decoder todavía puede seguir siendo relevante.
  • El enfoque no es excesivamente complejo, lo que sugiere que todavía queda mucho por explorar en el campo de los Large Language Models (LLMs).
  • El futuro de los LLMs podría incluir una mezcla de modelos expertos entrenados con este estilo.
  • El nivel de actividad y avance en los campos de LLM, Machine Learning (ML) y Artificial Intelligence (AI) es impresionante.
  • Cuando hardware como el de Nvidia es costoso, este tipo de optimizaciones vale la pena.
  • Los modelos más efectivos probablemente serán multimodales y estarán entrenados con un currículo central cuidadosamente personalizado.
  • Existe la duda de por qué los datos de entrenamiento de los LLM son menores que los de los modelos destilados y específicos por tarea.
  • Se especula sobre si Reinforcement Learning from Human Feedback (RLHF) será necesario para modelos más pequeños a fin de rendir tan bien como los LLM de vanguardia.
  • No está claro si gran parte de la capacidad en los LLM grandes queda sin usarse, o si los modelos de lenguaje pequeños simplemente imitan tareas de razonamiento.
  • La Mac Studio, que admite hasta 144GB de memoria GPU disponible, podría usarse en el espacio de servicios de LLM.
  • Se plantea la posibilidad de que Facebook pueda entrenar un LLM con todo el historial de chats de sus usuarios.