1 puntos por GN⁺ 2024-05-02 | 1 comentarios | Compartir por WhatsApp

Entrenamiento de modelos de lenguaje grandes mediante predicción de múltiples tokens

  • Los modelos de lenguaje grandes como GPT y Llama se entrenan con la pérdida de predicción del siguiente token.
  • Este estudio propone entrenar a un modelo de lenguaje para predecir varios tokens futuros a la vez y así mejorar la eficiencia de muestra.
  • En concreto, en cada posición del corpus de entrenamiento, se solicita al modelo predecir los próximos n tokens usando n cabezas de salida independientes que funcionan sobre un tronco del modelo compartido.
  • Al considerar la predicción de múltiples tokens como una tarea auxiliar de entrenamiento, se midió que el rendimiento en subtareas mejora, tanto en modelos de código como de lenguaje natural, sin sobrecarga en el tiempo de entrenamiento.

El método es más efectivo en modelos más grandes y resulta atractivo también con entrenamiento de múltiples épocas

  • Este método es más útil cuanto más grande es el modelo y mantiene su atractivo incluso al entrenar durante varias épocas.
  • En particular, la ventaja es más evidente en benchmarks de generación como la programación, y este modelo supera de forma consistente a una línea base sólida por varios puntos porcentuales.
  • El modelo de 13B parámetros resolvió un 12% más de problemas en HumanEval y un 17% más en MBPP.

Ventajoso para el desarrollo de cabezas de inducción y la capacidad de inferencia algorítmica

  • Los experimentos en tareas algorítmicas pequeñas muestran que la predicción de múltiples tokens favorece el desarrollo de cabezas de inducción y la capacidad de inferencia algorítmica.
  • Como beneficio adicional, un modelo entrenado con predicción de 4 tokens alcanza una velocidad de inferencia hasta 3 veces más rápida incluso con tamaños de lote grandes.

Opinión de GN⁺

  • Es una investigación interesante que propone un nuevo método de entrenamiento para mejorar la eficiencia de los modelos de lenguaje. En particular, es destacable que la mejora de rendimiento sea más marcada en modelos a gran escala.

  • Sería deseable contar con experimentos adicionales sobre cómo la predicción de múltiples tokens afecta el aprendizaje de dependencias de largo plazo. Por ejemplo, también sería valioso observar cambios de rendimiento en tareas de dependencia de largo alcance, como la resolución de referencias entre enunciados.

  • Se menciona una mejora considerable en tareas de generación de dominios específicos como programación o resolución de problemas matemáticos, pero vale la pena preguntarse qué efecto tendría en tareas de comprensión de lenguaje natural o QA en general. Sería ideal complementar con resultados de experimentos en diversos benchmarks.

  • La mejora de velocidad de inferencia puede convertirse en un gran mérito desde el punto de vista práctico. Parece especialmente conveniente para aplicar en chatbots o sistemas de preguntas y respuestas donde se requiere tiempo real.

  • En un contexto donde llaman la atención modelos basados en RLHF como Constitutional AI de Anthropic o InstructGPT de OpenAI, este trabajo parece significativo porque plantea una forma de mejorar el rendimiento de modelos de lenguaje con solo aprendizaje supervisado. Aunque problemas como la alineación ética de valores siguen siendo retos pendientes, desde la perspectiva de eficiencia de entrenamiento se trata de un enfoque suficientemente competitivo.

1 comentarios

 
GN⁺ 2024-05-02
Comentario en Hacker News

Resumen:

  • En los LLM, hace falta una explicación clara de qué contexto corresponde a términos como datos, preentrenamiento, entrenamiento, inferencia, mezcla de expertos, RAG, entre otros.
  • La decodificación self-speculative (self-speculative decoding) reinyecta la secuencia de etiquetas predicha en la red y solo conserva la predicción hasta el punto en que coinciden, lo que puede acelerar sin degradar el rendimiento.
  • Los LLM no consideran la distribución de probabilidad de todas las combinaciones de tokens hasta el número de tokens de salida, y se esperaría un mejor rendimiento si se tomara en cuenta.
  • Sería interesante modificar la función de pérdida de entropía cruzada del LLM para considerar solo el n-ésimo token futuro en los datos de entrenamiento y analizar el rendimiento del LLM en función de n.
  • Se pregunta si hay alguna forma de aprovechar el estado de los tokens que genera un LLM para la siguiente respuesta.
  • Se plantea la pregunta de entrenar un LLM para predecir el vector que codifica el significado completo de una oración.
  • La explicación de la sección 5.2 del paper es algo insuficiente, especialmente respecto a por qué se descarta H(Y|X).
  • Podría considerarse hacer que el LLM produzca algo como un PixelCNN pequeño para los próximos N tokens, permitiendo modelar probabilidades condicionales sobre los tokens futuros.
  • Además de predecir los próximos n tokens, también se podría predecir tokens más lejanos como 128, 512 o 2048 para aprender estructuras de discurso a largo plazo.
  • Se plantea la duda de cómo resolver la interferencia entre predicciones cuando se predicen varios tokens a la vez.