Modelos de lenguaje grandes con mejor rendimiento y mayor velocidad mediante predicción de múltiples tokens
(arxiv.org)Entrenamiento de modelos de lenguaje grandes mediante predicción de múltiples tokens
- Los modelos de lenguaje grandes como GPT y Llama se entrenan con la pérdida de predicción del siguiente token.
- Este estudio propone entrenar a un modelo de lenguaje para predecir varios tokens futuros a la vez y así mejorar la eficiencia de muestra.
- En concreto, en cada posición del corpus de entrenamiento, se solicita al modelo predecir los próximos n tokens usando n cabezas de salida independientes que funcionan sobre un tronco del modelo compartido.
- Al considerar la predicción de múltiples tokens como una tarea auxiliar de entrenamiento, se midió que el rendimiento en subtareas mejora, tanto en modelos de código como de lenguaje natural, sin sobrecarga en el tiempo de entrenamiento.
El método es más efectivo en modelos más grandes y resulta atractivo también con entrenamiento de múltiples épocas
- Este método es más útil cuanto más grande es el modelo y mantiene su atractivo incluso al entrenar durante varias épocas.
- En particular, la ventaja es más evidente en benchmarks de generación como la programación, y este modelo supera de forma consistente a una línea base sólida por varios puntos porcentuales.
- El modelo de 13B parámetros resolvió un 12% más de problemas en HumanEval y un 17% más en MBPP.
Ventajoso para el desarrollo de cabezas de inducción y la capacidad de inferencia algorítmica
- Los experimentos en tareas algorítmicas pequeñas muestran que la predicción de múltiples tokens favorece el desarrollo de cabezas de inducción y la capacidad de inferencia algorítmica.
- Como beneficio adicional, un modelo entrenado con predicción de 4 tokens alcanza una velocidad de inferencia hasta 3 veces más rápida incluso con tamaños de lote grandes.
Opinión de GN⁺
-
Es una investigación interesante que propone un nuevo método de entrenamiento para mejorar la eficiencia de los modelos de lenguaje. En particular, es destacable que la mejora de rendimiento sea más marcada en modelos a gran escala.
-
Sería deseable contar con experimentos adicionales sobre cómo la predicción de múltiples tokens afecta el aprendizaje de dependencias de largo plazo. Por ejemplo, también sería valioso observar cambios de rendimiento en tareas de dependencia de largo alcance, como la resolución de referencias entre enunciados.
-
Se menciona una mejora considerable en tareas de generación de dominios específicos como programación o resolución de problemas matemáticos, pero vale la pena preguntarse qué efecto tendría en tareas de comprensión de lenguaje natural o QA en general. Sería ideal complementar con resultados de experimentos en diversos benchmarks.
-
La mejora de velocidad de inferencia puede convertirse en un gran mérito desde el punto de vista práctico. Parece especialmente conveniente para aplicar en chatbots o sistemas de preguntas y respuestas donde se requiere tiempo real.
-
En un contexto donde llaman la atención modelos basados en RLHF como Constitutional AI de Anthropic o InstructGPT de OpenAI, este trabajo parece significativo porque plantea una forma de mejorar el rendimiento de modelos de lenguaje con solo aprendizaje supervisado. Aunque problemas como la alineación ética de valores siguen siendo retos pendientes, desde la perspectiva de eficiencia de entrenamiento se trata de un enfoque suficientemente competitivo.
1 comentarios
Comentario en Hacker News
Resumen: