• Este trabajo propone un nuevo método de entrenamiento para modelos de lenguaje de gran escala (LLM), llamado predicción de múltiples tokens, que consiste en entrenar el modelo para predecir simultáneamente varios tokens futuros. Los autores sostienen que este enfoque conlleva una mayor eficiencia de muestra, lo que significa que el modelo puede aprender más eficazmente con una cantidad dada de datos de entrenamiento.
• Demuestran la eficacia del método en diversas tareas de downstream, como generación de código y procesamiento de lenguaje natural, y muestran que la predicción de múltiples tokens supera de forma consistente una línea base fuerte por varios puntos porcentuales. En particular, su modelo de 13B parámetros logra mejoras significativas en benchmarks de codificación desafiantes como HumanEval y MBPP.
• Además de mejorar el rendimiento, la predicción de múltiples tokens también ofrece ventajas computacionales. Un modelo entrenado con predicción de 4 tokens es hasta 3 veces más rápido en inferencia incluso con tamaños de lote grandes, lo que lo vuelve más eficiente en aplicaciones reales.
Aún no hay comentarios.