Llama3-gradient: un modelo que amplía el contexto de LLAMA de 8K a 1M

xguru · 2024-05-02T10:46:01+09:00

Este modelo, desarrollado por Gradient, amplía la longitud de contexto de LLama-3 8B de 8k a más de 1040K. Demuestra que un LLM SOTA puede aprender a funcionar con contextos largos ajustando adecuadamente el RoPE theta con un entrenamiento mínimo. Esta fase se entrenó con 830M de tokens y, en todas las etapas, alcanzó un total de 1.4B de tokens, apenas el 0.1% de los datos de preentrenamiento originales de Llama3. Nota: para usar un contexto de 256k se requieren al menos 64 GB de memoria. Para usar más de 1M de contexto se necesitan más de 100 GB.

(ollama.com)

6 puntos por xguru 2024-05-02 | 1 comentarios | Compartir por WhatsApp

Este modelo, desarrollado por Gradient, amplía la longitud de contexto de LLama-3 8B de 8k a más de 1040K.
Demuestra que un LLM SOTA puede aprender a funcionar con contextos largos ajustando adecuadamente el RoPE theta con un entrenamiento mínimo.
Esta fase se entrenó con 830M de tokens y, en todas las etapas, alcanzó un total de 1.4B de tokens, apenas el 0.1% de los datos de preentrenamiento originales de Llama3.
Nota: para usar un contexto de 256k se requieren al menos 64 GB de memoria. Para usar más de 1M de contexto se necesitan más de 100 GB.

1 comentarios

livekth 2024-05-02

Hay un comentario que dice que, aunque se amplió la ventana de contexto, el rendimiento cayó significativamente en comparación con el LLaMa 3 original, hasta el punto de que ya casi no se puede usar.

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient: un modelo que amplía el contexto de LLAMA de 8K a 1M

Lecturas relacionadas

1 comentarios