6 puntos por xguru 2024-05-02 | 1 comentarios | Compartir por WhatsApp
  • Este modelo, desarrollado por Gradient, amplía la longitud de contexto de LLama-3 8B de 8k a más de 1040K.
  • Demuestra que un LLM SOTA puede aprender a funcionar con contextos largos ajustando adecuadamente el RoPE theta con un entrenamiento mínimo.
  • Esta fase se entrenó con 830M de tokens y, en todas las etapas, alcanzó un total de 1.4B de tokens, apenas el 0.1% de los datos de preentrenamiento originales de Llama3.
  • Nota: para usar un contexto de 256k se requieren al menos 64 GB de memoria. Para usar más de 1M de contexto se necesitan más de 100 GB.

1 comentarios

 
livekth 2024-05-02

Hay un comentario que dice que, aunque se amplió la ventana de contexto, el rendimiento cayó significativamente en comparación con el LLaMa 3 original, hasta el punto de que ya casi no se puede usar.

https://twitter.com/ArkaPal999/status/1785611161540378707