9 puntos por xguru 2023-12-13 | Aún no hay comentarios. | Compartir por WhatsApp
  • Utiliza Hyena, una nueva arquitectura que reemplaza al Transformer, para soportar contextos muy largos (Ultra Long)
    • Hyena se basa en un modelo de secuencias inspirado en el procesamiento de señales
  • Es el primer modelo alternativo que compite con los Transformers en evaluaciones de contexto corto y largo
  • En tareas del leaderboard de OpenLLM, ofrece un rendimiento similar a Llama-2, Yi y Mistral 7B, y destaca en resúmenes de contexto largo
  • StripedHyena es más rápido y más eficiente en memoria para entrenamiento, ajuste fino y generación con secuencias largas
  • Está optimizado con una nueva técnica de injerto de modelos (Model Grafting), que permite cambiar la arquitectura del modelo durante el entrenamiento
    • StripedHyena se obtuvo injertando componentes de arquitectura de Transformer y Hyena, y fue entrenado con una mezcla del conjunto de datos RedPajama reforzada con datos de contexto más largo

Aún no hay comentarios.

Aún no hay comentarios.