- Utiliza Hyena, una nueva arquitectura que reemplaza al Transformer, para soportar contextos muy largos (Ultra Long)
- Hyena se basa en un modelo de secuencias inspirado en el procesamiento de señales
- Es el primer modelo alternativo que compite con los Transformers en evaluaciones de contexto corto y largo
- En tareas del leaderboard de OpenLLM, ofrece un rendimiento similar a Llama-2, Yi y Mistral 7B, y destaca en resúmenes de contexto largo
- StripedHyena es más rápido y más eficiente en memoria para entrenamiento, ajuste fino y generación con secuencias largas
- Está optimizado con una nueva técnica de injerto de modelos (Model Grafting), que permite cambiar la arquitectura del modelo durante el entrenamiento
- StripedHyena se obtuvo injertando componentes de arquitectura de Transformer y Hyena, y fue entrenado con una mezcla del conjunto de datos RedPajama reforzada con datos de contexto más largo
Aún no hay comentarios.