xLSTMTime: Long-term Time Series Forecasting With xLSTM
- En los últimos años, los modelos basados en transformadores han mostrado un rendimiento destacado en la predicción multivariante de series temporales a largo plazo (LTSF). Sin embargo, enfrentan problemas como altos requisitos computacionales, dificultades para capturar la dinámica temporal y para manejar dependencias de largo plazo
- La aparición de LTSF-Linear, con una estructura lineal simple, mostró un rendimiento superior al de los modelos basados en transformadores, lo que llevó a reevaluar la utilidad de los transformadores en la predicción de series temporales
- En respuesta, este artículo presenta los resultados de aplicar xLSTM, una arquitectura reciente de LSTM extendido, a LTSF. xLSTM incluye compuertas exponenciales y una estructura de memoria modificada de mayor capacidad, con potencial para adaptarse bien a LTSF
- xLSTMTime, la arquitectura LTSF adoptada por los autores, supera los enfoques actuales. Tras comparar el rendimiento de xLSTMTime con varios modelos de última generación en múltiples conjuntos de datos del mundo real, demuestra una capacidad de predicción superior
- Los resultados sugieren que las arquitecturas recurrentes refinadas pueden ofrecer una alternativa competitiva frente a los modelos basados en transformadores para tareas de LTSF, y que podrían redefinir el panorama de la predicción de series temporales
Resumen de GN⁺
- Este artículo introduce xLSTM para superar las limitaciones de los modelos basados en transformadores y muestra un rendimiento sobresaliente en la predicción de series temporales a largo plazo
- xLSTMTime demuestra una capacidad de predicción superior a la de los modelos existentes gracias a sus compuertas exponenciales y su estructura de memoria modificada
- Esta investigación vuelve a poner en foco el potencial de las arquitecturas recurrentes en la predicción de series temporales y propone una nueva alternativa frente a los modelos basados en transformadores
- Entre los proyectos con funciones similares se encuentran Prophet de Facebook y DeepAR de Amazon
1 comentarios
Opiniones en Hacker News
Es cierto que en los últimos años los modelos basados en transformers han recibido atención para el pronóstico multivariado de series temporales de largo plazo, pero tengo dudas de que en general sean mejores que los modelos que no son de deep learning.
Según entendía, no era así, aunque tampoco sigo este campo muy de cerca.
Los modelos de deep learning son fuertes para aprender estacionalidad, pero suelen manejar mal las tendencias complejas o los shocks.
En datos económicos y financieros, la estacionalidad suele ser simple y las tendencias complejas, así que el deep learning parece quedarse bastante corto.
Estoy de acuerdo con este paper. Las buenas arquitecturas de deep learning para series temporales que he usado eran más bien extensiones simples de MLP o redes neuronales recurrentes, como DeepAR o N-BEATS, y las arquitecturas basadas en transformers fueron realmente pésimas, incluidas las foundation models basadas en transformers que están apareciendo tanto últimamente.
Dicho eso, incluso entre modelos de deep learning hubo diferencias de rendimiento muy grandes: transformers, LSTM bidireccionales, MLP comunes, VAE, etc.
Según él, las arquitecturas basadas en transformers suelen dar un rendimiento decente en tareas de series temporales con relativamente poco esfuerzo comparadas con los modelos de árboles.
Por lo que entendí, si se ajustan suficientes parámetros, los modelos basados en árboles normalmente pueden ganarle a los transformers. Pero modelos como TimeGPT dan un rendimiento razonable sin mucho tuning, así que son atractivos para implementaciones rápidas.
Parte de mi trabajo consiste justamente en crear modelos de nowcasting y pronóstico para economía. Trabajo con indicadores económicos como inflación y PIB, y con indicadores financieros como liquidez de mercado.
Todavía no leí el paper, pero coincido totalmente con el tono general de que “los transformers son excelentes en lo que hacen bien, pero los modelos de la familia LSTM siguen siendo muy valiosos”.
¿Qué relación tiene esto con el modelo de pronóstico del tiempo basado en IA de Google?
https://deepmind.google/discover/blog/graphcast-ai-model-for...
Como referencia, Graphcast supera a todos los pronósticos globales deterministas tradicionales, al menos en la predicción de patrones globales a gran escala. En métricas como Z500, es aproximadamente para horizontes de 3 a 10 días.
ECMWF tiene AIFS, derivado de Graphcast, y es muy probable que en unos años pongan eso o algo similar en producción operativa.
Si se está comercializando como herramienta de pronóstico, ¿no aplica para clasificación de eventos en series temporales?
Es una lástima que el enlace al dataset del paper no funcione. Ojalá lo arreglen.
Los mejores modelos de deep learning para series temporales probablemente estén dentro de hedge funds, en privado.
Incluso un enfoque que funciona bien en hedge funds puede ser malo en dominios donde la cantidad y la naturaleza de los datos son distintas, y donde el sesgo inductivo necesario es menor o diferente.
El pronóstico de series temporales funciona mejor en dominios deterministas.
No hay técnicas públicas de LLM, IA, deep learning o machine learning que funcionen bien en la bolsa. De verdad, ninguna. Las probé todas.
Si el método de alguien para pronosticar series temporales realmente funcionara, no lo habría publicado.
Leí esto mal como XSLT.
Espero con ansias el día en que alguien intente hacer predicción de acciones con esto y pierda todo su patrimonio.