1 puntos por GN⁺ 2024-07-18 | 1 comentarios | Compartir por WhatsApp

xLSTMTime: Long-term Time Series Forecasting With xLSTM

  • En los últimos años, los modelos basados en transformadores han mostrado un rendimiento destacado en la predicción multivariante de series temporales a largo plazo (LTSF). Sin embargo, enfrentan problemas como altos requisitos computacionales, dificultades para capturar la dinámica temporal y para manejar dependencias de largo plazo
  • La aparición de LTSF-Linear, con una estructura lineal simple, mostró un rendimiento superior al de los modelos basados en transformadores, lo que llevó a reevaluar la utilidad de los transformadores en la predicción de series temporales
  • En respuesta, este artículo presenta los resultados de aplicar xLSTM, una arquitectura reciente de LSTM extendido, a LTSF. xLSTM incluye compuertas exponenciales y una estructura de memoria modificada de mayor capacidad, con potencial para adaptarse bien a LTSF
  • xLSTMTime, la arquitectura LTSF adoptada por los autores, supera los enfoques actuales. Tras comparar el rendimiento de xLSTMTime con varios modelos de última generación en múltiples conjuntos de datos del mundo real, demuestra una capacidad de predicción superior
  • Los resultados sugieren que las arquitecturas recurrentes refinadas pueden ofrecer una alternativa competitiva frente a los modelos basados en transformadores para tareas de LTSF, y que podrían redefinir el panorama de la predicción de series temporales

Resumen de GN⁺

  • Este artículo introduce xLSTM para superar las limitaciones de los modelos basados en transformadores y muestra un rendimiento sobresaliente en la predicción de series temporales a largo plazo
  • xLSTMTime demuestra una capacidad de predicción superior a la de los modelos existentes gracias a sus compuertas exponenciales y su estructura de memoria modificada
  • Esta investigación vuelve a poner en foco el potencial de las arquitecturas recurrentes en la predicción de series temporales y propone una nueva alternativa frente a los modelos basados en transformadores
  • Entre los proyectos con funciones similares se encuentran Prophet de Facebook y DeepAR de Amazon

1 comentarios

 
GN⁺ 2024-07-18
Opiniones en Hacker News
  • Es cierto que en los últimos años los modelos basados en transformers han recibido atención para el pronóstico multivariado de series temporales de largo plazo, pero tengo dudas de que en general sean mejores que los modelos que no son de deep learning.
    Según entendía, no era así, aunque tampoco sigo este campo muy de cerca.

    • Según mi experiencia pronosticando pagos/gastos, el deep learning por lo general tuvo peor rendimiento que los árboles con gradient boosting.
      Los modelos de deep learning son fuertes para aprender estacionalidad, pero suelen manejar mal las tendencias complejas o los shocks.
      En datos económicos y financieros, la estacionalidad suele ser simple y las tendencias complejas, así que el deep learning parece quedarse bastante corto.
      Estoy de acuerdo con este paper. Las buenas arquitecturas de deep learning para series temporales que he usado eran más bien extensiones simples de MLP o redes neuronales recurrentes, como DeepAR o N-BEATS, y las arquitecturas basadas en transformers fueron realmente pésimas, incluidas las foundation models basadas en transformers que están apareciendo tanto últimamente.
    • En trabajos de seguridad aérea, el deep learning fue mejor que los modelos tradicionales no basados en deep learning para pronóstico multivariado de series temporales.
      Dicho eso, incluso entre modelos de deep learning hubo diferencias de rendimiento muy grandes: transformers, LSTM bidireccionales, MLP comunes, VAE, etc.
    • No los he usado directamente, pero hablé de este tema con un amigo que recientemente probó modelos basados en árboles como XGBoost para análisis de series temporales.
      Según él, las arquitecturas basadas en transformers suelen dar un rendimiento decente en tareas de series temporales con relativamente poco esfuerzo comparadas con los modelos de árboles.
      Por lo que entendí, si se ajustan suficientes parámetros, los modelos basados en árboles normalmente pueden ganarle a los transformers. Pero modelos como TimeGPT dan un rendimiento razonable sin mucho tuning, así que son atractivos para implementaciones rápidas.
    • Eso aparece en el párrafo inmediatamente siguiente del paper. xLSTMTime tampoco está basado en transformers.
    • Sin llegar a ser extraordinarios, los intentos recientes de transfer learning se veían prometedores.
  • Parte de mi trabajo consiste justamente en crear modelos de nowcasting y pronóstico para economía. Trabajo con indicadores económicos como inflación y PIB, y con indicadores financieros como liquidez de mercado.
    Todavía no leí el paper, pero coincido totalmente con el tono general de que “los transformers son excelentes en lo que hacen bien, pero los modelos de la familia LSTM siguen siendo muy valiosos”.

    • Me da curiosidad saber si tuviste oportunidad de aplicar Mamba en tu trabajo y qué opinas.
  • ¿Qué relación tiene esto con el modelo de pronóstico del tiempo basado en IA de Google?
    https://deepmind.google/discover/blog/graphcast-ai-model-for...

    • No. Graphcast es un graph transformer entrenado con datos de reconstrucción atmosférica ERA5, no un modelo genérico de pronóstico de series temporales.
      Como referencia, Graphcast supera a todos los pronósticos globales deterministas tradicionales, al menos en la predicción de patrones globales a gran escala. En métricas como Z500, es aproximadamente para horizontes de 3 a 10 días.
      ECMWF tiene AIFS, derivado de Graphcast, y es muy probable que en unos años pongan eso o algo similar en producción operativa.
  • Si se está comercializando como herramienta de pronóstico, ¿no aplica para clasificación de eventos en series temporales?

    • Creo que es una tarea un poco distinta. No soy especialista en el área, pero si el número de eventos n es muy pequeño, quizá se podría tratar como un problema de pronóstico multivariado usando la probabilidad de cada evento como variable objetivo.
    • También me intriga dónde mejora la detección de anomalías este enfoque, o los enfoques basados en transformers/LLM, por ejemplo.
  • Es una lástima que el enlace al dataset del paper no funcione. Ojalá lo arreglen.

  • Los mejores modelos de deep learning para series temporales probablemente estén dentro de hedge funds, en privado.

    • En realidad, la mayor parte del trabajo difícil no es un único modelo enorme, sino la ingeniería de features. Hasta donde sé, gradient boosting sigue dominando.
    • Por el teorema de no free lunch, en general no existe algo como el mejor modelo.
      Incluso un enfoque que funciona bien en hedge funds puede ser malo en dominios donde la cantidad y la naturaleza de los datos son distintas, y donde el sesgo inductivo necesario es menor o diferente.
    • Creo que al menos los hedge funds sofisticados ya no usan modelado de series temporales. Para los estándares actuales, es bastante anticuado.
  • El pronóstico de series temporales funciona mejor en dominios deterministas.
    No hay técnicas públicas de LLM, IA, deep learning o machine learning que funcionen bien en la bolsa. De verdad, ninguna. Las probé todas.

  • Si el método de alguien para pronosticar series temporales realmente funcionara, no lo habría publicado.

    • No necesariamente. De hecho, se publica muchísimo. La enorme mayoría del trabajo con series temporales no tiene que ver con precios de activos ni con superar los rendimientos del mercado accionario.
    • Los modelos Transformer también fueron de los modelos más exitosos en la historia de la IA, y aun así se publicaron como paper.
  • Leí esto mal como XSLT.

    • Hice clic preguntándome qué tan interesante podría ser un artículo sobre XML en 2024, y fue decepcionante y satisfactorio al mismo tiempo.
    • Sí. Y esto también trata sobre transformaciones.
    • A mí también me pasó. ¿Será que estoy viejo?
  • Espero con ansias el día en que alguien intente hacer predicción de acciones con esto y pierda todo su patrimonio.