- Los modelos fundacionales existentes manejan texto, imágenes, audio y video, pero carecen de capacidad de razonamiento temporal sobre datos de series temporales que impulsan el mundo real (signos vitales, precios, telemetría, logs, etc.)
- Los Time Series Language Models (TSLMs) admiten las series temporales como una modalidad nativa al mismo nivel que el texto, lo que permite a los usuarios hacer preguntas en lenguaje natural y recibir explicaciones y recomendaciones
- OpenTSLM es un nuevo modelo de lenguaje diseñado para procesar conjuntamente datos de series temporales y texto clínico en el ámbito médico
- Adopta una arquitectura de cross-attention, por lo que escala incluso con series temporales largas y, a diferencia de enfoques previos, resulta práctico para operar a gran escala
- Se proponen dos estructuras: SoftPrompt (inserta la serie temporal como tokens) y Flamingo (basado en atención cruzada), cada una con distintas ventajas y desventajas
- Introduce tres nuevos datasets de Chain-of-Thought (CoT) (HAR, Sleep, ECG-QA) para evaluar la capacidad de razonamiento del modelo
- Frente a GPT-4o, con un modelo 200 veces más pequeño logra 4.4 veces más precisión en clasificación de etapas del sueño, 6 veces más en reconocimiento de actividad y 2 veces más en interpretación de ECG (con eficiencias de 880x, 1,000x y 400x, respectivamente)
- Por primera vez en el campo médico, procesa simultáneamente señales de ECG de 12 derivaciones y texto, y ofrece razonamiento chain-of-thought validado por cardiólogos
- Procesa simultáneamente múltiples series temporales de longitud variable y las integra con contexto textual para generar explicaciones interpretables verificadas por expertos del dominio
- Este estudio sugiere potencial de expansión no solo en medicina, sino también a finanzas, cadena de suministro, monitoreo industrial y otras aplicaciones de series temporales
Resumen del estudio
- El diagnóstico y tratamiento clínicos se basan esencialmente en comprender los cambios a lo largo del tiempo
- Los LLM existentes pueden procesar diversas modalidades como imágenes, texto y voz, pero han carecido de capacidad para interpretar datos continuos de series temporales
- Para resolver esto, OpenTSLM propone integrar los datos de series temporales como una nueva modalidad nativa del LLM
Arquitectura del modelo
- OpenTSLM-SoftPrompt
- Embebe la serie temporal y la introduce junto con los tokens de texto
- Es simple y eficiente en parámetros, pero en secuencias largas tiene la limitación de que el uso de memoria aumenta de forma abrupta
- OpenTSLM-Flamingo
- Procesa la serie temporal como una modalidad separada y la combina con el texto mediante atención cruzada (cross-attention)
- Mantiene un uso de memoria estable incluso en secuencias largas y es adecuado para procesamiento de propósito general
Datasets y entrenamiento
- HAR-CoT: reconocimiento de actividad humana mediante sensores de aceleración
- Sleep-CoT: clasificación de etapas del sueño basada en EEG
- ECG-QA-CoT: preguntas y respuestas usando datos de electrocardiograma
- Se aplicó aprendizaje curricular por etapas, expandiendo desde el aprendizaje de patrones simples de series temporales hasta el aprendizaje de capacidades de razonamiento
Principales resultados
- SoftPrompt-Llama3.2-1B: registró 69.9% F1 en Sleep-CoT y 65.4% F1 en HAR-CoT
- Flamingo-Llama3.2-3B: obtuvo el mejor desempeño en ECG-QA-CoT con 40.25% F1
- Ventaja de rendimiento frente a GPT-4o: incluso el modelo pequeño (OpenTSLM-1B) registró una puntuación F1 superior a la de GPT-4o
- Evaluación médica: el 92.9% del proceso de razonamiento en ECG-QA fue calificado como interpretación correcta o parcialmente correcta
Eficiencia de memoria
- En SoftPrompt, la VRAM aumenta geométricamente según la longitud de entrada (por ejemplo, en ECG-QA requiere más de 110GB)
- Flamingo mantiene un uso de memoria estable (incluso en Llama-3B, en un rango de 60~70GB)
Discusión
- OpenTSLM muestra que modelos pequeños pueden superar a modelos extremadamente grandes
- SoftPrompt es adecuado para series temporales cortas, mientras que Flamingo lo es para series temporales largas o múltiples
- En datos médicos, aporta transparencia en el proceso de razonamiento, contribuyendo a la confianza
- A diferencia de los enfoques basados en clasificadores tradicionales, materializa la combinación de razonamiento en lenguaje natural + series temporales
Limitaciones y trabajo futuro
- El enfoque actual de preservar la escala y las unidades de la serie temporal como texto puede no ser óptimo
- Dado que GPT-4o participó en el proceso de creación de los datasets CoT, existe posibilidad de sesgo en los datos
- Se necesita diseñar funciones de pérdida que garanticen la predicción correcta, simplificar la arquitectura y verificar la capacidad de generalización
Conclusión
- OpenTSLM tiene alto potencial de uso más allá de la medicina, también en finanzas, cadena de suministro, monitoreo industrial y procesamiento de datos de largo plazo
- Este estudio sienta las bases del concepto de modelo de lenguaje para series temporales (TSLM) y apunta a su expansión hacia un modelo de razonamiento general para series temporales
1 comentarios
Comentarios de Hacker News
Entiendo la idea de poder interactuar con datos de series temporales mediante lenguaje natural, pero me pregunto qué ventaja tendría frente a usar por llamada de herramientas una biblioteca de procesamiento de señales o algoritmos basados en reglas (o usar machine learning si los datos son variables).
Por ejemplo, si le pides a un LLM comercial que analice datos de ECG, el LLM llamaría una biblioteca de análisis de series temporales para ECG.
Esa biblioteca recorrería todos los datos y extraería estadísticas y eventos, por ejemplo: “frecuencia cardíaca promedio de 60 bpm, AFib detectada en cierto momento”, etc.
Así, el LLM puede obtener toda la información necesaria para el análisis y además con un costo computacional mucho menor.
Además, este enfoque requiere grandes conjuntos de datos anotados y modelos preentrenados; corríjanme si me equivoco, pero creo que es imposible un modelo de propósito general que pueda procesar series temporales “genéricas”.
Es decir, un modelo entrenado con datos de ECG no sería compatible con datos del mercado bursátil.
Todavía no es posible tener un solo modelo que entienda todos los tipos distintos de datos.
Hacer correr un sistema así en el edge es difícil.
La clave es que funcione de forma confiable en el edge.
Nadie quiere dejar el monitoreo de su frecuencia cardíaca en la nube: los servicios remotos tienen grandes problemas de caídas y confiabilidad, además de las dificultades adicionales asociadas con la inferencia de LLM.
Las funciones existentes de detección basadas en reglas ya vienen integradas en este tipo de dispositivos; si se combinan con las capacidades avanzadas de detección de patrones que ofrece un LLM, se podrían reducir alertas innecesarias y también detectar patrones nuevos y complejos.
Esto ofrece una interfaz para conversar con datos masivos de internet (ChatGPT).
Pero no me queda claro qué tiene de mejor comparado con usar Google, abrir los enlaces de arriba, esquivar anuncios, aceptar cookies, leer el encabezado, hacer scroll, cerrar el paywall, leer el resto del artículo y repetir este proceso 4 veces; eso parece más eficiente.
Ok, entendido.
Hay una frase que dice "Stanford Repo Released Sep 31, 2025", y da la impresión de que fue muestreada desde una distribución de probabilidad en la que el día siguiente al 30 de septiembre de 2025 es el 31.
Agradecen el feedback.
Señalan la ironía de que esta publicación trata sobre un modelo que entiende el tiempo.
Parece que el error de fecha ya fue corregido.
La base de esta investigación es un sistema llamado “Flamingo”.
Este sistema está especializado en entender texto e imágenes de forma alternada como una secuencia.
Es decir, puede procesar juntas dos modalidades secuenciales distintas.
Esta nueva investigación parece haber reforzado la capacidad de percepción temporal insertando tokens de tiempo en un canal modal.
(Por cierto, el diseño del sitio web es demasiado tierno; hasta tiene un efecto de degradado de izquierda a derecha en el texto).
Enlace al paper de Flamingo
Esto está realmente genial.
Por lo que veo en el paper, esta técnica parece funcionar bien para preguntas y respuestas basadas en datos de series temporales.
Lo que más me interesa en el campo del AI médico es detectar señales de enfermedad que ni los humanos pueden percibir.
Por ejemplo, estimar la fracción de eyección a partir de un ECG, algo que ni siquiera puede hacer un cardiólogo (aunque el algoritmo ya fue validado mediante RCT).
Enlace al paper relacionado
OpenTSLM tokeniza datos de series temporales dentro del espacio de embeddings del LLM, y me pregunto si este proceso podrá captar señales tan sutiles.
O si este enfoque podría ampliarse para adaptarse a este tipo de casos de uso.
Esa fue la mayor motivación en las primeras etapas de la investigación.
En el modelo, los datos originales de series temporales se integran mediante cross-attention, y se aprenden representaciones específicas de series temporales desde el encoder de series temporales en bruto.
Si el modelo necesita procesar series temporales, sería mejor que generara un script que llame una biblioteca de TS y se lo pase a un ejecutor.
Probablemente una persona también lo haría así.
No estoy convencido de que haga falta incorporar esa capacidad directamente dentro del modelo.
Me pregunto si tener procesamiento nativo de TS dentro del modelo permite hacer algo que no se pueda lograr con tool calling.
Anthropic también recomienda el enfoque de “hacer que el modelo escriba scripts” en su presentación más reciente del Claude Agent SDK.
La generación de código es clara y excelente en reutilización y composabilidad, por lo que es ideal para ejecutar tareas complejas de manera confiable.
Cuando desarrollas agentes, pensar qué tareas conviene expresar como código abre nuevas posibilidades.
Enlace sobre Claude Agent SDK
Creo que se está perdiendo el punto.
Piensa si para describir una imagen convendría llamar una biblioteca de análisis de imágenes, o si sería mejor entender y razonar directamente sobre la imagen como secuencia temporal.
Si miras las gráficas del paper, se puede ver qué clase de cosas pueden hacer estos modelos.
En el fondo, me pregunto si realmente existe un “concepto de tiempo” ahí, y si entiende la causalidad.
En cuanto llegue a casa hoy lo voy a probar sí o sí.
Trabajo con grandes volúmenes de datos de audio como series temporales (ni siquiera contienen palabras y además tienen muchas variaciones sutiles), y quiero comprobar qué tan bien rinde este enfoque frente a las técnicas estadísticas tradicionales.
Crearon un repositorio en huggingface y subieron parte de los pesos del modelo.
Todavía no veo ese enlace en el sitio oficial, el paper ni GitHub.
Página de OpenTSLM en huggingface
Me imagino a claude code monitoreando en tiempo real la serie temporal de mi frecuencia cardíaca y hasta detectando cuánto tiempo me la paso dando vueltas en la cama.
Si entendí bien, este modelo parece haber sido entrenado para clasificación e interpretación de series temporales; me pregunto si también lo evaluaron en predicción (forecasting).
La explicación y la recomendación a menudo están muy ligadas a la predicción, así que parece un área donde también podrían aparecer las características del modelo.
Como prueba curiosa, se podría quitar la tendencia del S&P500 y luego descomponerlo en los componentes de 500 acciones para analizar y rankear cuánto aportó cada una.
Pero solo con ese tipo de trabajo sería difícil conseguir empleo en Rentec o en la NSA.
En los sectores comercial y médico, por lo general las señales son normales y se usan junto con ruido blanco (no correlacionado), mientras que en la NSA y Rentec se trabaja sobre todo con señales no estacionarias, cambios de régimen y ruido correlacionado.
No es posible eliminar el ruido de esas señales sin pérdida de información.
El objetivo de este tipo de análisis no es tanto predecir el siguiente tick, sino detectar lo más rápido posible cambios en los patrones (cambios de régimen) y relacionarlos con patrones ya conocidos de trading de acciones o de actividades de inteligencia.