Experimento simula operaciones bursátiles durante 8 meses dejando 100 mil dólares a cada uno de 5 LLM

(aitradearena.com)

11 puntos por GN⁺ 2025-12-06 | 1 comentarios | Compartir por WhatsApp

GPT-5, Claude, Gemini, Grok y DeepSeek, cinco grandes modelos de lenguaje, realizaron operaciones bursátiles virtuales durante 8 meses con base en datos reales del mercado
Cada modelo operó acciones principales día a día con 100 mil dólares de capital simulado, registrando todas las decisiones y cambios en el portafolio
Como resultado, Grok obtuvo el mayor rendimiento, DeepSeek quedó en un segundo lugar muy cercano y Gemini terminó último con un portafolio centrado en acciones no tecnológicas
El experimento se llevó a cabo del 3 de febrero al 20 de octubre de 2025 y se construyó un entorno de API con filtrado temporal para que los modelos solo accedieran a datos posteriores a su fecha de entrenamiento
Los investigadores planean usar este experimento como punto de partida para validar de forma sistemática la capacidad de los LLM en análisis financiero mediante trading en tiempo real y pruebas con control de variables

Resumen de AI Trade Arena

AI Trade Arena es una plataforma experimental creada para evaluar la capacidad de los LLM de analizar y predecir usando datos financieros reales
- Fue desarrollada en conjunto por Kam y Josh
- Está diseñada para que los modelos realicen operaciones bursátiles con base en noticias, estados financieros y datos de mercado
La plataforma rastrea las posiciones, historial de operaciones y desempeño de cada modelo, y publica todo el proceso en una demo interactiva

Primer experimento: operaciones bursátiles de 5 LLM

Los modelos evaluados fueron GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 y DeepSeek
- A cada modelo se le asignaron 100 mil dólares de capital simulado
- Se excluyó el trading de opciones y solo se negociaron acciones principales
Todas las operaciones se realizaron con base en precios históricos reales, y los modelos solo pudieron acceder a la información disponible en ese momento
- La API de noticias, la información financiera corporativa y los datos de mercado se entregaron con filtrado temporal
El experimento se desarrolló durante aproximadamente 8 meses, del 3 de febrero al 20 de octubre de 2025

Concepto y límites del backtesting

El backtest es un método para verificar el desempeño de un algoritmo de trading usando datos históricos
- Simula qué decisiones habría tomado un LLM en un momento pasado
- Para evitar filtraciones de datos futuros, las API se separaron por serie temporal
Ventajas
- Permite evaluar modelos a gran escala
- Hace posible probar rápidamente distintos escenarios
- Puede ofrecer resultados con significancia estadística
Desventajas
- No puede reproducir por completo el entorno competitivo y de liquidez del mercado real
- Existen riesgos de slippage, restricciones de volumen y filtración de datos futuros
- Puede haber sobreajuste (overfitting) a los datos históricos

Resultados y observaciones del experimento

Todos los modelos fueron evaluados solo en periodos posteriores al cutoff de sus datos de entrenamiento
- Esto se configuró para evitar que operaran simplemente recordando resultados pasados del mercado
Grok mostró el mejor desempeño y DeepSeek quedó apenas detrás en segundo lugar
- La mayoría de los modelos construyó portafolios centrados en acciones tecnológicas y logró altos rendimientos
- Gemini tuvo un mayor peso en acciones no tecnológicas y mostró el peor resultado
Los investigadores publicaron todo el proceso y la justificación de cada operación para garantizar transparencia
- Es posible revisar directamente en la UI el fundamento de cada operación

Planes futuros

Los investigadores planean expandir el trabajo más allá del backtesting hacia experimentos de trading en tiempo real
- Enfoque de 3 etapas: backtesting de escenarios históricos → trading simulado en tiempo real → operaciones en el mercado real
El objetivo es comprender de forma sistemática la capacidad de los LLM para analizar mercados financieros y la calidad de sus decisiones
- Usarán los datos de mercado como métrica de evaluación basada en la realidad
- Intentarán distinguir suerte de habilidad mediante herramientas como análisis de factores Barra
A partir del historial de operaciones, sería posible identificar la diferencia entre juicios basados en memoria y razonamiento real
- Ejemplo: distinguir entre simplemente recordar Nvidia y comprarla, frente a analizar un reporte 10-K y obtener una visión fundamental
Este tipo de análisis transparente de decisiones podría ayudar a mejorar la configuración de herramientas y los flujos de trabajo de los modelos

Participación y exploración de datos

En la demo interactiva del sitio web se pueden explorar directamente las operaciones, estrategias y procesos de razonamiento de cada modelo
Los investigadores están planeando más experimentos y recopilan opiniones a través de la comunidad de Discord y mensajes directos en Twitter

1 comentarios

GN⁺ 2025-12-06

Opiniones de Hacker News

Grok tuvo el mejor desempeño y DeepSeek quedó en un cercano segundo lugar.
Parece que la mayoría de los modelos obtuvieron buenos resultados porque tenían portafolios centrados en acciones tecnológicas.
En cambio, Gemini tuvo una mayor proporción de acciones no tecnológicas y quedó en último lugar.
No soy inversionista ni investigador, pero esto me hace sentir que la métrica de medición está mal planteada.
- Si crees que el sector tecnológico va a seguir subiendo, puedes ganarle al promedio del mercado.
  Pero el problema es que no puedes predecir cuándo llegará una corrección.
  Si los datos no incluían un mercado bajista, el modelo no habría podido aprender esa situación.
  De hecho, sería más interesante dividir los datos a la mitad, entrenar con una parte y probar con la otra.
  También hace pensar en que incluso los hedge funds pueden superar al mercado durante 2 a 4 años, pero casi nunca por más de 10.
- Un enfoque más válido sería crear 100 portafolios por modelo y correr una simulación de Monte Carlo para ver el desempeño promedio.
- Estaría bien repetir este estudio también en un mercado bajista (bear market).
- El S&P 500 también tiene una fuerte concentración en tecnológicas y es un índice difícil de superar en el largo plazo.
- Este experimento parece mostrar solo el desempeño reciente, sin considerar el contexto de cada momento.
  Sería más significativo reentrenar los modelos según el período y hacer backtesting para obtener resultados con más sentido.
Antes trabajé en una API de brokerage para trading algorítmico, y muchas estrategias que funcionaban bien en backtesting fracasaban en el mercado real.
Incluso el paper trading en tiempo real se comporta distinto al mercado real.
DeepSeek obtuvo buenos resultados manteniendo muchas tecnológicas sin vender, pero una estrategia concentrada en un solo sector es riesgosa.
Como solo se podía operar una vez al día, esto no es realmente un experimento de toma de decisiones en tiempo real.
Si un LLM pudiera rotar sectores en el momento adecuado, eso sí sería realmente impresionante.
- En el mercado real, las órdenes pueden ser emparejadas primero por market makers (front running),
  y también existe impacto de mercado (market impact) porque otros participantes cancelan órdenes o las siguen.
  Ese tipo de cosas no pasa en paper trading.
- Cuando hay dinero real en juego, intervienen factores emocionales, así que es difícil confiar por completo en el juicio de una máquina.
- Si pruebas muchísimas estrategias, por pura casualidad puede aparecer una que encaje con los datos históricos, así que el backtesting por sí solo no significa mucho.
- Yo también llegué a duplicar o triplicar dinero en paper trading con ThinkOrSwim, pero en el mercado real fracasé por completo.
Si solo se ejecutó una vez por modelo, eso no es un backtest serio.
Si solo miras el resultado de un único momento, incluso una estrategia simple como “compra acciones relacionadas con IA” podría acertar por casualidad.
Haría falta ejecutar 100 corridas independientes en 10 períodos de mercado distintos para obtener estadísticas con sentido.
Tal como está, este experimento no es más que un generador de números aleatorios muy caro.
- El presupuesto era limitado, así que no se pudieron correr los modelos varias veces.
  Por ejemplo, Claude costó entre 200 y 300 dólares por una ejecución de 8 meses.
  Me habría gustado escalarlo más para obtener resultados estadísticamente significativos.
- El paper sí dice explícitamente que los resultados no son estadísticamente significativos, pero ojalá eso se hubiera enfatizado más.
  Ahora se ve casi como un artículo centrado solo en el resultado.
- También es un problema que no haya otras métricas además del rendimiento total.
  Porque incluso eligiendo acciones al azar, hay una buena probabilidad de superar al S&P 500.
- Llevándolo al extremo, también podrías hacer un experimento como: “¿Qué acción habría dado el mayor rendimiento 15 años después si la comprabas el 1 de enero de 2010?”.
  Pero nadie usaría esa estrategia tal cual durante los próximos 15 años.
- Un resultado de una sola ejecución es, en la práctica, solo un random walk.
También está el leaderboard en curso de nof1.ai.
Los resultados han sido peores de lo esperado, y la mayoría de las IA se ha enfocado en trading de corto plazo de las tecnológicas Mag7, terminando con pérdidas.
- La limitación de nof1 es que casi no usa datos de análisis empresarial que un inversionista real podría consultar.
  Nosotros estamos intentando complementar eso con un experimento similar en rallies.ai/arena.
- Vi que ayer se volvió tema en X (Twitter) y pensé que eran los resultados de nof1, pero era un experimento completamente distinto.
  Aun así, el dashboard de comentarios de inversión en tiempo real de nof1 es entretenido de ver.
- Por lo que se ve en el sitio, parece que los modelos solo pueden operar unas pocas acciones tecnológicas y la moneda XYZ100.
- Capaz que ese “modelo misterioso” sea su propio modelo interno.
- Como la información de precios se difunde tan rápido, los resultados dependen mucho de la arquitectura del agente y los bucles de retroalimentación.
Soy el autor original (OP).
Sabía de las limitaciones del backtesting y del dinero virtual, pero aun así quería mostrar cómo perciben el mercado los modelos.
No quise decir que puedan ganarle al mercado en el largo plazo.
- También estaría bueno hacer un experimento controlado comparándolos con participantes humanos.
- Como no se trata de operaciones con dinero real, no hay absolutamente ningún impacto de mercado.
- Si no publicas el rendimiento ajustado por riesgo, el resultado pierde bastante sentido.
  Tener un portafolio con beta alta en un mercado alcista no es ningún logro especial.
- En vez de “DeepSeek came close to second”, la expresión correcta sería “came in a close second”.
- Como doctor en investigación de mercados de capitales, creo que habría que calcular el rendimiento anormal (alpha) para evaluar si realmente hubo exceso de retorno.
Nosotros también estamos haciendo un experimento en tiempo real con acciones y opciones.
Los modelos tienen acceso a herramientas como reportes de la SEC, fundamentales, precios en tiempo real y datos de opciones.
Creemos que el backtesting no tiene mucho sentido porque los LLM ya recuerdan casi todos los datos históricos.
Por eso estamos haciendo forward testing, y aunque todavía hay pocos datos, ya están saliendo resultados iniciales interesantes.
rallies.ai/arena
- También surge la duda de si se puede confiar en esto si el código o los prompts no son open source.
- Tengo curiosidad por saber por qué Qwen tuvo un desempeño mucho peor que los otros modelos.
Ya hubo un experimento parecido en cripto con dinero real y trading en tiempo real.
Enlace relacionado
Yo creo que evitar la filtración de datos futuros en los LLM es casi imposible.
Los estudios también lo han señalado, y yo mismo lo he vivido al trabajar con modelos de predicción.
El backtesting no significa mucho porque es distinto del trading real.
Además, 8 meses es un período demasiado corto.
A mí me importa más el mercado dentro de 8 años que dentro de 8 meses.
- Para hacer backtesting con LLM habría que blanquear por completo los datos históricos.
  Incluso si borras los nombres de las acciones, es posible que el modelo pueda adivinar que se trata de NVDA solo por la forma del gráfico.
Es difícil confiar en los resultados de backtesting de modelos como estos.
Lo que tendría sentido sería un experimento en vivo de 8 meses considerando costos reales.
- En este momento estamos haciendo un experimento en vivo con acciones y opciones.
  rallies.ai/arena
Este es un enfoque completamente equivocado.
Yo trabajo justamente como investigador que usa LLM para trading.
Los LLM son ingenuos, fáciles de convencer y no deterministas.
Si haces el mismo experimento 10 veces, podrías obtener un resultado distinto cada vez.
La forma correcta es construir primero un algoritmo de trading determinista y luego poner el LLM encima como herramienta de apoyo.
Si metes directamente un LLM en el pipeline de trading, solo agregas incertidumbre innecesaria.
Sí tiene valor para conectar rápidamente análisis de sentimiento u otras tareas auxiliares de ML.
Pero experimentos como este son un ejemplo clásico de ponerle IA sin entender el dominio.
Una investigación realmente significativa controlaría variables como la exposición sectorial y repetiría miles de veces para analizar patrones de sesgo por LLM.
Si un LLM dijera por sí mismo “voy a diseñar un algoritmo cuantitativo” y de verdad tuviera éxito, eso sí sería sorprendente.

Experimento simula operaciones bursátiles durante 8 meses dejando 100 mil dólares a cada uno de 5 LLM

Resumen de AI Trade Arena

Primer experimento: operaciones bursátiles de 5 LLM

Concepto y límites del backtesting

Resultados y observaciones del experimento

Planes futuros

Participación y exploración de datos

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News