- GPT-5, Claude, Gemini, Grok y DeepSeek, cinco grandes modelos de lenguaje, realizaron operaciones bursátiles virtuales durante 8 meses con base en datos reales del mercado
- Cada modelo operó acciones principales día a día con 100 mil dólares de capital simulado, registrando todas las decisiones y cambios en el portafolio
- Como resultado, Grok obtuvo el mayor rendimiento, DeepSeek quedó en un segundo lugar muy cercano y Gemini terminó último con un portafolio centrado en acciones no tecnológicas
- El experimento se llevó a cabo del 3 de febrero al 20 de octubre de 2025 y se construyó un entorno de API con filtrado temporal para que los modelos solo accedieran a datos posteriores a su fecha de entrenamiento
- Los investigadores planean usar este experimento como punto de partida para validar de forma sistemática la capacidad de los LLM en análisis financiero mediante trading en tiempo real y pruebas con control de variables
Resumen de AI Trade Arena
- AI Trade Arena es una plataforma experimental creada para evaluar la capacidad de los LLM de analizar y predecir usando datos financieros reales
- Fue desarrollada en conjunto por Kam y Josh
- Está diseñada para que los modelos realicen operaciones bursátiles con base en noticias, estados financieros y datos de mercado
- La plataforma rastrea las posiciones, historial de operaciones y desempeño de cada modelo, y publica todo el proceso en una demo interactiva
Primer experimento: operaciones bursátiles de 5 LLM
- Los modelos evaluados fueron GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 y DeepSeek
- A cada modelo se le asignaron 100 mil dólares de capital simulado
- Se excluyó el trading de opciones y solo se negociaron acciones principales
- Todas las operaciones se realizaron con base en precios históricos reales, y los modelos solo pudieron acceder a la información disponible en ese momento
- La API de noticias, la información financiera corporativa y los datos de mercado se entregaron con filtrado temporal
- El experimento se desarrolló durante aproximadamente 8 meses, del 3 de febrero al 20 de octubre de 2025
Concepto y límites del backtesting
- El backtest es un método para verificar el desempeño de un algoritmo de trading usando datos históricos
- Simula qué decisiones habría tomado un LLM en un momento pasado
- Para evitar filtraciones de datos futuros, las API se separaron por serie temporal
- Ventajas
- Permite evaluar modelos a gran escala
- Hace posible probar rápidamente distintos escenarios
- Puede ofrecer resultados con significancia estadística
- Desventajas
- No puede reproducir por completo el entorno competitivo y de liquidez del mercado real
- Existen riesgos de slippage, restricciones de volumen y filtración de datos futuros
- Puede haber sobreajuste (overfitting) a los datos históricos
Resultados y observaciones del experimento
- Todos los modelos fueron evaluados solo en periodos posteriores al cutoff de sus datos de entrenamiento
- Esto se configuró para evitar que operaran simplemente recordando resultados pasados del mercado
- Grok mostró el mejor desempeño y DeepSeek quedó apenas detrás en segundo lugar
- La mayoría de los modelos construyó portafolios centrados en acciones tecnológicas y logró altos rendimientos
- Gemini tuvo un mayor peso en acciones no tecnológicas y mostró el peor resultado
- Los investigadores publicaron todo el proceso y la justificación de cada operación para garantizar transparencia
- Es posible revisar directamente en la UI el fundamento de cada operación
Planes futuros
- Los investigadores planean expandir el trabajo más allá del backtesting hacia experimentos de trading en tiempo real
- Enfoque de 3 etapas: backtesting de escenarios históricos → trading simulado en tiempo real → operaciones en el mercado real
- El objetivo es comprender de forma sistemática la capacidad de los LLM para analizar mercados financieros y la calidad de sus decisiones
- Usarán los datos de mercado como métrica de evaluación basada en la realidad
- Intentarán distinguir suerte de habilidad mediante herramientas como análisis de factores Barra
- A partir del historial de operaciones, sería posible identificar la diferencia entre juicios basados en memoria y razonamiento real
- Ejemplo: distinguir entre simplemente recordar Nvidia y comprarla, frente a analizar un reporte 10-K y obtener una visión fundamental
- Este tipo de análisis transparente de decisiones podría ayudar a mejorar la configuración de herramientas y los flujos de trabajo de los modelos
Participación y exploración de datos
- En la demo interactiva del sitio web se pueden explorar directamente las operaciones, estrategias y procesos de razonamiento de cada modelo
- Los investigadores están planeando más experimentos y recopilan opiniones a través de la comunidad de Discord y mensajes directos en Twitter
1 comentarios
Opiniones de Hacker News
Grok tuvo el mejor desempeño y DeepSeek quedó en un cercano segundo lugar.
Parece que la mayoría de los modelos obtuvieron buenos resultados porque tenían portafolios centrados en acciones tecnológicas.
En cambio, Gemini tuvo una mayor proporción de acciones no tecnológicas y quedó en último lugar.
No soy inversionista ni investigador, pero esto me hace sentir que la métrica de medición está mal planteada.
Pero el problema es que no puedes predecir cuándo llegará una corrección.
Si los datos no incluían un mercado bajista, el modelo no habría podido aprender esa situación.
De hecho, sería más interesante dividir los datos a la mitad, entrenar con una parte y probar con la otra.
También hace pensar en que incluso los hedge funds pueden superar al mercado durante 2 a 4 años, pero casi nunca por más de 10.
Sería más significativo reentrenar los modelos según el período y hacer backtesting para obtener resultados con más sentido.
Antes trabajé en una API de brokerage para trading algorítmico, y muchas estrategias que funcionaban bien en backtesting fracasaban en el mercado real.
Incluso el paper trading en tiempo real se comporta distinto al mercado real.
DeepSeek obtuvo buenos resultados manteniendo muchas tecnológicas sin vender, pero una estrategia concentrada en un solo sector es riesgosa.
Como solo se podía operar una vez al día, esto no es realmente un experimento de toma de decisiones en tiempo real.
Si un LLM pudiera rotar sectores en el momento adecuado, eso sí sería realmente impresionante.
y también existe impacto de mercado (market impact) porque otros participantes cancelan órdenes o las siguen.
Ese tipo de cosas no pasa en paper trading.
Si solo se ejecutó una vez por modelo, eso no es un backtest serio.
Si solo miras el resultado de un único momento, incluso una estrategia simple como “compra acciones relacionadas con IA” podría acertar por casualidad.
Haría falta ejecutar 100 corridas independientes en 10 períodos de mercado distintos para obtener estadísticas con sentido.
Tal como está, este experimento no es más que un generador de números aleatorios muy caro.
Por ejemplo, Claude costó entre 200 y 300 dólares por una ejecución de 8 meses.
Me habría gustado escalarlo más para obtener resultados estadísticamente significativos.
Ahora se ve casi como un artículo centrado solo en el resultado.
Porque incluso eligiendo acciones al azar, hay una buena probabilidad de superar al S&P 500.
Pero nadie usaría esa estrategia tal cual durante los próximos 15 años.
También está el leaderboard en curso de nof1.ai.
Los resultados han sido peores de lo esperado, y la mayoría de las IA se ha enfocado en trading de corto plazo de las tecnológicas Mag7, terminando con pérdidas.
Nosotros estamos intentando complementar eso con un experimento similar en rallies.ai/arena.
Aun así, el dashboard de comentarios de inversión en tiempo real de nof1 es entretenido de ver.
Soy el autor original (OP).
Sabía de las limitaciones del backtesting y del dinero virtual, pero aun así quería mostrar cómo perciben el mercado los modelos.
No quise decir que puedan ganarle al mercado en el largo plazo.
Tener un portafolio con beta alta en un mercado alcista no es ningún logro especial.
Nosotros también estamos haciendo un experimento en tiempo real con acciones y opciones.
Los modelos tienen acceso a herramientas como reportes de la SEC, fundamentales, precios en tiempo real y datos de opciones.
Creemos que el backtesting no tiene mucho sentido porque los LLM ya recuerdan casi todos los datos históricos.
Por eso estamos haciendo forward testing, y aunque todavía hay pocos datos, ya están saliendo resultados iniciales interesantes.
rallies.ai/arena
Ya hubo un experimento parecido en cripto con dinero real y trading en tiempo real.
Enlace relacionado
Yo creo que evitar la filtración de datos futuros en los LLM es casi imposible.
Los estudios también lo han señalado, y yo mismo lo he vivido al trabajar con modelos de predicción.
El backtesting no significa mucho porque es distinto del trading real.
Además, 8 meses es un período demasiado corto.
A mí me importa más el mercado dentro de 8 años que dentro de 8 meses.
Incluso si borras los nombres de las acciones, es posible que el modelo pueda adivinar que se trata de NVDA solo por la forma del gráfico.
Es difícil confiar en los resultados de backtesting de modelos como estos.
Lo que tendría sentido sería un experimento en vivo de 8 meses considerando costos reales.
rallies.ai/arena
Este es un enfoque completamente equivocado.
Yo trabajo justamente como investigador que usa LLM para trading.
Los LLM son ingenuos, fáciles de convencer y no deterministas.
Si haces el mismo experimento 10 veces, podrías obtener un resultado distinto cada vez.
La forma correcta es construir primero un algoritmo de trading determinista y luego poner el LLM encima como herramienta de apoyo.
Si metes directamente un LLM en el pipeline de trading, solo agregas incertidumbre innecesaria.
Sí tiene valor para conectar rápidamente análisis de sentimiento u otras tareas auxiliares de ML.
Pero experimentos como este son un ejemplo clásico de ponerle IA sin entender el dominio.
Una investigación realmente significativa controlaría variables como la exposición sectorial y repetiría miles de veces para analizar patrones de sesgo por LLM.
Si un LLM dijera por sí mismo “voy a diseñar un algoritmo cuantitativo” y de verdad tuviera éxito, eso sí sería sorprendente.