6 puntos por huyng123 3 일 전 | 8 comentarios | Compartir por WhatsApp

Hola, soy un ingeniero de IA con 10 años de experiencia que invierte en bolsa de vez en cuando.
Personalmente, cada vez que investigaba acciones, me resultaba muy incómodo tener que ir y venir entre varias apps de casas de bolsa y noticias de portales para recopilar información fragmentada. Después, con la llegada de la IA, todo se volvió mucho más conveniente, pero por los problemas de alucinaciones y de actualidad de los datos, terminaba preguntándoles a varias IAs y luego integrando todo, lo cual era un proceso demasiado desgastante.
Para resolver esta incomodidad personal, hice junto con un conocido un servicio donde se puede ver de un vistazo la información sobre acciones y los resultados del análisis de varias IAs (GPT, Gemini, Claude, DeepSeek).

Ir al servicio
• Stock AI: https://jusikai.com.

Momentos de reflexión
Al crear este servicio, más que cuestiones técnicas, inevitablemente tuvimos muchísimas dudas y decisiones de política de producto.
• Selección de modelos y prompts: en realidad, ha habido muchos estudios sobre qué modelos analizan mejor las acciones, pero en una época como la actual, en la que siguen apareciendo modelos constantemente, no fue nada fácil elegir los modelos y prompts adecuados. Con mi equipo construimos datos de backtesting por acción y los aprovechamos activamente para seleccionar los modelos con mejor rendimiento. Lo interesante es que un buen modelo no siempre hace buenas predicciones.
• Criterios para recomendar acciones: que una acción sea buena no significa que vaya a subir hoy. Probablemente esa sea también la razón por la que Warren Buffett enfatiza la inversión a largo plazo. Pero eso no encajaba con nuestra condición de tener que recomendar todos los días, así que configuramos criterios de corto plazo (1 semana) y de mediano/largo plazo (1 mes o más). En la práctica, este fue un método de recomendación muy intuitivo y útil para los usuarios.
• Publicación del dashboard: siempre publicamos de forma transparente la rentabilidad de los resultados de recomendación en formato de dashboard por modelo. (Por suerte, en abril y mayo estamos mostrando una buena rentabilidad).
• Mejora de habilidades de los agentes: de forma periódica, los modelos mejoran sus habilidades por mercado/acción a través de evaluaciones de sus propios análisis. Esto ayuda a que el LLM entienda las características de cada mercado y de cada acción, para así mejorar el rendimiento.
• Limitación de acciones y costo de mantenimiento de los LLM: por ahora, debido a problemas de optimización del pipeline, el servicio está disponible solo para un conjunto limitado de acciones. Además, aunque aplicamos al máximo la optimización de prompts y Context Caching para reducir el uso de tokens, seguimos teniendo costos de mantenimiento mensuales de varios cientos de miles de wones, así que también nos preocupa la sostenibilidad T_T

Les agradecería comentarios agudos y directos.
• Quisiera pedir consejos desde la perspectiva de los excelentes ingenieros y makers que están en GeekNews.
• En cuanto a la usabilidad: me gustaría saber si nuestra forma de recomendación y la UI podrían resultar demasiado poco amigables desde la perspectiva de un usuario real.
• Además, aceptaré con gusto cualquier reporte de bugs o incluso críticas duras. Estaré monitoreando durante todo el fin de semana y corregiré de inmediato los bugs que se puedan solucionar. ¡Gracias por leer este texto largo!

8 comentarios

 
computerphilosopher 3 일 전

¿Quizás la base de las predicciones de corto, mediano y largo plazo sean los reportes de los analistas?

 
huyng123 3 일 전

Sí, así es. Es el resultado de calcular y reflejar por separado las puntuaciones de recomendación de corto, mediano y largo plazo al elaborar el reporte. En el corto plazo, se reflejan con más fuerza señales como los indicadores técnicos y las noticias, y en el mediano y largo plazo se refleja más la mejora de los fundamentos.

 
dydwls140 3 일 전

Le eché un vistazo al servicio. Se nota el esfuerzo que le metieron, pero como dijeron que también aceptarían críticas duras, voy a ser sincero.

La premisa misma de que el consenso de 4 modelos aumenta la confiabilidad me parece riesgosa. Al final, gpt, gemini, claude y deepseek son modelos entrenados con datos de internet parecidos, así que cuando ven la misma acción terminan diciendo cosas similares. Que haya consenso no significa = cuatro veces más confiabilidad, sino que es más probable que el mismo sesgo se haya repetido cuatro veces. El efecto de un ensemble aparece cuando los modelos son independientes entre sí, y entre LLM de propósito general eso no está garantizado.

 
huyng123 3 일 전

¡Gracias por tu opinión! Como mencionaste, tener 4 modelos no significa en absoluto que la confiabilidad se multiplique por 4. Más bien, sería bueno verlo como que pueden ayudarse a detectar errores entre sí. Lo interesante es que, incluso usando el mismo prompt y los mismos datos, la forma en que cada modelo analiza y su perspectiva son realmente muy distintas. También probamos mucho las 4 personas para analizar justamente ese aspecto y evitar forzarlo de manera artificial. Aún nos falta, pero vamos a seguir mejorándolo para convertirlo en un servicio más confiable. ¡De verdad muchas gracias por revisar el servicio y también por compartir tu opinión!

 
dydwls140 3 일 전

¡Gracias por la respuesta! Solo para agregar brevemente sobre la parte de que “detectan los errores entre sí”: aunque los modelos tengan perspectivas superficiales distintas, como fueron entrenados en la misma época y con el mismo corpus, suelen cometer juntos tipos de errores parecidos. Entonces, incluso si llegan a un consenso por mayoría, ese error no necesariamente se filtra, sino que puede terminar reforzándose.

Si les es posible, les recomiendo medirlo una vez. Si comparan la distribución de rendimientos posteriores en los datos de backtest cuando las opiniones de los 4 modelos (a) coincidieron y cuando (b) se dividieron, si (a) sale significativamente mejor que (b), eso demostraría empíricamente el efecto de la mayoría; si no hay diferencia o incluso (b) resulta mejor, sería una señal de que está más cerca de ruido consensuado. Como es una hipótesis que pueden probar de inmediato con los datos que ya construyeron, creo que sería interesante revisarlo.

 
huyng123 3 일 전

Gracias por la buena sugerencia. En la práctica, no necesariamente las acciones que todos los modelos recomiendan son las que tienen mayor rentabilidad. Yo había pensado esta parte en relación con la característica de las acciones de que, cuanto mayor es el riesgo, mayor puede ser la rentabilidad, pero gracias por la interesante propuesta :)

 
jeongm 3 일 전

Oh... al decir que es para ir con todo, me dan ganas de comprar de inmediato~
Lo usaré bien jaja

 
huyng123 3 일 전

Sí, gracias jaja