- El banner del home es un área clave que aparece primero en la pantalla inicial del cliente, y mediante un sistema de recomendación hiperpersonalizada maximiza la tasa de clics (CTR) y la experiencia de usuario
- Dejando atrás el enfoque existente de optimización simple de CTR basado en MAB (Multi-Armed Bandit), refleja con precisión las características de banners y usuarios con algoritmos modernos como DeepFM, Two-Tower y HGNN y embeddings basados en grafos
- Resuelve problemas propios del dominio como el ciclo de vida corto de los banners, retroalimentación de clics con mucho ruido y desbalance de datos mediante Continual Learning y una operación híbrida de modelos individuales e integrados
- Como resultado final, construyó un pipeline de recomendación sistemático con una mejora de más del 16% en CTR, respuesta a banners nuevos y usuarios cold start, e integración con políticas de negocio en tiempo real
- En adelante, seguirá evolucionando con serving en tiempo real, Multi-Task Learning, mejora de la calidad de embeddings e incorporación de métricas de desempeño más diversas
Crear una mejor experiencia con big banners personalizados para cada cliente
- A medida que aumentaron los gustos de los clientes y la diversidad del contenido expuesto, hubo límites para ofrecer una experiencia satisfactoria con una exposición uniforme de banners
- Con el objetivo de maximizar el CTR, se llevó a cabo un proyecto para introducir lógica de exposición personalizada en el big banner superior del home de cada store
Importancia y características del banner del home
- El banner del home es un banner tipo carrusel en la parte superior de la pantalla (35 en total) con el que el cliente se encuentra primero en el servicio de Musinsa; en la app se muestra uno y en la web se muestran tres
- Aproximadamente 97% del tráfico total de Musinsa se encuentra con el banner del home al entrar a la pantalla principal
- Los clics en el banner del home representan 35% del total de clics y 37% de las sesiones con clics, por lo que su peso es muy grande
- Es un área con un impacto muy alto en conversión de negocio debido a su alta frecuencia de exposición
Limitaciones del método de recomendación anterior
- Anteriormente se realizaban recomendaciones centradas en CTR usando el algoritmo MAB (Multi-Armed Bandit)
- Ajuste del equilibrio entre exploración (Exploration) y explotación (Exploitation)
- Tres limitaciones:
- Dependencia de una sola métrica de CTR, con poca capacidad para reflejar diversos gustos de clientes y características de banners
- Dificultad para reflejar la relación entre banners (se procesan de forma independiente)
- Cold start (caída de rendimiento cuando hay pocos datos de clics en banners nuevos)
- Para superar estas limitaciones se diseñó un nuevo sistema de recomendación
Pipeline del sistema de recomendación
- El sistema está compuesto por un pipeline de múltiples etapas
- Fortalecimiento de la representación del banner: extracción de embeddings basados en texto, imagen y productos relacionados con el banner (usando HGNN y GraphSAGE)
- Entrenamiento del modelo de predicción de clics: aplicación simultánea de los modelos DeepFM (interacción de features) y Two-Tower (embeddings separados de usuario/banner)
- Scoring y aplicación de banners: cálculo batch/en tiempo real del score de predicción de CTR por usuario
- Para usuarios con suficientes datos: personalización precisa
- Para usuarios nuevos o cold: recomendación basada en segmentos
- Reflejo de políticas de negocio: además del puntaje del sistema, se reflejan en tiempo real políticas y estrategia de la empresa, banners de campaña y cambios urgentes
- Exposición final del banner: recomendación y exposición final de los banners Top-N con mayor score
Introducción a los modelos clave de recomendación
- DeepFM: estructura paralela de FM (interacciones de segundo orden) + DNN (interacciones de alta dimensión), aprende eficazmente tanto datos dispersos como interacciones complejas, y es sobresaliente para predicción de CTR
- Two-Tower: extrae embeddings de usuario y banner en redes neuronales independientes, tiene fortaleza en datos a gran escala y serving en tiempo real, y permite recomendaciones basadas en similitud
DeepFM
- Combina una capa FM (interacciones de features de segundo orden) y una capa DNN (integración no lineal de features de alta dimensión)
- Es fuerte con datos dispersos y, gracias a una estructura de entrenamiento End-to-End, optimiza el rendimiento de forma consistente
- Usa como features información de usuario, metadatos del banner e información de embeddings (64 dimensiones)
- Procesa los vectores de embedding como un solo bloque para asegurar eficiencia y estabilidad en el entrenamiento
- Genera el ranking de banners con el resultado de predicción de CTR
Two-Tower
- Embebe usuario y banner en redes neuronales separadas (torres) y calcula similitud
- Permite escalabilidad apta para datos a gran escala y respuestas rápidas con vectores precomputados (baja latencia)
- En cada torre aprovecha diversa información de entrada como demografía, logs de comportamiento y texto/imágenes
- Gracias a su estructura de entrenamiento separada y procesamiento paralelo, responde de forma rápida y flexible a problemas grandes de recomendación
Principales dificultades al llevarlo a producción
- Los banners del home tienen un ciclo de vida muy corto (2 a 3 días, e incluso por horas), por lo que se requiere reflejo en tiempo real
- La señal de feedback depende principalmente del clic, por lo que es difícil identificar la preferencia real del usuario
- A diferencia de productos y marcas, los banners carecen de suficientes metadatos estructurados, y es difícil captar el contexto de imagen y texto
- El desbalance de datos por store (diferencias de tráfico y actividad entre verticales) puede degradar el rendimiento global
- Para superar estos problemas, el sistema se rediseñó alrededor de tres ejes técnicos: mayor capacidad de representación, mantenimiento de frescura y mitigación del desbalance
Medidas de mejora concretas
Fortalecimiento de las características del banner
- Para superar las limitaciones de usar el promedio de embeddings de PinSAGE (limitaciones al representar banners compuestos e imposibilidad de recomendar banners nuevos), se introdujo HGNN
- Con base en los patrones de comportamiento del usuario, se embeben las relaciones banner-producto en una estructura de grafo mediante GraphSAGE
- Para la información de texto e imagen se usa una combinación de embeddings de LLM
- Se introdujo actualización en tiempo real del embedding de usuario y Continual Learning para reflejar los intereses más recientes del usuario
- CTR +8.3%
Continual Learning
- Se abandonó el entrenamiento masivo de todos los datos y se introdujo una actualización continua (cada 1 hora, con logs de las últimas 3 horas)
- La tasa de aprendizaje se ajusta dinámicamente según el nivel de actividad (hasta 5x en semana, 2x en la noche)
- Hace posible una adaptación rápida, prevención del envejecimiento del modelo y un reflejo veloz de recomendaciones sin degradación de rendimiento
- CTR +24%
Selección estratégica de modelos
- Se definió la estrategia de modelado óptima para cada store
- Para el store principal se usó DeepFM+Continual, y para las verticales se usaron modelos individuales Two-Tower, con una mejora de 19% en CTR
Resultados finales
- Frente al MAB anterior, Two-Tower mejoró 11.2% y DeepFM 16.1% en CTR
- En producción, el home de Musinsa aplica DeepFM+Continual Learning y las verticales aplican el modelo Two-Tower
Próxima dirección
- Se impulsará la mejora con transición a una arquitectura de serving en tiempo real, introducción de Multi-Task Learning (CTR+GGMV), mejora de la calidad de embeddings y de la estructura de grafo, y diversificación de métricas de desempeño
- El plan es evolucionar desde un enfoque de CTR único hacia un modelo que evalúe también el cumplimiento de diversos objetivos de negocio y la calidad de la experiencia
1 comentarios
Es un buen artículo ~