- Los sistemas de recomendación y la búsqueda han evolucionado históricamente inspirados por los modelos de lenguaje
- Word2vec → aprendizaje de embeddings de ítems (búsqueda basada en embeddings)
- GRU, Transformer, BERT → predicción del siguiente ítem recomendado (ranking)
- El paradigma actual de los modelos grandes de lenguaje (LLM) también está evolucionando en esa misma dirección
- Principales avances
-
1. Arquitecturas de modelos reforzadas con LLM/multimodalidad
-
2. Generación y análisis de datos basados en LLM
-
3. Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA
-
4. Arquitecturas unificadas de búsqueda y recomendación
Arquitecturas de modelos reforzadas con LLM/multimodalidad
- Los modelos de recomendación están incorporando modelos de lenguaje (LLM) y contenido multimodal para superar las limitaciones del enfoque tradicional basado en ID
- Combinan las fortalezas del modelado de comportamiento con la comprensión de contenido → resuelven problemas de cold start y long tail
-
1. Semantic IDs (YouTube)
- Usa Semantic ID derivados del contenido en lugar de los ID tradicionales basados en hash
- Introduce un framework de dos etapas:
- Codificador de video basado en Transformer → genera embeddings densos de contenido
- RQ-VAE (Residual Quantization Variational AutoEncoder) → convierte embeddings en Semantic ID enteros
- Estructura de RQ-VAE:
- Espacio latente de 256 dimensiones, 8 niveles de cuantización, 2048 entradas de codebook por nivel
- Genera embeddings de 2048 dimensiones con un backbone VideoBERT basado en Transformer
- Resultados:
- Los embeddings densos directos tuvieron menor rendimiento que los ID hash aleatorios
- Los enfoques basados en N-gram y SPM (SentencePiece Model) mostraron mejor desempeño, especialmente en escenarios de cold start
-
2. M3CSR (Kuaishou)
- Embeddings de contenido multimodal (visual, texto, audio) → clustering con K-means y conversión a ID entrenables
- Arquitectura de doble torre:
- Torre del usuario: modelado del comportamiento del usuario
- Torre del ítem: precálculo e indexación de embeddings de ítems
- Proceso de entrenamiento:
- Fusión de embeddings de ResNet (visual), Sentence-BERT (texto) y VGGish (audio) → clustering con K-means (~1000 clústeres)
- Mapeo de ID de clúster a embeddings entrenables
- Resultados:
- En pruebas A/B, mejoras de +3.4% en clics, +3.0% en likes y +3.1% en follows
- En escenarios de cold start, +1.2% en velocidad y +3.6% en cobertura
-
3. FLIP (Huawei)
- Alineación entre modelos de recomendación basados en ID y LLM
- Aprende simultáneamente a partir de texto enmascarado y datos tabulares → realiza alineación multimodal
- Etapas de entrenamiento:
- 1. Transformación modal: conversión de datos tabulares a texto
- 2. Preentrenamiento de alineación modal: reconstrucción de texto enmascarado e ID
- 3. Ajuste fino adaptativo: optimización de pesos de ambos modelos para predicción de clics
- Resultados:
- Superó a los modelos basados en ID, en LLM y combinados ID + LLM
- El nivel de enmascaramiento y la alineación multimodal fueron claves para mejorar el rendimiento
-
4. beeFormer
- Entrenamiento de un modelo Transformer basado en información textual y datos de interacción usuario-ítem
- Usa un decodificador basado en ELSA (Scalable Linear Shallow Autoencoder) → refuerza el aprendizaje de patrones de interacción
- Proceso de entrenamiento:
- Generación de embeddings con Transformer → aprendizaje de patrones de comportamiento del usuario mediante ELSA
- Uso de gradient checkpointing, escalado del tamaño de batch y muestreo negativo para optimizar el entrenamiento en catálogos grandes
- Resultados:
- Superó a modelos existentes como mpnet-base-v2 y bge-m3
- Se observaron mejoras en aprendizaje por transferencia entre dominios
-
5. CALRec (Google)
- Modela la interacción usuario-ítem con prompts basados en texto
- Ajuste fino en dos etapas sobre un modelo basado en PaLM-2 XXS
- Etapas de entrenamiento:
- 1. Aprendizaje multiclase/categoría: aprendizaje de patrones generales de recomendación
- 2. Aprendizaje de categoría específica: aprendizaje de patrones especializados por categoría de ítem
- Resultados:
- Superó a modelos basados en ID y en texto en Amazon Review Dataset
- El aprendizaje multiclase/categoría y el aprendizaje contrastivo contribuyeron a la mejora
-
6. EmbSum (Meta)
- Genera resúmenes de intereses del usuario y resúmenes de ítems candidatos
- Usa modelos T5-small y Mixtral-8x22B-Instruct
- Componentes:
- User Poly-Embeddings (UPE) → embeddings de intereses del usuario
- Content Poly-Embeddings (CPE) → embeddings de ítems
- Generación de resúmenes → inyección en el codificador → generación de la recomendación final
- Resultados:
- Superó a modelos de recomendación basados en contenido
- La agrupación por sesiones y la pérdida de resumen jugaron un papel importante en el rendimiento
Generación y análisis de datos basados en LLM
- Los LLM se usan para resolver problemas de escasez de datos y mejorar la calidad de los datos en sistemas de recomendación y búsqueda
- Principales casos de uso:
- Bing → generación de metadatos de páginas web y mejora de predicción de clics
- Indeed → filtrado de emparejamientos laborales de baja calidad
- Yelp → comprensión de consultas de búsqueda y mejora de destacados de reseñas
- Spotify → generación de consultas de búsqueda exploratoria
- Amazon → mejora de metadatos de playlists y del rendimiento de búsqueda
-
1. Recommendation Quality Improvement (Bing)
- Uso de GPT-4 para generar títulos y resúmenes de alta calidad a partir de páginas web
- Ajuste fino de un modelo Mistral-7B con metadatos generados a partir de aproximadamente 2 millones de páginas web
- Entrenamiento de un cross-encoder basado en MiniLM para combinar predicción de clics y puntajes de calidad
- Resultados:
- 31% menos contenido clickbait, 76% menos contenido duplicado
- 18% más contenido autoritativo y 48% más recomendaciones cross-media
-
2. Expected Bad Match (Indeed)
- Ajuste fino de GPT-3.5 con datos de revisión humana para construir un modelo de filtrado de emparejamientos laborales de baja calidad (eBadMatch)
- Mantiene rendimiento de nivel GPT-4 con mejoras en costo y velocidad
- El modelo final de filtrado redujo en 17.68% los correos de invitación a coincidencias, bajó la tasa de cancelación de suscripción en 4.97% y aumentó la tasa de postulación en 4.13%
- Resultados:
- Rendimiento AUC-ROC del modelo de filtrado: 0.86
-
3. Query Understanding (Yelp)
- Uso de LLM para mejorar la segmentación de consultas de búsqueda y los destacados de reseñas
- Segmentación de consultas:
- Distingue tema, nombre, tiempo, lugar, etc., y añade etiquetas semánticas
- Aplica técnicas de RAG (Retrieval-Augmented Generation) para reforzar la comprensión contextual de consultas
- Destacados de reseñas:
- Usa LLM para generar destacados → escalado masivo mediante llamadas batch de OpenAI
- Resultados:
- Mejora en sesiones de búsqueda y tasa de clics
- Mejor desempeño incluso en consultas long tail
-
4. Query Recommendations (Spotify)
- Spotify introdujo recomendaciones de consultas de búsqueda exploratoria además de los resultados de búsqueda directos
- Métodos de generación de consultas:
- Extracción desde títulos de catálogo, playlists y podcasts
- Incorporación de búsquedas recientes de usuarios desde logs de búsqueda
- Aplicación de técnicas de generación de texto con LLM (Doc2query, InPars, etc.)
- Ranking de recomendaciones de consultas con embeddings vectoriales personalizados
- Resultados:
- Aumento de +9% en la proporción de consultas exploratorias
- Aumento de +30% en la longitud máxima de consulta y +10% en la longitud promedio
-
5. Playlist Search (Amazon)
- Uso de LLM para generar y enriquecer metadatos de playlists comunitarias
- Ajuste fino de Flan-T5-XL para mejorar la eficiencia de generación de datos
- Entrenamiento de un modelo de codificador bidireccional con consultas generadas por LLM y datos de matching entre consultas y playlists
- Resultados:
- Mejora de dos dígitos en recall de resultados de búsqueda
- Mejora del desempeño SEO y de parafraseo
Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA
-
Scaling Laws
- Investigación que analiza el impacto del tamaño del modelo y la cantidad de datos sobre el rendimiento
- Uso de arquitectura Transformer decoder-only (rango de 98.3K a 0.8B parámetros)
- Evaluación sobre los datasets MovieLens-20M y Amazon-2018
- Predicción del siguiente ítem usando secuencias de 50 ítems de longitud fija
- Técnicas principales:
- Dropout adaptativo por capa → más dropout en capas bajas y menos en capas altas
- Cambio de Adam a SGD → entrenamiento inicial con Adam y posterior cambio a SGD para mejorar convergencia
- Resultados:
- A mayor tamaño del modelo, menor pérdida de entropía cruzada
- Los modelos pequeños requieren más datos, mientras que los grandes logran buen rendimiento con menos datos
- Los modelos de 75.5M y 98.3K mejoraron entre 2 y 5 épocas
-
PrepRec
- Aplicación de preentrenamiento en sistemas de recomendación → permite aprendizaje por transferencia entre dominios
- Puede entrenarse solo con cambios dinámicos en la popularidad de ítems sin metadatos de ítems
- Usa intervalos de tiempo relativos entre interacciones de usuario y codificación posicional
- Resultados:
- En recomendación zero-shot, el recall@10 cayó entre 2% y 6%, pero tras entrenamiento el rendimiento fue similar
- Después de entrenar en el dominio objetivo, alcanzó un nivel comparable a SasREC y BERT4Rec
-
E-CDCTR (Meituan)
- Aplicación de aprendizaje por transferencia en un modelo de predicción de clics publicitarios
- Uso de una estructura de aprendizaje en 3 etapas: TPM → CPM → A-CTR
- TPM → aprendizaje de embeddings de usuario e ítem
- CPM → preentrenamiento con datos orgánicos recientes
- A-CTR → ajuste fino con datos publicitarios
- Resultados:
- CPM tuvo el mayor impacto en rendimiento → permite aprender señales de filtrado colaborativo de largo plazo
- Uso de embeddings de los 3 meses anteriores mejoró el desempeño
-
Bridging the Gap (YouTube)
- Recomendación personalizada de video a gran escala mediante destilación de conocimiento
- Uso de una arquitectura maestro-estudiante (el modelo maestro es de 2 a 4 veces más grande que el estudiante)
- Uso de una estrategia de destilación auxiliar en lugar de predicción directa → resuelve problemas de cambio de distribución
- Resultados:
- La estrategia de destilación auxiliar mejoró el rendimiento en 0.4%
- Se lograron mejoras de +0.42% con un maestro 2x más grande y +0.43% con uno 4x más grande
-
Self-Auxiliary Distillation (Google)
- Mejora de la eficiencia muestral en modelos de recomendación a gran escala
- Estructura de rama bidireccional → aprendizaje combinado con etiquetas del maestro y etiquetas originales
- Las etiquetas negativas se tratan como valores CTR estimados en vez de 0
- Resultados:
- Mejoras consistentes en varios dominios
- Mayor estabilidad de entrenamiento y mejor precisión en la salida del modelo
-
DLLM2Rec
- Destila el conocimiento de recomendación de modelos grandes de lenguaje hacia modelos ligeros
- Uso de destilación de ranking basada en importancia y destilación de embeddings colaborativos
- Destilación de ranking basada en importancia → aplica pesos al orden de ítems y su consistencia
- Destilación de embeddings colaborativos → corrige la diferencia de embeddings entre maestro y estudiante
- Resultados:
- Mejora promedio de 47.97% en modelos GRU4Rec, SASRec y DROS
- El tiempo de inferencia se redujo de 3~6 horas → 1.6~1.8 segundos del modelo maestro
-
MLoRA (Alibaba)
- Aplicación de LoRA por dominio (Low-Rank Adaptation) en predicción de CTR
- Preentrenamiento de un backbone común y ajuste fino con LoRA específico por dominio
- Configuración dinámica del rango LoRA por capa
- Resultados:
- Mejora de +0.5% en AUC
- CTR +1.49%, tasa de conversión +3.37%, compradores de pago +2.71%
-
Taming One-Epoch (Pinterest)
- Soluciona el problema de sobreajuste en una sola época
- Separa fases de entrenamiento con aprendizaje contrastivo
- Primera etapa → aprendizaje de embeddings
- Segunda etapa → ajuste fino
- Resultados:
- Mejor rendimiento que la pérdida BCE tradicional
- Home feed +1.32%, pines relacionados +2.18%
-
Sliding Window Training (Netflix)
- Introduce entrenamiento con ventana deslizante para aprender historiales largos de usuarios sin carga excesiva de memoria
- Selecciona distintos segmentos del historial del usuario en cada época de entrenamiento
- Mantiene equilibrio entre las 100 interacciones más recientes y las de largo plazo
- Resultados:
- Mejora consistente frente a modelos que usan solo interacciones recientes
- Mean Average Precision (MAP) +1.5%, recall +7.01%
Arquitecturas unificadas de búsqueda y recomendación
-
Bridging Search & Recommendations (Spotify)
- Entrenamiento conjunto de datos de búsqueda y recomendación en un solo modelo generativo
- Basado en Flan-T5-base, convierte IDs de ítems en tokens para el entrenamiento
- Modelo generativo de recomendación: predice el siguiente ítem a partir de interacciones del usuario
- Modelo generativo de búsqueda: predice IDs de ítems a partir de consultas de texto
- Resultados:
- Mejora promedio de 16% frente a modelos de tarea única (según recall@30)
- En dataset de podcasts, mejora de +855% en búsqueda y +262% en recomendación
- Aún no alcanza el rendimiento de modelos tradicionales de búsqueda y recomendación (BM25, SASRec, etc.)
-
360Brew (LinkedIn)
- Un solo modelo de 150B parámetros ejecuta más de 30 tareas de ranking
- Basado en Mixtral-8x22B → continuous pre-training (CPT) → instruction fine-tuning (IFT) → supervised fine-tuning (SFT)
- Introduce una interfaz en lenguaje natural → usa prompt engineering en lugar de feature engineering
- Resultados:
- Alcanzó un rendimiento igual o superior al de modelos especializados existentes
- Mejoró en datasets a gran escala (3 veces más grandes)
- Mejoró el rendimiento en usuarios cold start → superior a modelos previos
-
UniCoRn (Netflix)
- Maneja tareas de búsqueda y recomendación en un solo modelo
- Usa información contextual como ID de usuario, consulta de búsqueda, país y entidades de origen
- Aprovecha funciones contexto-objetivo y feature crossing
- Resultados:
- Mejora de +10% en recomendación y +7% en búsqueda
- Mejoras derivadas de una mayor personalización
- Confirma la importancia del tipo de tarea y del manejo de valores faltantes
-
Unified Embeddings (Etsy)
- Integra embeddings basados en Transformer, texto y grafos
- Ajuste fino de T5 para reforzar el matching entre consulta y producto
- Aplicación de hard negative sampling y búsqueda aproximada de vecinos (ANN)
- Resultados:
- Tasa de conversión +2.63% y tasa de compra en búsqueda orgánica +5.58%
- Los embeddings de grafos fueron la mayor contribución al rendimiento (+15%)
-
Embedding Long Tail (Best Buy)
- Resuelve el problema de consultas long-tail
- Usa un modelo BERT interno basado en comportamiento de usuario → codificación de búsqueda y producto
- Refuerzo de datos mediante consultas sintéticas generadas con Llama-13B
- Resultados:
- Mejora de +3% en tasa de conversión
- Mejora en matching consulta-producto (+4.67%)
-
User Behavioral Service (YouTube)
- Separa el modelo de generación de embeddings de usuario del modelo de recomendación
- Genera embeddings de usuario de forma asíncrona → usa caché de alta velocidad
- Si no hay embedding disponible al momento de la solicitud, devuelve valor vacío y actualiza en segundo plano
- Resultados:
- Escalado del tamaño del modelo de secuencia de usuario → control del aumento de costos (28.7% → 2.8%)
- Mejora general del rendimiento de recomendación (0.01% ~ 0.40%)
-
Modern Ranking Platform (Zalando)
- Construcción de un sistema unificado de búsqueda y browsing
- Usa una estructura de generación de candidatos → ranking → capa de política
- Aplica embeddings de cliente basados en Transformer + base de datos vectorial
- Resultados:
- Mejora general de engagement +15% e ingresos +2.2%
- Mejora adicional tras introducir embeddings entrenables
Cierre
- Aunque los primeros estudios de 2023 (aplicar LLM a recomendación y búsqueda) fueron limitados, los esfuerzos recientes muestran mucho más potencial, especialmente respaldados por resultados de la industria
- Esto sugiere que explorar cómo usar LLM para potenciar sistemas de recomendación y de búsqueda tiene beneficios prácticos, y puede aumentar resultados al mismo tiempo que reduce costos y esfuerzo
1 comentarios
Opiniones de Hacker News
Hay análisis que indican que las actualizaciones relacionadas con las consultas de búsqueda de Spotify ayudaron a los usuarios a expresar intenciones más complejas
Hay muchos equipos que están usando LLM para reforzar las consultas de búsqueda y los índices
Resulta interesante que Eugene haya publicado este trabajo justo después de la conferencia
Explica por qué la experiencia con Spotify ha empeorado con el tiempo
Empezó a escuchar este artículo con un modelo de texto a voz apenas se levantó por la mañana
Variantes de SASRec y Bert4Rec se entrenan con tokens de ID y muestran leyes de escalado similares a las de los LLM
Cree que combinar sistemas de recomendación y foros ha sido un gran desastre para la sociedad
Se pregunta por qué no existen herramientas de búsqueda basadas en LLM en PC y smartphones
Parece una excelente visión general de los sistemas de recomendación
Resulta interesante que estos artículos no provengan de laboratorios de investigación académica