Cómo mejorar los "sistemas de recomendación" y la "búsqueda" en la era de los LLM

(eugeneyan.com)

22 puntos por GN⁺ 2025-03-20 | 1 comentarios | Compartir por WhatsApp

Los sistemas de recomendación y la búsqueda han evolucionado históricamente inspirados por los modelos de lenguaje
- Word2vec → aprendizaje de embeddings de ítems (búsqueda basada en embeddings)
- GRU, Transformer, BERT → predicción del siguiente ítem recomendado (ranking)
El paradigma actual de los modelos grandes de lenguaje (LLM) también está evolucionando en esa misma dirección
Principales avances
- 1. Arquitecturas de modelos reforzadas con LLM/multimodalidad
- 2. Generación y análisis de datos basados en LLM
- 3. Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA
- 4. Arquitecturas unificadas de búsqueda y recomendación

Arquitecturas de modelos reforzadas con LLM/multimodalidad

Los modelos de recomendación están incorporando modelos de lenguaje (LLM) y contenido multimodal para superar las limitaciones del enfoque tradicional basado en ID
Combinan las fortalezas del modelado de comportamiento con la comprensión de contenido → resuelven problemas de cold start y long tail
1. Semantic IDs (YouTube)
- Usa Semantic ID derivados del contenido en lugar de los ID tradicionales basados en hash
- Introduce un framework de dos etapas:
  1. Codificador de video basado en Transformer → genera embeddings densos de contenido
  2. RQ-VAE (Residual Quantization Variational AutoEncoder) → convierte embeddings en Semantic ID enteros
- Estructura de RQ-VAE:
  - Espacio latente de 256 dimensiones, 8 niveles de cuantización, 2048 entradas de codebook por nivel
  - Genera embeddings de 2048 dimensiones con un backbone VideoBERT basado en Transformer
- Resultados:
  - Los embeddings densos directos tuvieron menor rendimiento que los ID hash aleatorios
  - Los enfoques basados en N-gram y SPM (SentencePiece Model) mostraron mejor desempeño, especialmente en escenarios de cold start
2. M3CSR (Kuaishou)
- Embeddings de contenido multimodal (visual, texto, audio) → clustering con K-means y conversión a ID entrenables
- Arquitectura de doble torre:
  - Torre del usuario: modelado del comportamiento del usuario
  - Torre del ítem: precálculo e indexación de embeddings de ítems
- Proceso de entrenamiento:
  - Fusión de embeddings de ResNet (visual), Sentence-BERT (texto) y VGGish (audio) → clustering con K-means (~1000 clústeres)
  - Mapeo de ID de clúster a embeddings entrenables
- Resultados:
  - En pruebas A/B, mejoras de +3.4% en clics, +3.0% en likes y +3.1% en follows
  - En escenarios de cold start, +1.2% en velocidad y +3.6% en cobertura
3. FLIP (Huawei)
- Alineación entre modelos de recomendación basados en ID y LLM
- Aprende simultáneamente a partir de texto enmascarado y datos tabulares → realiza alineación multimodal
- Etapas de entrenamiento:
  - 1. Transformación modal: conversión de datos tabulares a texto
  - 2. Preentrenamiento de alineación modal: reconstrucción de texto enmascarado e ID
  - 3. Ajuste fino adaptativo: optimización de pesos de ambos modelos para predicción de clics
- Resultados:
  - Superó a los modelos basados en ID, en LLM y combinados ID + LLM
  - El nivel de enmascaramiento y la alineación multimodal fueron claves para mejorar el rendimiento
4. beeFormer
- Entrenamiento de un modelo Transformer basado en información textual y datos de interacción usuario-ítem
- Usa un decodificador basado en ELSA (Scalable Linear Shallow Autoencoder) → refuerza el aprendizaje de patrones de interacción
- Proceso de entrenamiento:
  - Generación de embeddings con Transformer → aprendizaje de patrones de comportamiento del usuario mediante ELSA
  - Uso de gradient checkpointing, escalado del tamaño de batch y muestreo negativo para optimizar el entrenamiento en catálogos grandes
- Resultados:
  - Superó a modelos existentes como mpnet-base-v2 y bge-m3
  - Se observaron mejoras en aprendizaje por transferencia entre dominios
5. CALRec (Google)
- Modela la interacción usuario-ítem con prompts basados en texto
- Ajuste fino en dos etapas sobre un modelo basado en PaLM-2 XXS
- Etapas de entrenamiento:
  - 1. Aprendizaje multiclase/categoría: aprendizaje de patrones generales de recomendación
  - 2. Aprendizaje de categoría específica: aprendizaje de patrones especializados por categoría de ítem
- Resultados:
  - Superó a modelos basados en ID y en texto en Amazon Review Dataset
  - El aprendizaje multiclase/categoría y el aprendizaje contrastivo contribuyeron a la mejora
6. EmbSum (Meta)
- Genera resúmenes de intereses del usuario y resúmenes de ítems candidatos
- Usa modelos T5-small y Mixtral-8x22B-Instruct
- Componentes:
  - User Poly-Embeddings (UPE) → embeddings de intereses del usuario
  - Content Poly-Embeddings (CPE) → embeddings de ítems
  - Generación de resúmenes → inyección en el codificador → generación de la recomendación final
- Resultados:
  - Superó a modelos de recomendación basados en contenido
  - La agrupación por sesiones y la pérdida de resumen jugaron un papel importante en el rendimiento

Generación y análisis de datos basados en LLM

Los LLM se usan para resolver problemas de escasez de datos y mejorar la calidad de los datos en sistemas de recomendación y búsqueda
Principales casos de uso:
- Bing → generación de metadatos de páginas web y mejora de predicción de clics
- Indeed → filtrado de emparejamientos laborales de baja calidad
- Yelp → comprensión de consultas de búsqueda y mejora de destacados de reseñas
- Spotify → generación de consultas de búsqueda exploratoria
- Amazon → mejora de metadatos de playlists y del rendimiento de búsqueda
1. Recommendation Quality Improvement (Bing)
- Uso de GPT-4 para generar títulos y resúmenes de alta calidad a partir de páginas web
- Ajuste fino de un modelo Mistral-7B con metadatos generados a partir de aproximadamente 2 millones de páginas web
- Entrenamiento de un cross-encoder basado en MiniLM para combinar predicción de clics y puntajes de calidad
- Resultados:
  - 31% menos contenido clickbait, 76% menos contenido duplicado
  - 18% más contenido autoritativo y 48% más recomendaciones cross-media
2. Expected Bad Match (Indeed)
- Ajuste fino de GPT-3.5 con datos de revisión humana para construir un modelo de filtrado de emparejamientos laborales de baja calidad (eBadMatch)
- Mantiene rendimiento de nivel GPT-4 con mejoras en costo y velocidad
- El modelo final de filtrado redujo en 17.68% los correos de invitación a coincidencias, bajó la tasa de cancelación de suscripción en 4.97% y aumentó la tasa de postulación en 4.13%
- Resultados:
  - Rendimiento AUC-ROC del modelo de filtrado: 0.86
3. Query Understanding (Yelp)
- Uso de LLM para mejorar la segmentación de consultas de búsqueda y los destacados de reseñas
- Segmentación de consultas:
  - Distingue tema, nombre, tiempo, lugar, etc., y añade etiquetas semánticas
  - Aplica técnicas de RAG (Retrieval-Augmented Generation) para reforzar la comprensión contextual de consultas
- Destacados de reseñas:
  - Usa LLM para generar destacados → escalado masivo mediante llamadas batch de OpenAI
- Resultados:
  - Mejora en sesiones de búsqueda y tasa de clics
  - Mejor desempeño incluso en consultas long tail
4. Query Recommendations (Spotify)
- Spotify introdujo recomendaciones de consultas de búsqueda exploratoria además de los resultados de búsqueda directos
- Métodos de generación de consultas:
  - Extracción desde títulos de catálogo, playlists y podcasts
  - Incorporación de búsquedas recientes de usuarios desde logs de búsqueda
  - Aplicación de técnicas de generación de texto con LLM (Doc2query, InPars, etc.)
- Ranking de recomendaciones de consultas con embeddings vectoriales personalizados
- Resultados:
  - Aumento de +9% en la proporción de consultas exploratorias
  - Aumento de +30% en la longitud máxima de consulta y +10% en la longitud promedio
5. Playlist Search (Amazon)
- Uso de LLM para generar y enriquecer metadatos de playlists comunitarias
- Ajuste fino de Flan-T5-XL para mejorar la eficiencia de generación de datos
- Entrenamiento de un modelo de codificador bidireccional con consultas generadas por LLM y datos de matching entre consultas y playlists
- Resultados:
  - Mejora de dos dígitos en recall de resultados de búsqueda
  - Mejora del desempeño SEO y de parafraseo

Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA

Scaling Laws
- Investigación que analiza el impacto del tamaño del modelo y la cantidad de datos sobre el rendimiento
- Uso de arquitectura Transformer decoder-only (rango de 98.3K a 0.8B parámetros)
- Evaluación sobre los datasets MovieLens-20M y Amazon-2018
- Predicción del siguiente ítem usando secuencias de 50 ítems de longitud fija
- Técnicas principales:
  - Dropout adaptativo por capa → más dropout en capas bajas y menos en capas altas
  - Cambio de Adam a SGD → entrenamiento inicial con Adam y posterior cambio a SGD para mejorar convergencia
- Resultados:
  - A mayor tamaño del modelo, menor pérdida de entropía cruzada
  - Los modelos pequeños requieren más datos, mientras que los grandes logran buen rendimiento con menos datos
  - Los modelos de 75.5M y 98.3K mejoraron entre 2 y 5 épocas
PrepRec
- Aplicación de preentrenamiento en sistemas de recomendación → permite aprendizaje por transferencia entre dominios
- Puede entrenarse solo con cambios dinámicos en la popularidad de ítems sin metadatos de ítems
- Usa intervalos de tiempo relativos entre interacciones de usuario y codificación posicional
- Resultados:
  - En recomendación zero-shot, el recall@10 cayó entre 2% y 6%, pero tras entrenamiento el rendimiento fue similar
  - Después de entrenar en el dominio objetivo, alcanzó un nivel comparable a SasREC y BERT4Rec
E-CDCTR (Meituan)
- Aplicación de aprendizaje por transferencia en un modelo de predicción de clics publicitarios
- Uso de una estructura de aprendizaje en 3 etapas: TPM → CPM → A-CTR
  - TPM → aprendizaje de embeddings de usuario e ítem
  - CPM → preentrenamiento con datos orgánicos recientes
  - A-CTR → ajuste fino con datos publicitarios
- Resultados:
  - CPM tuvo el mayor impacto en rendimiento → permite aprender señales de filtrado colaborativo de largo plazo
  - Uso de embeddings de los 3 meses anteriores mejoró el desempeño
Bridging the Gap (YouTube)
- Recomendación personalizada de video a gran escala mediante destilación de conocimiento
- Uso de una arquitectura maestro-estudiante (el modelo maestro es de 2 a 4 veces más grande que el estudiante)
- Uso de una estrategia de destilación auxiliar en lugar de predicción directa → resuelve problemas de cambio de distribución
- Resultados:
  - La estrategia de destilación auxiliar mejoró el rendimiento en 0.4%
  - Se lograron mejoras de +0.42% con un maestro 2x más grande y +0.43% con uno 4x más grande
Self-Auxiliary Distillation (Google)
- Mejora de la eficiencia muestral en modelos de recomendación a gran escala
- Estructura de rama bidireccional → aprendizaje combinado con etiquetas del maestro y etiquetas originales
- Las etiquetas negativas se tratan como valores CTR estimados en vez de 0
- Resultados:
  - Mejoras consistentes en varios dominios
  - Mayor estabilidad de entrenamiento y mejor precisión en la salida del modelo
DLLM2Rec
- Destila el conocimiento de recomendación de modelos grandes de lenguaje hacia modelos ligeros
- Uso de destilación de ranking basada en importancia y destilación de embeddings colaborativos
  - Destilación de ranking basada en importancia → aplica pesos al orden de ítems y su consistencia
  - Destilación de embeddings colaborativos → corrige la diferencia de embeddings entre maestro y estudiante
- Resultados:
  - Mejora promedio de 47.97% en modelos GRU4Rec, SASRec y DROS
  - El tiempo de inferencia se redujo de 3~6 horas → 1.6~1.8 segundos del modelo maestro
MLoRA (Alibaba)
- Aplicación de LoRA por dominio (Low-Rank Adaptation) en predicción de CTR
- Preentrenamiento de un backbone común y ajuste fino con LoRA específico por dominio
- Configuración dinámica del rango LoRA por capa
- Resultados:
  - Mejora de +0.5% en AUC
  - CTR +1.49%, tasa de conversión +3.37%, compradores de pago +2.71%
Taming One-Epoch (Pinterest)
- Soluciona el problema de sobreajuste en una sola época
- Separa fases de entrenamiento con aprendizaje contrastivo
  - Primera etapa → aprendizaje de embeddings
  - Segunda etapa → ajuste fino
- Resultados:
  - Mejor rendimiento que la pérdida BCE tradicional
  - Home feed +1.32%, pines relacionados +2.18%
Sliding Window Training (Netflix)
- Introduce entrenamiento con ventana deslizante para aprender historiales largos de usuarios sin carga excesiva de memoria
- Selecciona distintos segmentos del historial del usuario en cada época de entrenamiento
- Mantiene equilibrio entre las 100 interacciones más recientes y las de largo plazo
- Resultados:
  - Mejora consistente frente a modelos que usan solo interacciones recientes
  - Mean Average Precision (MAP) +1.5%, recall +7.01%

Arquitecturas unificadas de búsqueda y recomendación

Bridging Search & Recommendations (Spotify)
- Entrenamiento conjunto de datos de búsqueda y recomendación en un solo modelo generativo
- Basado en Flan-T5-base, convierte IDs de ítems en tokens para el entrenamiento
- Modelo generativo de recomendación: predice el siguiente ítem a partir de interacciones del usuario
- Modelo generativo de búsqueda: predice IDs de ítems a partir de consultas de texto
- Resultados:
  - Mejora promedio de 16% frente a modelos de tarea única (según recall@30)
  - En dataset de podcasts, mejora de +855% en búsqueda y +262% en recomendación
  - Aún no alcanza el rendimiento de modelos tradicionales de búsqueda y recomendación (BM25, SASRec, etc.)
360Brew (LinkedIn)
- Un solo modelo de 150B parámetros ejecuta más de 30 tareas de ranking
- Basado en Mixtral-8x22B → continuous pre-training (CPT) → instruction fine-tuning (IFT) → supervised fine-tuning (SFT)
- Introduce una interfaz en lenguaje natural → usa prompt engineering en lugar de feature engineering
- Resultados:
  - Alcanzó un rendimiento igual o superior al de modelos especializados existentes
  - Mejoró en datasets a gran escala (3 veces más grandes)
  - Mejoró el rendimiento en usuarios cold start → superior a modelos previos
UniCoRn (Netflix)
- Maneja tareas de búsqueda y recomendación en un solo modelo
- Usa información contextual como ID de usuario, consulta de búsqueda, país y entidades de origen
- Aprovecha funciones contexto-objetivo y feature crossing
- Resultados:
  - Mejora de +10% en recomendación y +7% en búsqueda
  - Mejoras derivadas de una mayor personalización
  - Confirma la importancia del tipo de tarea y del manejo de valores faltantes
Unified Embeddings (Etsy)
- Integra embeddings basados en Transformer, texto y grafos
- Ajuste fino de T5 para reforzar el matching entre consulta y producto
- Aplicación de hard negative sampling y búsqueda aproximada de vecinos (ANN)
- Resultados:
  - Tasa de conversión +2.63% y tasa de compra en búsqueda orgánica +5.58%
  - Los embeddings de grafos fueron la mayor contribución al rendimiento (+15%)
Embedding Long Tail (Best Buy)
- Resuelve el problema de consultas long-tail
- Usa un modelo BERT interno basado en comportamiento de usuario → codificación de búsqueda y producto
- Refuerzo de datos mediante consultas sintéticas generadas con Llama-13B
- Resultados:
  - Mejora de +3% en tasa de conversión
  - Mejora en matching consulta-producto (+4.67%)
User Behavioral Service (YouTube)
- Separa el modelo de generación de embeddings de usuario del modelo de recomendación
- Genera embeddings de usuario de forma asíncrona → usa caché de alta velocidad
- Si no hay embedding disponible al momento de la solicitud, devuelve valor vacío y actualiza en segundo plano
- Resultados:
  - Escalado del tamaño del modelo de secuencia de usuario → control del aumento de costos (28.7% → 2.8%)
  - Mejora general del rendimiento de recomendación (0.01% ~ 0.40%)
Modern Ranking Platform (Zalando)
- Construcción de un sistema unificado de búsqueda y browsing
- Usa una estructura de generación de candidatos → ranking → capa de política
- Aplica embeddings de cliente basados en Transformer + base de datos vectorial
- Resultados:
  - Mejora general de engagement +15% e ingresos +2.2%
  - Mejora adicional tras introducir embeddings entrenables

Cierre

Aunque los primeros estudios de 2023 (aplicar LLM a recomendación y búsqueda) fueron limitados, los esfuerzos recientes muestran mucho más potencial, especialmente respaldados por resultados de la industria
Esto sugiere que explorar cómo usar LLM para potenciar sistemas de recomendación y de búsqueda tiene beneficios prácticos, y puede aumentar resultados al mismo tiempo que reduce costos y esfuerzo

1 comentarios

GN⁺ 2025-03-24

Opiniones de Hacker News

Hay análisis que indican que las actualizaciones relacionadas con las consultas de búsqueda de Spotify ayudaron a los usuarios a expresar intenciones más complejas
- Sin embargo, es difícil interpretarlo como una mejora, dado que los usuarios tuvieron que buscar más y escribir consultas más largas para obtener la información que querían
Hay muchos equipos que están usando LLM para reforzar las consultas de búsqueda y los índices
- Incluso con modelos pequeños y prompts simples se pueden convertir cadenas de búsqueda en consultas estructuradas
- También es posible clasificar documentos o aprovechar cachés
- No hacer este tipo de trabajo podría ser un error
Resulta interesante que Eugene haya publicado este trabajo justo después de la conferencia
- Tradicionalmente, habría sido un artículo que un estudiante de doctorado tardaría unos 12 meses en publicar
- Queda la duda de si se debe a la capacidad de Eugene o si es una nueva tendencia
Explica por qué la experiencia con Spotify ha empeorado con el tiempo
Empezó a escuchar este artículo con un modelo de texto a voz apenas se levantó por la mañana
- Como tiene mucha jerga técnica, el autor parece muy inteligente, pero no transmite la información de forma efectiva
- Es algo que se ve con frecuencia en artículos académicos, y sus propios trabajos de investigación no son la excepción
- Como no es especialista en ML, quizá no sea el público objetivo
- Tiene curiosidad por saber si otras personas sintieron lo mismo
- Espera que esta opinión no suene demasiado negativa
Variantes de SASRec y Bert4Rec se entrenan con tokens de ID y muestran leyes de escalado similares a las de los LLM
- Se presenta como ejemplo el enfoque de Meta
Cree que combinar sistemas de recomendación y foros ha sido un gran desastre para la sociedad
Se pregunta por qué no existen herramientas de búsqueda basadas en LLM en PC y smartphones
- Sobre todo porque los datos del smartphone se almacenan en la nube, así que en lugar de hacer scraping para anuncios o para el FBI, podrían ofrecer funciones útiles para el usuario
Parece una excelente visión general de los sistemas de recomendación
- El punto principal es que la latencia es el problema central
- El fine-tuning puede traer grandes mejoras y reducir la latencia
- Hay un umbral o cierto tipo de problema que determina si conviene usar prompting o fine-tuning
Resulta interesante que estos artículos no provengan de laboratorios de investigación académica

Cómo mejorar los "sistemas de recomendación" y la "búsqueda" en la era de los LLM

1. Arquitecturas de modelos reforzadas con LLM/multimodalidad

2. Generación y análisis de datos basados en LLM

3. Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA

4. Arquitecturas unificadas de búsqueda y recomendación

Arquitecturas de modelos reforzadas con LLM/multimodalidad

1. Semantic IDs (YouTube)

2. M3CSR (Kuaishou)

3. FLIP (Huawei)

4. beeFormer

5. CALRec (Google)

6. EmbSum (Meta)

Generación y análisis de datos basados en LLM

1. Recommendation Quality Improvement (Bing)

2. Expected Bad Match (Indeed)

3. Query Understanding (Yelp)

4. Query Recommendations (Spotify)

5. Playlist Search (Amazon)

Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA

Scaling Laws

PrepRec

E-CDCTR (Meituan)

Bridging the Gap (YouTube)

Self-Auxiliary Distillation (Google)

DLLM2Rec

MLoRA (Alibaba)

Taming One-Epoch (Pinterest)

Sliding Window Training (Netflix)

Arquitecturas unificadas de búsqueda y recomendación

Bridging Search & Recommendations (Spotify)

360Brew (LinkedIn)

UniCoRn (Netflix)

Unified Embeddings (Etsy)

Embedding Long Tail (Best Buy)

User Behavioral Service (YouTube)

Modern Ranking Platform (Zalando)

Cierre

1 comentarios

Opiniones de Hacker News

Cómo mejorar los "sistemas de recomendación" y la "búsqueda" en la era de los LLM

1. Arquitecturas de modelos reforzadas con LLM/multimodalidad

2. Generación y análisis de datos basados en LLM

3. Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA

4. Arquitecturas unificadas de búsqueda y recomendación

Arquitecturas de modelos reforzadas con LLM/multimodalidad

1. Semantic IDs (YouTube)

2. M3CSR (Kuaishou)

3. FLIP (Huawei)

4. beeFormer

5. CALRec (Google)

6. EmbSum (Meta)

Generación y análisis de datos basados en LLM

1. Recommendation Quality Improvement (Bing)

2. Expected Bad Match (Indeed)

3. Query Understanding (Yelp)

4. Query Recommendations (Spotify)

5. Playlist Search (Amazon)

Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA

Scaling Laws

PrepRec

E-CDCTR (Meituan)

Bridging the Gap (YouTube)

Self-Auxiliary Distillation (Google)

DLLM2Rec

MLoRA (Alibaba)

Taming One-Epoch (Pinterest)

Sliding Window Training (Netflix)

Arquitecturas unificadas de búsqueda y recomendación

Bridging Search & Recommendations (Spotify)

360Brew (LinkedIn)

UniCoRn (Netflix)

Unified Embeddings (Etsy)

Embedding Long Tail (Best Buy)

User Behavioral Service (YouTube)

Modern Ranking Platform (Zalando)

Cierre

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News