22 puntos por GN⁺ 2025-03-20 | 1 comentarios | Compartir por WhatsApp
  • Los sistemas de recomendación y la búsqueda han evolucionado históricamente inspirados por los modelos de lenguaje
    • Word2vec → aprendizaje de embeddings de ítems (búsqueda basada en embeddings)
    • GRU, Transformer, BERT → predicción del siguiente ítem recomendado (ranking)
  • El paradigma actual de los modelos grandes de lenguaje (LLM) también está evolucionando en esa misma dirección
  • Principales avances
    • 1. Arquitecturas de modelos reforzadas con LLM/multimodalidad

    • 2. Generación y análisis de datos basados en LLM

    • 3. Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA

    • 4. Arquitecturas unificadas de búsqueda y recomendación

Arquitecturas de modelos reforzadas con LLM/multimodalidad

  • Los modelos de recomendación están incorporando modelos de lenguaje (LLM) y contenido multimodal para superar las limitaciones del enfoque tradicional basado en ID
  • Combinan las fortalezas del modelado de comportamiento con la comprensión de contenido → resuelven problemas de cold start y long tail
  • 1. Semantic IDs (YouTube)

    • Usa Semantic ID derivados del contenido en lugar de los ID tradicionales basados en hash
    • Introduce un framework de dos etapas:
      1. Codificador de video basado en Transformer → genera embeddings densos de contenido
      2. RQ-VAE (Residual Quantization Variational AutoEncoder) → convierte embeddings en Semantic ID enteros
    • Estructura de RQ-VAE:
      • Espacio latente de 256 dimensiones, 8 niveles de cuantización, 2048 entradas de codebook por nivel
      • Genera embeddings de 2048 dimensiones con un backbone VideoBERT basado en Transformer
    • Resultados:
      • Los embeddings densos directos tuvieron menor rendimiento que los ID hash aleatorios
      • Los enfoques basados en N-gram y SPM (SentencePiece Model) mostraron mejor desempeño, especialmente en escenarios de cold start
  • 2. M3CSR (Kuaishou)

    • Embeddings de contenido multimodal (visual, texto, audio) → clustering con K-means y conversión a ID entrenables
    • Arquitectura de doble torre:
      • Torre del usuario: modelado del comportamiento del usuario
      • Torre del ítem: precálculo e indexación de embeddings de ítems
    • Proceso de entrenamiento:
      • Fusión de embeddings de ResNet (visual), Sentence-BERT (texto) y VGGish (audio) → clustering con K-means (~1000 clústeres)
      • Mapeo de ID de clúster a embeddings entrenables
    • Resultados:
      • En pruebas A/B, mejoras de +3.4% en clics, +3.0% en likes y +3.1% en follows
      • En escenarios de cold start, +1.2% en velocidad y +3.6% en cobertura
  • 3. FLIP (Huawei)

    • Alineación entre modelos de recomendación basados en ID y LLM
    • Aprende simultáneamente a partir de texto enmascarado y datos tabulares → realiza alineación multimodal
    • Etapas de entrenamiento:
      • 1. Transformación modal: conversión de datos tabulares a texto
      • 2. Preentrenamiento de alineación modal: reconstrucción de texto enmascarado e ID
      • 3. Ajuste fino adaptativo: optimización de pesos de ambos modelos para predicción de clics
    • Resultados:
      • Superó a los modelos basados en ID, en LLM y combinados ID + LLM
      • El nivel de enmascaramiento y la alineación multimodal fueron claves para mejorar el rendimiento
  • 4. beeFormer

    • Entrenamiento de un modelo Transformer basado en información textual y datos de interacción usuario-ítem
    • Usa un decodificador basado en ELSA (Scalable Linear Shallow Autoencoder) → refuerza el aprendizaje de patrones de interacción
    • Proceso de entrenamiento:
      • Generación de embeddings con Transformer → aprendizaje de patrones de comportamiento del usuario mediante ELSA
      • Uso de gradient checkpointing, escalado del tamaño de batch y muestreo negativo para optimizar el entrenamiento en catálogos grandes
    • Resultados:
      • Superó a modelos existentes como mpnet-base-v2 y bge-m3
      • Se observaron mejoras en aprendizaje por transferencia entre dominios
  • 5. CALRec (Google)

    • Modela la interacción usuario-ítem con prompts basados en texto
    • Ajuste fino en dos etapas sobre un modelo basado en PaLM-2 XXS
    • Etapas de entrenamiento:
      • 1. Aprendizaje multiclase/categoría: aprendizaje de patrones generales de recomendación
      • 2. Aprendizaje de categoría específica: aprendizaje de patrones especializados por categoría de ítem
    • Resultados:
      • Superó a modelos basados en ID y en texto en Amazon Review Dataset
      • El aprendizaje multiclase/categoría y el aprendizaje contrastivo contribuyeron a la mejora
  • 6. EmbSum (Meta)

    • Genera resúmenes de intereses del usuario y resúmenes de ítems candidatos
    • Usa modelos T5-small y Mixtral-8x22B-Instruct
    • Componentes:
      • User Poly-Embeddings (UPE) → embeddings de intereses del usuario
      • Content Poly-Embeddings (CPE) → embeddings de ítems
      • Generación de resúmenes → inyección en el codificador → generación de la recomendación final
    • Resultados:
      • Superó a modelos de recomendación basados en contenido
      • La agrupación por sesiones y la pérdida de resumen jugaron un papel importante en el rendimiento

Generación y análisis de datos basados en LLM

  • Los LLM se usan para resolver problemas de escasez de datos y mejorar la calidad de los datos en sistemas de recomendación y búsqueda
  • Principales casos de uso:
    • Bing → generación de metadatos de páginas web y mejora de predicción de clics
    • Indeed → filtrado de emparejamientos laborales de baja calidad
    • Yelp → comprensión de consultas de búsqueda y mejora de destacados de reseñas
    • Spotify → generación de consultas de búsqueda exploratoria
    • Amazon → mejora de metadatos de playlists y del rendimiento de búsqueda
  • 1. Recommendation Quality Improvement (Bing)

    • Uso de GPT-4 para generar títulos y resúmenes de alta calidad a partir de páginas web
    • Ajuste fino de un modelo Mistral-7B con metadatos generados a partir de aproximadamente 2 millones de páginas web
    • Entrenamiento de un cross-encoder basado en MiniLM para combinar predicción de clics y puntajes de calidad
    • Resultados:
      • 31% menos contenido clickbait, 76% menos contenido duplicado
      • 18% más contenido autoritativo y 48% más recomendaciones cross-media
  • 2. Expected Bad Match (Indeed)

    • Ajuste fino de GPT-3.5 con datos de revisión humana para construir un modelo de filtrado de emparejamientos laborales de baja calidad (eBadMatch)
    • Mantiene rendimiento de nivel GPT-4 con mejoras en costo y velocidad
    • El modelo final de filtrado redujo en 17.68% los correos de invitación a coincidencias, bajó la tasa de cancelación de suscripción en 4.97% y aumentó la tasa de postulación en 4.13%
    • Resultados:
      • Rendimiento AUC-ROC del modelo de filtrado: 0.86
  • 3. Query Understanding (Yelp)

    • Uso de LLM para mejorar la segmentación de consultas de búsqueda y los destacados de reseñas
    • Segmentación de consultas:
      • Distingue tema, nombre, tiempo, lugar, etc., y añade etiquetas semánticas
      • Aplica técnicas de RAG (Retrieval-Augmented Generation) para reforzar la comprensión contextual de consultas
    • Destacados de reseñas:
      • Usa LLM para generar destacados → escalado masivo mediante llamadas batch de OpenAI
    • Resultados:
      • Mejora en sesiones de búsqueda y tasa de clics
      • Mejor desempeño incluso en consultas long tail
  • 4. Query Recommendations (Spotify)

    • Spotify introdujo recomendaciones de consultas de búsqueda exploratoria además de los resultados de búsqueda directos
    • Métodos de generación de consultas:
      • Extracción desde títulos de catálogo, playlists y podcasts
      • Incorporación de búsquedas recientes de usuarios desde logs de búsqueda
      • Aplicación de técnicas de generación de texto con LLM (Doc2query, InPars, etc.)
    • Ranking de recomendaciones de consultas con embeddings vectoriales personalizados
    • Resultados:
      • Aumento de +9% en la proporción de consultas exploratorias
      • Aumento de +30% en la longitud máxima de consulta y +10% en la longitud promedio
  • 5. Playlist Search (Amazon)

    • Uso de LLM para generar y enriquecer metadatos de playlists comunitarias
    • Ajuste fino de Flan-T5-XL para mejorar la eficiencia de generación de datos
    • Entrenamiento de un modelo de codificador bidireccional con consultas generadas por LLM y datos de matching entre consultas y playlists
    • Resultados:
      • Mejora de dos dígitos en recall de resultados de búsqueda
      • Mejora del desempeño SEO y de parafraseo

Scaling Laws, aprendizaje por transferencia, destilación de conocimiento, LoRA

  • Scaling Laws

    • Investigación que analiza el impacto del tamaño del modelo y la cantidad de datos sobre el rendimiento
    • Uso de arquitectura Transformer decoder-only (rango de 98.3K a 0.8B parámetros)
    • Evaluación sobre los datasets MovieLens-20M y Amazon-2018
    • Predicción del siguiente ítem usando secuencias de 50 ítems de longitud fija
    • Técnicas principales:
      • Dropout adaptativo por capa → más dropout en capas bajas y menos en capas altas
      • Cambio de Adam a SGD → entrenamiento inicial con Adam y posterior cambio a SGD para mejorar convergencia
    • Resultados:
      • A mayor tamaño del modelo, menor pérdida de entropía cruzada
      • Los modelos pequeños requieren más datos, mientras que los grandes logran buen rendimiento con menos datos
      • Los modelos de 75.5M y 98.3K mejoraron entre 2 y 5 épocas
  • PrepRec

    • Aplicación de preentrenamiento en sistemas de recomendación → permite aprendizaje por transferencia entre dominios
    • Puede entrenarse solo con cambios dinámicos en la popularidad de ítems sin metadatos de ítems
    • Usa intervalos de tiempo relativos entre interacciones de usuario y codificación posicional
    • Resultados:
      • En recomendación zero-shot, el recall@10 cayó entre 2% y 6%, pero tras entrenamiento el rendimiento fue similar
      • Después de entrenar en el dominio objetivo, alcanzó un nivel comparable a SasREC y BERT4Rec
  • E-CDCTR (Meituan)

    • Aplicación de aprendizaje por transferencia en un modelo de predicción de clics publicitarios
    • Uso de una estructura de aprendizaje en 3 etapas: TPM → CPM → A-CTR
      • TPM → aprendizaje de embeddings de usuario e ítem
      • CPM → preentrenamiento con datos orgánicos recientes
      • A-CTR → ajuste fino con datos publicitarios
    • Resultados:
      • CPM tuvo el mayor impacto en rendimiento → permite aprender señales de filtrado colaborativo de largo plazo
      • Uso de embeddings de los 3 meses anteriores mejoró el desempeño
  • Bridging the Gap (YouTube)

    • Recomendación personalizada de video a gran escala mediante destilación de conocimiento
    • Uso de una arquitectura maestro-estudiante (el modelo maestro es de 2 a 4 veces más grande que el estudiante)
    • Uso de una estrategia de destilación auxiliar en lugar de predicción directa → resuelve problemas de cambio de distribución
    • Resultados:
      • La estrategia de destilación auxiliar mejoró el rendimiento en 0.4%
      • Se lograron mejoras de +0.42% con un maestro 2x más grande y +0.43% con uno 4x más grande
  • Self-Auxiliary Distillation (Google)

    • Mejora de la eficiencia muestral en modelos de recomendación a gran escala
    • Estructura de rama bidireccional → aprendizaje combinado con etiquetas del maestro y etiquetas originales
    • Las etiquetas negativas se tratan como valores CTR estimados en vez de 0
    • Resultados:
      • Mejoras consistentes en varios dominios
      • Mayor estabilidad de entrenamiento y mejor precisión en la salida del modelo
  • DLLM2Rec

    • Destila el conocimiento de recomendación de modelos grandes de lenguaje hacia modelos ligeros
    • Uso de destilación de ranking basada en importancia y destilación de embeddings colaborativos
      • Destilación de ranking basada en importancia → aplica pesos al orden de ítems y su consistencia
      • Destilación de embeddings colaborativos → corrige la diferencia de embeddings entre maestro y estudiante
    • Resultados:
      • Mejora promedio de 47.97% en modelos GRU4Rec, SASRec y DROS
      • El tiempo de inferencia se redujo de 3~6 horas → 1.6~1.8 segundos del modelo maestro
  • MLoRA (Alibaba)

    • Aplicación de LoRA por dominio (Low-Rank Adaptation) en predicción de CTR
    • Preentrenamiento de un backbone común y ajuste fino con LoRA específico por dominio
    • Configuración dinámica del rango LoRA por capa
    • Resultados:
      • Mejora de +0.5% en AUC
      • CTR +1.49%, tasa de conversión +3.37%, compradores de pago +2.71%
  • Taming One-Epoch (Pinterest)

    • Soluciona el problema de sobreajuste en una sola época
    • Separa fases de entrenamiento con aprendizaje contrastivo
      • Primera etapa → aprendizaje de embeddings
      • Segunda etapa → ajuste fino
    • Resultados:
      • Mejor rendimiento que la pérdida BCE tradicional
      • Home feed +1.32%, pines relacionados +2.18%
  • Sliding Window Training (Netflix)

    • Introduce entrenamiento con ventana deslizante para aprender historiales largos de usuarios sin carga excesiva de memoria
    • Selecciona distintos segmentos del historial del usuario en cada época de entrenamiento
    • Mantiene equilibrio entre las 100 interacciones más recientes y las de largo plazo
    • Resultados:
      • Mejora consistente frente a modelos que usan solo interacciones recientes
      • Mean Average Precision (MAP) +1.5%, recall +7.01%

Arquitecturas unificadas de búsqueda y recomendación

  • Bridging Search & Recommendations (Spotify)

    • Entrenamiento conjunto de datos de búsqueda y recomendación en un solo modelo generativo
    • Basado en Flan-T5-base, convierte IDs de ítems en tokens para el entrenamiento
    • Modelo generativo de recomendación: predice el siguiente ítem a partir de interacciones del usuario
    • Modelo generativo de búsqueda: predice IDs de ítems a partir de consultas de texto
    • Resultados:
      • Mejora promedio de 16% frente a modelos de tarea única (según recall@30)
      • En dataset de podcasts, mejora de +855% en búsqueda y +262% en recomendación
      • Aún no alcanza el rendimiento de modelos tradicionales de búsqueda y recomendación (BM25, SASRec, etc.)
  • 360Brew (LinkedIn)

    • Un solo modelo de 150B parámetros ejecuta más de 30 tareas de ranking
    • Basado en Mixtral-8x22B → continuous pre-training (CPT)instruction fine-tuning (IFT)supervised fine-tuning (SFT)
    • Introduce una interfaz en lenguaje natural → usa prompt engineering en lugar de feature engineering
    • Resultados:
      • Alcanzó un rendimiento igual o superior al de modelos especializados existentes
      • Mejoró en datasets a gran escala (3 veces más grandes)
      • Mejoró el rendimiento en usuarios cold start → superior a modelos previos
  • UniCoRn (Netflix)

    • Maneja tareas de búsqueda y recomendación en un solo modelo
    • Usa información contextual como ID de usuario, consulta de búsqueda, país y entidades de origen
    • Aprovecha funciones contexto-objetivo y feature crossing
    • Resultados:
      • Mejora de +10% en recomendación y +7% en búsqueda
      • Mejoras derivadas de una mayor personalización
      • Confirma la importancia del tipo de tarea y del manejo de valores faltantes
  • Unified Embeddings (Etsy)

    • Integra embeddings basados en Transformer, texto y grafos
    • Ajuste fino de T5 para reforzar el matching entre consulta y producto
    • Aplicación de hard negative sampling y búsqueda aproximada de vecinos (ANN)
    • Resultados:
      • Tasa de conversión +2.63% y tasa de compra en búsqueda orgánica +5.58%
      • Los embeddings de grafos fueron la mayor contribución al rendimiento (+15%)
  • Embedding Long Tail (Best Buy)

    • Resuelve el problema de consultas long-tail
    • Usa un modelo BERT interno basado en comportamiento de usuario → codificación de búsqueda y producto
    • Refuerzo de datos mediante consultas sintéticas generadas con Llama-13B
    • Resultados:
      • Mejora de +3% en tasa de conversión
      • Mejora en matching consulta-producto (+4.67%)
  • User Behavioral Service (YouTube)

    • Separa el modelo de generación de embeddings de usuario del modelo de recomendación
    • Genera embeddings de usuario de forma asíncrona → usa caché de alta velocidad
    • Si no hay embedding disponible al momento de la solicitud, devuelve valor vacío y actualiza en segundo plano
    • Resultados:
      • Escalado del tamaño del modelo de secuencia de usuario → control del aumento de costos (28.7% → 2.8%)
      • Mejora general del rendimiento de recomendación (0.01% ~ 0.40%)
  • Modern Ranking Platform (Zalando)

    • Construcción de un sistema unificado de búsqueda y browsing
    • Usa una estructura de generación de candidatos → ranking → capa de política
    • Aplica embeddings de cliente basados en Transformer + base de datos vectorial
    • Resultados:
      • Mejora general de engagement +15% e ingresos +2.2%
      • Mejora adicional tras introducir embeddings entrenables

Cierre

  • Aunque los primeros estudios de 2023 (aplicar LLM a recomendación y búsqueda) fueron limitados, los esfuerzos recientes muestran mucho más potencial, especialmente respaldados por resultados de la industria
  • Esto sugiere que explorar cómo usar LLM para potenciar sistemas de recomendación y de búsqueda tiene beneficios prácticos, y puede aumentar resultados al mismo tiempo que reduce costos y esfuerzo

1 comentarios

 
GN⁺ 2025-03-24

Opiniones de Hacker News

  • Hay análisis que indican que las actualizaciones relacionadas con las consultas de búsqueda de Spotify ayudaron a los usuarios a expresar intenciones más complejas

    • Sin embargo, es difícil interpretarlo como una mejora, dado que los usuarios tuvieron que buscar más y escribir consultas más largas para obtener la información que querían
  • Hay muchos equipos que están usando LLM para reforzar las consultas de búsqueda y los índices

    • Incluso con modelos pequeños y prompts simples se pueden convertir cadenas de búsqueda en consultas estructuradas
    • También es posible clasificar documentos o aprovechar cachés
    • No hacer este tipo de trabajo podría ser un error
  • Resulta interesante que Eugene haya publicado este trabajo justo después de la conferencia

    • Tradicionalmente, habría sido un artículo que un estudiante de doctorado tardaría unos 12 meses en publicar
    • Queda la duda de si se debe a la capacidad de Eugene o si es una nueva tendencia
  • Explica por qué la experiencia con Spotify ha empeorado con el tiempo

  • Empezó a escuchar este artículo con un modelo de texto a voz apenas se levantó por la mañana

    • Como tiene mucha jerga técnica, el autor parece muy inteligente, pero no transmite la información de forma efectiva
    • Es algo que se ve con frecuencia en artículos académicos, y sus propios trabajos de investigación no son la excepción
    • Como no es especialista en ML, quizá no sea el público objetivo
    • Tiene curiosidad por saber si otras personas sintieron lo mismo
    • Espera que esta opinión no suene demasiado negativa
  • Variantes de SASRec y Bert4Rec se entrenan con tokens de ID y muestran leyes de escalado similares a las de los LLM

    • Se presenta como ejemplo el enfoque de Meta
  • Cree que combinar sistemas de recomendación y foros ha sido un gran desastre para la sociedad

  • Se pregunta por qué no existen herramientas de búsqueda basadas en LLM en PC y smartphones

    • Sobre todo porque los datos del smartphone se almacenan en la nube, así que en lugar de hacer scraping para anuncios o para el FBI, podrían ofrecer funciones útiles para el usuario
  • Parece una excelente visión general de los sistemas de recomendación

    • El punto principal es que la latencia es el problema central
    • El fine-tuning puede traer grandes mejoras y reducir la latencia
    • Hay un umbral o cierto tipo de problema que determina si conviene usar prompting o fine-tuning
  • Resulta interesante que estos artículos no provengan de laboratorios de investigación académica