33 puntos por GN⁺ 2025-07-17 | 1 comentarios | Compartir por WhatsApp

> El futuro de RAG no está en una "ventana de contexto más grande", sino en una "mejor recuperación"

  • Decir "RAG Is Dead" solo aplica a las implementaciones simples de RAG al estilo 2023; el problema real es la recuperación basada en un solo vector, que tiene una gran pérdida de información
  • Las métricas tradicionales de evaluación de IR no son adecuadas para RAG, y se necesitan nuevos criterios de evaluación centrados en la cobertura factual, la diversidad y la relevancia
  • Los recuperadores de RAG están evolucionando más allá del simple matching hacia enfoques que entienden instrucciones y seleccionan documentos relevantes mediante razonamiento
  • Los modelos de late interaction al estilo ColBERT mantienen representaciones a nivel de token sin compresión de información, lo que permite que modelos pequeños superen a modelos grandes
  • En lugar de buscar un embedding perfecto, los múltiples índices para distintas representaciones y una arquitectura de enrutamiento inteligente se están convirtiendo en el nuevo estándar

Why the future of RAG lies in better retrieval, not bigger context windows

Refutación a la afirmación de que “RAG ha muerto”

> Part 1. I don’t use RAG, I just retrieve documents - Lo que murió fue la búsqueda vectorial simple, no RAG en sí

  • Hamel y Ben Clavié sostienen que RAG no ha muerto y que, más bien, ha llegado el momento de que la arquitectura de recuperación evolucione
  • El enfoque de meter documentos en una base de datos vectorial y recuperarlos por similitud coseno ya envejeció y provoca una gran pérdida de información
  • Como la información de los LLM queda fijada en el momento del entrenamiento, la inyección de información basada en recuperación (RAG) sigue siendo importante
  • Aumentar la ventana de contexto por sí sola es una forma ineficiente de meter toda la información

Métricas de evaluación equivocadas

> Part 2. Modern IR Evals For RAG - Explica por qué las métricas tradicionales de evaluación de IR no encajan con RAG, y presenta FreshStack

  • Nandan Thakur señala que las métricas tradicionales de evaluación de recuperación de información (IR) no son adecuadas para RAG
    • Benchmarks como BEIR optimizan solo la búsqueda del documento número uno
    • RAG debe considerar de forma integral la cobertura factual, múltiples perspectivas y la relevancia contextual
    • Como nuevo sistema de evaluación para esto, propone FreshStack

Recuperadores que razonan

> Part 3. Optimizing Retrieval with Reasoning Models - Diseño de recuperadores capaces de entender instrucciones y razonar

  • El sistema Rank1 de Orion Weller permite que el recuperador entienda instrucciones complejas como "documentos que contienen metáforas sobre la privacidad de los datos"
  • En lugar de limitarse a calcular similitudes, genera una ruta de razonamiento explícita (reasoning trace) para justificar por qué considera relevante un documento
  • Hace posible encontrar documentos mediante comprensión y razonamiento que los sistemas de búsqueda tradicionales no podrían localizar

El potencial de los modelos de late interaction

> Part 4. Late Interaction Models For RAG - Estructuras como ColBERT mantienen la representación sin pérdida de información

  • Antoine Chaffin muestra que, con modelos basados en Late Interaction como ColBERT,
    • los documentos no se comprimen en un solo vector, sino que se conserva la información a nivel de token
    • como resultado, incluso hay casos donde un modelo de 150M parámetros supera en razonamiento a uno de 7B
  • La clave es una estructura de representación que conserva la información en lugar de eliminarla

Se necesitan múltiples mapas, no uno solo

> Part 5. RAG with Multiple Representations - Mejora del rendimiento de recuperación mediante múltiples índices según el objetivo

  • Bryan Bischof y Ayush Chaurasia señalan que un solo embedding no puede satisfacer distintos objetivos de búsqueda
    • Por ejemplo, al buscar una imagen
      • descripción textual
      • interpretación poética
      • imágenes similares
        cada una se buscaría en un índice diferente
  • Conclusión: en vez de buscar el embedding perfecto, se necesita un sistema de múltiples índices + enrutamiento inteligente adaptado a distintas formas de representación

Estrategia futura para RAG

Se plantean estas cuatro líneas como el futuro de RAG:

  • Construir nuevos criterios de evaluación acordes al caso de uso
  • Recuperadores que entiendan instrucciones y razonen
  • Estructuras que representen la información tal cual, sin comprimirla
  • Formas de combinar índices para distintos objetivos y enrutar inteligentemente entre ellos

Annotated Notes From the Series

La serie está compuesta por cinco partes y ofrece un resumen con marcas de tiempo en las diapositivas principales. Consulta los enlaces de cada parte

Parte Título Descripción
Part 1 I don’t use RAG, I just retrieve documents Lo que murió fue la búsqueda vectorial simple, no RAG en sí
Part 2 Modern IR Evals For RAG Explica por qué las métricas tradicionales de IR no encajan con RAG, y presenta FreshStack
Part 3 Optimizing Retrieval with Reasoning Models Diseño de recuperadores capaces de entender instrucciones y razonar
Part 4 Late Interaction Models For RAG Estructuras como ColBERT mantienen la representación sin pérdida de información
Part 5 RAG with Multiple Representations Mejora del rendimiento de recuperación mediante múltiples índices según el objetivo

1 comentarios

 
ide127 2025-07-18

"No busques la incrustación perfecta, sino un sistema de múltiples índices + enrutamiento inteligente adaptado a diversas formas de representación"

Porque eso no es nada fácil...