RAG no ha muerto

(hamel.dev)

33 puntos por GN⁺ 2025-07-17 | 1 comentarios | Compartir por WhatsApp

> El futuro de RAG no está en una "ventana de contexto más grande", sino en una "mejor recuperación"

Decir "RAG Is Dead" solo aplica a las implementaciones simples de RAG al estilo 2023; el problema real es la recuperación basada en un solo vector, que tiene una gran pérdida de información
Las métricas tradicionales de evaluación de IR no son adecuadas para RAG, y se necesitan nuevos criterios de evaluación centrados en la cobertura factual, la diversidad y la relevancia
Los recuperadores de RAG están evolucionando más allá del simple matching hacia enfoques que entienden instrucciones y seleccionan documentos relevantes mediante razonamiento
Los modelos de late interaction al estilo ColBERT mantienen representaciones a nivel de token sin compresión de información, lo que permite que modelos pequeños superen a modelos grandes
En lugar de buscar un embedding perfecto, los múltiples índices para distintas representaciones y una arquitectura de enrutamiento inteligente se están convirtiendo en el nuevo estándar

Why the future of RAG lies in better retrieval, not bigger context windows

Refutación a la afirmación de que “RAG ha muerto”

> Part 1. I don’t use RAG, I just retrieve documents - Lo que murió fue la búsqueda vectorial simple, no RAG en sí

Hamel y Ben Clavié sostienen que RAG no ha muerto y que, más bien, ha llegado el momento de que la arquitectura de recuperación evolucione
El enfoque de meter documentos en una base de datos vectorial y recuperarlos por similitud coseno ya envejeció y provoca una gran pérdida de información
Como la información de los LLM queda fijada en el momento del entrenamiento, la inyección de información basada en recuperación (RAG) sigue siendo importante
Aumentar la ventana de contexto por sí sola es una forma ineficiente de meter toda la información

Métricas de evaluación equivocadas

> Part 2. Modern IR Evals For RAG - Explica por qué las métricas tradicionales de evaluación de IR no encajan con RAG, y presenta FreshStack

Nandan Thakur señala que las métricas tradicionales de evaluación de recuperación de información (IR) no son adecuadas para RAG
- Benchmarks como BEIR optimizan solo la búsqueda del documento número uno
- RAG debe considerar de forma integral la cobertura factual, múltiples perspectivas y la relevancia contextual
- Como nuevo sistema de evaluación para esto, propone FreshStack

Recuperadores que razonan

> Part 3. Optimizing Retrieval with Reasoning Models - Diseño de recuperadores capaces de entender instrucciones y razonar

El sistema Rank1 de Orion Weller permite que el recuperador entienda instrucciones complejas como "documentos que contienen metáforas sobre la privacidad de los datos"
En lugar de limitarse a calcular similitudes, genera una ruta de razonamiento explícita (reasoning trace) para justificar por qué considera relevante un documento
Hace posible encontrar documentos mediante comprensión y razonamiento que los sistemas de búsqueda tradicionales no podrían localizar

El potencial de los modelos de late interaction

> Part 4. Late Interaction Models For RAG - Estructuras como ColBERT mantienen la representación sin pérdida de información

Antoine Chaffin muestra que, con modelos basados en Late Interaction como ColBERT,
- los documentos no se comprimen en un solo vector, sino que se conserva la información a nivel de token
- como resultado, incluso hay casos donde un modelo de 150M parámetros supera en razonamiento a uno de 7B
La clave es una estructura de representación que conserva la información en lugar de eliminarla

Se necesitan múltiples mapas, no uno solo

> Part 5. RAG with Multiple Representations - Mejora del rendimiento de recuperación mediante múltiples índices según el objetivo

Bryan Bischof y Ayush Chaurasia señalan que un solo embedding no puede satisfacer distintos objetivos de búsqueda
- Por ejemplo, al buscar una imagen
  - descripción textual
  - interpretación poética
  - imágenes similares
    cada una se buscaría en un índice diferente
Conclusión: en vez de buscar el embedding perfecto, se necesita un sistema de múltiples índices + enrutamiento inteligente adaptado a distintas formas de representación

Estrategia futura para RAG

Se plantean estas cuatro líneas como el futuro de RAG:

Construir nuevos criterios de evaluación acordes al caso de uso
Recuperadores que entiendan instrucciones y razonen
Estructuras que representen la información tal cual, sin comprimirla
Formas de combinar índices para distintos objetivos y enrutar inteligentemente entre ellos

Annotated Notes From the Series

La serie está compuesta por cinco partes y ofrece un resumen con marcas de tiempo en las diapositivas principales. Consulta los enlaces de cada parte

Parte	Título	Descripción
Part 1	I don’t use RAG, I just retrieve documents	Lo que murió fue la búsqueda vectorial simple, no RAG en sí
Part 2	Modern IR Evals For RAG	Explica por qué las métricas tradicionales de IR no encajan con RAG, y presenta FreshStack
Part 3	Optimizing Retrieval with Reasoning Models	Diseño de recuperadores capaces de entender instrucciones y razonar
Part 4	Late Interaction Models For RAG	Estructuras como ColBERT mantienen la representación sin pérdida de información
Part 5	RAG with Multiple Representations	Mejora del rendimiento de recuperación mediante múltiples índices según el objetivo

1 comentarios

ide127 2025-07-18

"No busques la incrustación perfecta, sino un sistema de múltiples índices + enrutamiento inteligente adaptado a diversas formas de representación"

Porque eso no es nada fácil...