RAG no ha muerto
(hamel.dev)> El futuro de RAG no está en una "ventana de contexto más grande", sino en una "mejor recuperación"
- Decir "RAG Is Dead" solo aplica a las implementaciones simples de RAG al estilo 2023; el problema real es la recuperación basada en un solo vector, que tiene una gran pérdida de información
- Las métricas tradicionales de evaluación de IR no son adecuadas para RAG, y se necesitan nuevos criterios de evaluación centrados en la cobertura factual, la diversidad y la relevancia
- Los recuperadores de RAG están evolucionando más allá del simple matching hacia enfoques que entienden instrucciones y seleccionan documentos relevantes mediante razonamiento
- Los modelos de late interaction al estilo ColBERT mantienen representaciones a nivel de token sin compresión de información, lo que permite que modelos pequeños superen a modelos grandes
- En lugar de buscar un embedding perfecto, los múltiples índices para distintas representaciones y una arquitectura de enrutamiento inteligente se están convirtiendo en el nuevo estándar
Why the future of RAG lies in better retrieval, not bigger context windows
Refutación a la afirmación de que “RAG ha muerto”
> Part 1. I don’t use RAG, I just retrieve documents - Lo que murió fue la búsqueda vectorial simple, no RAG en sí
- Hamel y Ben Clavié sostienen que RAG no ha muerto y que, más bien, ha llegado el momento de que la arquitectura de recuperación evolucione
- El enfoque de meter documentos en una base de datos vectorial y recuperarlos por similitud coseno ya envejeció y provoca una gran pérdida de información
- Como la información de los LLM queda fijada en el momento del entrenamiento, la inyección de información basada en recuperación (RAG) sigue siendo importante
- Aumentar la ventana de contexto por sí sola es una forma ineficiente de meter toda la información
Métricas de evaluación equivocadas
> Part 2. Modern IR Evals For RAG - Explica por qué las métricas tradicionales de evaluación de IR no encajan con RAG, y presenta FreshStack
- Nandan Thakur señala que las métricas tradicionales de evaluación de recuperación de información (IR) no son adecuadas para RAG
- Benchmarks como BEIR optimizan solo la búsqueda del documento número uno
- RAG debe considerar de forma integral la cobertura factual, múltiples perspectivas y la relevancia contextual
- Como nuevo sistema de evaluación para esto, propone FreshStack
Recuperadores que razonan
> Part 3. Optimizing Retrieval with Reasoning Models - Diseño de recuperadores capaces de entender instrucciones y razonar
- El sistema Rank1 de Orion Weller permite que el recuperador entienda instrucciones complejas como "documentos que contienen metáforas sobre la privacidad de los datos"
- En lugar de limitarse a calcular similitudes, genera una ruta de razonamiento explícita (reasoning trace) para justificar por qué considera relevante un documento
- Hace posible encontrar documentos mediante comprensión y razonamiento que los sistemas de búsqueda tradicionales no podrían localizar
El potencial de los modelos de late interaction
> Part 4. Late Interaction Models For RAG - Estructuras como ColBERT mantienen la representación sin pérdida de información
- Antoine Chaffin muestra que, con modelos basados en Late Interaction como ColBERT,
- los documentos no se comprimen en un solo vector, sino que se conserva la información a nivel de token
- como resultado, incluso hay casos donde un modelo de 150M parámetros supera en razonamiento a uno de 7B
- La clave es una estructura de representación que conserva la información en lugar de eliminarla
Se necesitan múltiples mapas, no uno solo
> Part 5. RAG with Multiple Representations - Mejora del rendimiento de recuperación mediante múltiples índices según el objetivo
- Bryan Bischof y Ayush Chaurasia señalan que un solo embedding no puede satisfacer distintos objetivos de búsqueda
- Por ejemplo, al buscar una imagen
- descripción textual
- interpretación poética
- imágenes similares
cada una se buscaría en un índice diferente
- Por ejemplo, al buscar una imagen
- Conclusión: en vez de buscar el embedding perfecto, se necesita un sistema de múltiples índices + enrutamiento inteligente adaptado a distintas formas de representación
Estrategia futura para RAG
Se plantean estas cuatro líneas como el futuro de RAG:
- Construir nuevos criterios de evaluación acordes al caso de uso
- Recuperadores que entiendan instrucciones y razonen
- Estructuras que representen la información tal cual, sin comprimirla
- Formas de combinar índices para distintos objetivos y enrutar inteligentemente entre ellos
Annotated Notes From the Series
La serie está compuesta por cinco partes y ofrece un resumen con marcas de tiempo en las diapositivas principales. Consulta los enlaces de cada parte
| Parte | Título | Descripción |
|---|---|---|
| Part 1 | I don’t use RAG, I just retrieve documents | Lo que murió fue la búsqueda vectorial simple, no RAG en sí |
| Part 2 | Modern IR Evals For RAG | Explica por qué las métricas tradicionales de IR no encajan con RAG, y presenta FreshStack |
| Part 3 | Optimizing Retrieval with Reasoning Models | Diseño de recuperadores capaces de entender instrucciones y razonar |
| Part 4 | Late Interaction Models For RAG | Estructuras como ColBERT mantienen la representación sin pérdida de información |
| Part 5 | RAG with Multiple Representations | Mejora del rendimiento de recuperación mediante múltiples índices según el objetivo |
1 comentarios
"No busques la incrustación perfecta, sino un sistema de múltiples índices + enrutamiento inteligente adaptado a diversas formas de representación"
Porque eso no es nada fácil...