RAG de artículos PDF: ¿basta con el texto? - Experimento de búsqueda de embeddings con Gemini embedd

Resumen de los resultados de un experimento comparando embeddings de texto e imagen de PDFs de artículos académicos con Gemini embedding-2-preview (embeddings multimodales nativos).

∙	La similitud coseno promedio entre texto↔imagen de la misma página fue de 0.642. Aproximadamente el 36% de la información visual, como imágenes SEM, curvas de gráficos y disposición espacial, no se reflejó en los embeddings de texto  
∙	Al buscar con 18 consultas de texto, el índice de imágenes (MRR 0.719) superó al índice de texto (0.631). Dado que en los artículos los términos clave suelen repetirse en varias páginas, las imágenes ofrecieron mayor capacidad de distinguir páginas  
∙	El embedding Multi que combina texto+imagen (MRR 0.650) quedó por debajo del uso exclusivo de imágenes. Hubo un efecto de dilución de las características de ambas modalidades  
∙	La búsqueda cross-modal dentro del mismo documento (texto→imagen) fracasó con un Hit@5 de 0%, porque la similitud de texto entre páginas era mayor que la similitud texto↔imagen dentro de la misma página

En documentos con muchas figuras, indexar imágenes resulta más ventajoso, y la conclusión es que hace falta replantear el valor por defecto de RAG de “primero extraer texto y luego vectorizarlo”.

2 comentarios

mammal 2026-03-31

¿Cómo se compara con ColPali?

230kimi 2026-03-31

En inglés, parece que colpali es claramente mejor. Pero en coreano o en idiomas que no son inglés, la precisión baja muchísimo TT

RAG de artículos PDF: ¿basta con el texto? - Experimento de búsqueda de embeddings con Gemini embedding 002

Lecturas relacionadas

2 comentarios