Búsqueda semántica sin embeddings (Semantic Search Without Embeddings)
(softwaredoug.com)¿Sigues pensando incluso en 2026 que "búsqueda semántica = embeddings + base de datos vectorial"?
Argumento central
La búsqueda semántica no depende solo de la similitud (similarity),
sino de cumplir bien con estas tres cosas:
① representación (representation) + ② similitud (similarity) + ③ criterio de coincidencia (match criteria).
La búsqueda vectorial basada en embeddings funciona bien en ① y ②, pero se señala que es muy débil en ③ (incluir/excluir resultados exactamente dentro del rango que el usuario quiere).
Ejemplo clave:
Consulta: "fruta roja y redonda que crece en un árbol"
Resultados de un buen sistema de embeddings (que suelen aparecer arriba):
- manzana
- naranja
- ⚾️ pelota de béisbol
→ El usuario jamás quiere una pelota de béisbol, pero el embedding la incluye porque está bastante cerca en "redonda y roja"
No se puede resolver con un umbral (varía según el dominio y según la consulta)
La alternativa que se propone: taxonomías jerárquicas bien gestionadas (Managed Taxonomies)
Como en el ejemplo de muebles de Wayfair:
Baby & Kids
└─ Toddler & Kids Playroom
└─ Indoor Play
└─ Rocking Horses
└─ Novelty Rocking Horses
Si esto se monta sobre BM25 con un tokenizador jerárquico:
- una categoría más específica (hija) = df más bajo → la puntuación de BM25 sube automáticamente
- se puede ajustar el alcance con precisión usando un lenguaje que el usuario entiende (subiendo a padre/abuelo el rango se amplía gradualmente)
- si se automatiza la clasificación con LLM, la carga de mantenimiento también baja mucho
Conclusión:
Los embeddings son potentes, pero no son indispensables.
La idea es que, solo con una capacidad sólida de categorías/clasificación dentro del dominio + apoyo de LLM,
se puede construir una búsqueda semántica mucho más precisa y con mejor experiencia de usuario que con embeddings.
Especialmente recomendado para quienes trabajan en búsqueda especializada por dominio en comercio electrónico, salud, legal, bibliotecas, etc.
1 comentarios
Parece que se necesita búsqueda híbrida y RAG de múltiples consultas.