19 puntos por davespark 2026-01-11 | 1 comentarios | Compartir por WhatsApp

¿Sigues pensando incluso en 2026 que "búsqueda semántica = embeddings + base de datos vectorial"?

Argumento central

La búsqueda semántica no depende solo de la similitud (similarity),
sino de cumplir bien con estas tres cosas:
① representación (representation) + ② similitud (similarity) + ③ criterio de coincidencia (match criteria).

La búsqueda vectorial basada en embeddings funciona bien en ① y ②, pero se señala que es muy débil en ③ (incluir/excluir resultados exactamente dentro del rango que el usuario quiere).

Ejemplo clave:
Consulta: "fruta roja y redonda que crece en un árbol"
Resultados de un buen sistema de embeddings (que suelen aparecer arriba):

  1. manzana
  2. naranja
  3. ⚾️ pelota de béisbol

→ El usuario jamás quiere una pelota de béisbol, pero el embedding la incluye porque está bastante cerca en "redonda y roja"
No se puede resolver con un umbral (varía según el dominio y según la consulta)

La alternativa que se propone: taxonomías jerárquicas bien gestionadas (Managed Taxonomies)

Como en el ejemplo de muebles de Wayfair:

Baby & Kids  
└─ Toddler & Kids Playroom  
   └─ Indoor Play  
      └─ Rocking Horses  
         └─ Novelty Rocking Horses  

Si esto se monta sobre BM25 con un tokenizador jerárquico:

  • una categoría más específica (hija) = df más bajo → la puntuación de BM25 sube automáticamente
  • se puede ajustar el alcance con precisión usando un lenguaje que el usuario entiende (subiendo a padre/abuelo el rango se amplía gradualmente)
  • si se automatiza la clasificación con LLM, la carga de mantenimiento también baja mucho

Conclusión:
Los embeddings son potentes, pero no son indispensables.
La idea es que, solo con una capacidad sólida de categorías/clasificación dentro del dominio + apoyo de LLM,
se puede construir una búsqueda semántica mucho más precisa y con mejor experiencia de usuario que con embeddings.

Especialmente recomendado para quienes trabajan en búsqueda especializada por dominio en comercio electrónico, salud, legal, bibliotecas, etc.

1 comentarios

 
kaydash 2026-01-12

Parece que se necesita búsqueda híbrida y RAG de múltiples consultas.