1 puntos por GN⁺ 2023-09-03 | 1 comentarios | Compartir por WhatsApp
  • Un artículo sobre un nuevo motor de búsqueda de Wikipedia basado en el navegador, con búsqueda sin conexión
  • Motor de búsqueda con capacidad de buscar en tiempo real entre un millón de páginas de Wikipedia, devolviendo resultados cada 10 ms en dispositivos móviles
  • El tamaño reducido de la base de datos del motor de búsqueda, un caso de uso casual que admite un millón de embeddings sin procesamiento especial
  • Motor de búsqueda que usa un transformador de oraciones para generar embeddings de documentos, compresión de embeddings mediante cuantización de producto y pq.js para ejecutar el cálculo de distancias en el navegador
  • Uso de transformers.js para ejecutar en el navegador el transformador de oraciones para las consultas del motor de búsqueda
  • Motor de búsqueda que ordena los embeddings según el tamaño comprimido de las páginas, analizando primero las páginas con mayor densidad de información y devolviéndolas en el top 10
  • Motor de búsqueda que usa Arrow en lugar de JSON para alto rendimiento; Arrow puede almacenar de forma compacta arreglos de cuantización de producto de enteros de 8 bits
  • Motor de búsqueda que usa modelos ONNX ejecutados en WebAssembly; todavía no hay aceleración por GPU
  • Motor de búsqueda que genera embeddings de toda Wikipedia con un transformador de oraciones, comprime los embeddings con cuantización de producto y escribe ONNX manualmente
  • Motor de búsqueda que exporta numpy a Arrow para almacenar embeddings y metadatos, de forma mucho más compacta en memoria y en disco
  • Motor de búsqueda compatible con búsqueda facetada que permite búsquedas en tiempo real dentro de subcategorías de productos
  • El autor invita comentarios y sugerencias de mejora, especialmente sobre soporte para otros niveles de cuantización y otras dimensiones de embeddings

1 comentarios

 
GN⁺ 2023-09-03
Opiniones de Hacker News
  • Un artículo sobre una nueva herramienta para buscar en Wikipedia sin conexión
  • Algunos usuarios reportan que esta herramienta es menos precisa que servicios de IA como ChatGPT
  • La herramienta usa embeddings de texto para hacer coincidir consultas de búsqueda
  • Un artículo reciente titulado "Búsqueda de texto basada en descripciones abstractas" permite consultas de búsqueda más abstractas
  • Algunos usuarios encontraron que la herramienta es menos efectiva que Google para devolver los resultados esperados
  • Un usuario sugirió que la herramienta podría mejorar si se incrustan solo las oraciones o párrafos que definen un tema, en lugar del documento completo del artículo de Wikipedia
  • Elogios a la capacidad offline y a la implementación de la herramienta, a pesar de algunas críticas sobre la precisión
  • Algunos usuarios están experimentando problemas técnicos relacionados con la herramienta, como tiempos de carga lentos
  • Se menciona un proyecto similar llamado SemanticFinder, que permite a los usuarios copiar y pegar texto de cualquier longitud y devuelve los segmentos más similares
  • Un usuario señaló que la efectividad de la herramienta podría estar limitada por la calidad de cómo Wikipedia expresa sus temas
  • Algunos usuarios están decepcionados con los resultados de la herramienta, pero reconocen la impresionante tecnología detrás de ella
  • Un usuario sugirió que el enfoque de incrustar artículos completos podría no ser el mejor para este tipo de aplicación