-
Basado en Rust + Tantivy (código abierto similar a Apache Lucene implementado en Rust, con soporte para tokenizador de coreano)
-
Diseñado para facilitar la indexación de grandes conjuntos de datos
→ Separa Compute y Storage: permite buscar en almacenamientos como S3
→ Administración sencilla del clúster de búsqueda: se pueden agregar/eliminar instancias en pocos segundos
- Funciones compatibles
→ CLI simple para administrar índices y clústeres
→ Índices locales/remotos
→ Instancias stateless
→ Se puede usar con cualquier almacenamiento de objetos que admita consultas Byte Range
→ Búsqueda de texto completo (incluye Phrase Query)
→ Soporte integrado para particionamiento por tiempo
→ Soporte para consultas booleanas
→ Soporte para tipos de datos text, i64, f64, date, bytes y tipos compuestos como object y array
1 comentarios
Cómo lograron que sea rentable en costos está explicado en la publicación introductoria del blog.
Quickwit: A highly cost-efficient search engine in Rust https://quickwit.io/blog/quickwit-first-release/
Tantivy https://github.com/tantivy-search/tantivy
Antes, cuando presenté " Bayard - servidor de búsqueda e indexación de texto completo implementado en Rust https://es.news.hada.io/topic?id=841 ", Tantivy no tenía un tokenizador para coreano, pero ya lo agregaron.
https://github.com/lindera-morphology/lindera-ko-dic-builder
Tokenizador para coreano