12 puntos por xguru 2021-07-21 | 1 comentarios | Compartir por WhatsApp
  • Basado en Rust + Tantivy (código abierto similar a Apache Lucene implementado en Rust, con soporte para tokenizador de coreano)

  • Diseñado para facilitar la indexación de grandes conjuntos de datos

→ Separa Compute y Storage: permite buscar en almacenamientos como S3

→ Administración sencilla del clúster de búsqueda: se pueden agregar/eliminar instancias en pocos segundos

  • Funciones compatibles

→ CLI simple para administrar índices y clústeres

→ Índices locales/remotos

→ Instancias stateless

→ Se puede usar con cualquier almacenamiento de objetos que admita consultas Byte Range

→ Búsqueda de texto completo (incluye Phrase Query)

→ Soporte integrado para particionamiento por tiempo

→ Soporte para consultas booleanas

→ Soporte para tipos de datos text, i64, f64, date, bytes y tipos compuestos como object y array

1 comentarios

 
xguru 2021-07-21

Cómo lograron que sea rentable en costos está explicado en la publicación introductoria del blog.

Antes, cuando presenté " Bayard - servidor de búsqueda e indexación de texto completo implementado en Rust https://es.news.hada.io/topic?id=841 ", Tantivy no tenía un tokenizador para coreano, pero ya lo agregaron.

https://github.com/lindera-morphology/lindera-ko-dic-builder

Tokenizador para coreano