sgrep es una herramienta de línea de comandos que realiza búsquedas semánticas sobre texto usando embeddings de palabras
- Va más allá de la coincidencia simple de cadenas y encuentra coincidencias semánticamente similares a la consulta
- Está diseñada para ofrecer una experiencia similar a
grep
- Funciones
- Búsqueda semántica usando embeddings de Word2Vec
- Posibilidad de configurar un umbral de similitud
- Muestra el contexto antes y después de las líneas coincidentes
- Salida con códigos de color para las palabras coincidentes y los números de línea
- Soporte para leer desde archivos o desde la entrada estándar
- Configuración posible mediante archivos JSON y argumentos de línea de comandos
- Ejemplo de uso
- Modelo Word2Vec
sgrep requiere un modelo Word2Vec en formato binario. Puedes usar un modelo preentrenado, como el de Google Word2Vec, o entrenar uno tú mismo con herramientas como gensim
- Descarga el archivo
.bin localmente y actualiza config.json
download-model.sh es un script auxiliar simple que guarda un modelo pequeño de word2vec alojado por eyaler en el directorio models/googlenews-slim/
Resumen de GN⁺
sgrep es una herramienta para buscar palabras semánticamente similares en texto usando embeddings de palabras
- Ofrece una experiencia de uso parecida a
grep, pero con capacidades que van más allá de la coincidencia simple de cadenas
- Usa modelos Word2Vec para determinar similitud y puede utilizarse de forma flexible mediante varias opciones de configuración
- Puede ser útil en tareas de análisis de texto y procesamiento de lenguaje natural, especialmente cuando se necesita búsqueda basada en contexto
1 comentarios
Comentarios en Hacker News
Mientras leía el código, compartió algunos consejos pequeños
Esta idea parece muy útil y se pregunta por qué no se le ocurrió antes
Ya existe una herramienta y una empresa llamadas semgrep
Esta herramienta sería muy útil si pudiera manejar frases descriptivas o compuestas
Es una herramienta muy genial
Esta herramienta está muy buena y le gustaría probarla sí o sí
Propone fltr como una herramienta similar
Está muy bueno, y se pregunta si también puede buscar nombres de archivos
Le parece una herramienta muy genial