Scrapegraph-ai - Web scraping con LLM y lógica de grafos directa

xguru · 2024-05-10T09:51:01+09:00

Biblioteca open source de Python para web scraping basada en IA Crea pipelines de scraping para sitios web, documentos y archivos XML usando LLM y lógica de grafos directa Indicas qué información quieres extraer y la biblioteca se encarga del resto Se pueden usar distintos modelos como Ollama, OpenAI, Groq, Azure y Gemini Nodos disponibles Nodo base, nodo de obtención de HTML, nodo Image_to_text, nodo Text_To-Speech, nodo de búsqueda en internet Nodo condicional: determina el siguiente nodo del grafo Nodo de generación de respuestas: usa un LLM para generar la respuesta a una pregunta Nodo generate_scraper: extrae la información deseada del contenido según la entrada del usuario Nodo Get_probable_tags: encuentra etiquetas HTML que contienen la información deseada en el contenido Nodo Parse: extrae información de documentos HTML Nodo Rag: extrae información relevante de documentos de gran tamaño Nodo Robots: verifica si el acceso de robots está permitido

(github.com/VinciGit00)

20 puntos por xguru 2024-05-10 | 1 comentarios | Compartir por WhatsApp

Biblioteca open source de Python para web scraping basada en IA
- Crea pipelines de scraping para sitios web, documentos y archivos XML usando LLM y lógica de grafos directa
Indicas qué información quieres extraer y la biblioteca se encarga del resto
Se pueden usar distintos modelos como Ollama, OpenAI, Groq, Azure y Gemini
Nodos disponibles
- Nodo base, nodo de obtención de HTML, nodo Image_to_text, nodo Text_To-Speech, nodo de búsqueda en internet
- Nodo condicional: determina el siguiente nodo del grafo
- Nodo de generación de respuestas: usa un LLM para generar la respuesta a una pregunta
- Nodo generate_scraper: extrae la información deseada del contenido según la entrada del usuario
- Nodo Get_probable_tags: encuentra etiquetas HTML que contienen la información deseada en el contenido
- Nodo Parse: extrae información de documentos HTML
- Nodo Rag: extrae información relevante de documentos de gran tamaño
- Nodo Robots: verifica si el acceso de robots está permitido

1 comentarios

ng0301 2024-05-13

Me quedó la sensación de que no extrae muy bien las webapps con CSR.
En cambio, con SSR quedé bastante satisfecho.

Scrapegraph-ai - Web scraping con LLM y lógica de grafos directa

Lecturas relacionadas

1 comentarios