- Biblioteca open source de Python para web scraping basada en IA
- Crea pipelines de scraping para sitios web, documentos y archivos XML usando LLM y lógica de grafos directa
- Indicas qué información quieres extraer y la biblioteca se encarga del resto
- Se pueden usar distintos modelos como Ollama, OpenAI, Groq, Azure y Gemini
- Nodos disponibles
- Nodo base, nodo de obtención de HTML, nodo
Image_to_text, nodo Text_To-Speech, nodo de búsqueda en internet
- Nodo condicional: determina el siguiente nodo del grafo
- Nodo de generación de respuestas: usa un LLM para generar la respuesta a una pregunta
- Nodo
generate_scraper: extrae la información deseada del contenido según la entrada del usuario
- Nodo
Get_probable_tags: encuentra etiquetas HTML que contienen la información deseada en el contenido
- Nodo
Parse: extrae información de documentos HTML
- Nodo
Rag: extrae información relevante de documentos de gran tamaño
- Nodo
Robots: verifica si el acceso de robots está permitido
1 comentarios
Me quedó la sensación de que no extrae muy bien las webapps con CSR.
En cambio, con SSR quedé bastante satisfecho.