20 puntos por xguru 2024-05-10 | 1 comentarios | Compartir por WhatsApp
  • Biblioteca open source de Python para web scraping basada en IA
    • Crea pipelines de scraping para sitios web, documentos y archivos XML usando LLM y lógica de grafos directa
  • Indicas qué información quieres extraer y la biblioteca se encarga del resto
  • Se pueden usar distintos modelos como Ollama, OpenAI, Groq, Azure y Gemini
  • Nodos disponibles
    • Nodo base, nodo de obtención de HTML, nodo Image_to_text, nodo Text_To-Speech, nodo de búsqueda en internet
    • Nodo condicional: determina el siguiente nodo del grafo
    • Nodo de generación de respuestas: usa un LLM para generar la respuesta a una pregunta
    • Nodo generate_scraper: extrae la información deseada del contenido según la entrada del usuario
    • Nodo Get_probable_tags: encuentra etiquetas HTML que contienen la información deseada en el contenido
    • Nodo Parse: extrae información de documentos HTML
    • Nodo Rag: extrae información relevante de documentos de gran tamaño
    • Nodo Robots: verifica si el acceso de robots está permitido

1 comentarios

 
ng0301 2024-05-13

Me quedó la sensación de que no extrae muy bien las webapps con CSR.
En cambio, con SSR quedé bastante satisfecho.