4 puntos por GN⁺ 2024-10-25 | 1 comentarios | Compartir por WhatsApp
  • Herramienta que automatiza flujos de trabajo basados en navegador usando LLM y visión por computadora
  • Las soluciones de automatización existentes dependían del análisis del DOM y de interacciones basadas en XPath, que pueden romperse fácilmente cuando cambia el diseño de un sitio web; Skyvern, en cambio, analiza en tiempo real los elementos del viewport y establece un plan de interacción para realizar la tarea
  • Ventajas:
    • Puede funcionar incluso en sitios web nuevos y mapear elementos visuales a las acciones necesarias para la tarea sin código personalizado.
    • Es resistente a los cambios en el diseño del sitio web y no usa XPath ni selectores predefinidos.
    • Un solo flujo de trabajo puede aplicarse a varios sitios web, y puede resolver problemas mediante interacción incluso en situaciones complejas.

Cómo funciona

  • Sistema de agentes: Skyvern usa varios agentes para comprender sitios web y planificar y ejecutar tareas.
    • Agente de elementos interactuables: analiza el HTML del sitio web y extrae los elementos con los que se puede interactuar.
    • Agente de navegación: planifica la navegación para completar la tarea.
    • Agente de extracción de datos: extrae datos del sitio web.
    • Agente de contraseñas: completa formularios de contraseña.
    • Agente de 2FA: completa formularios de 2FA.
    • Agente de autocompletado dinámico: completa formularios de autocompletado dinámico.

Skyvern Cloud

  • Versión en la nube: la versión administrada en la nube de Skyvern permite automatizar flujos de trabajo a gran escala ejecutando en paralelo múltiples instancias de Skyvern sin tener que administrar la infraestructura. Además, incluye mecanismos para evitar la detección de bots, una red de proxies y funciones para resolver CAPTCHA.

Tareas y flujos de trabajo de Skyvern

  • Tarea: el bloque de construcción básico de Skyvern, que indica cómo navegar por un sitio web para lograr un objetivo específico.
  • Flujo de trabajo: conecta varias tareas y las compone como una sola unidad de trabajo. Por ejemplo, puede automatizar el proceso de comprar productos automáticamente en una tienda de comercio electrónico.

1 comentarios

 
GN⁺ 2024-10-25
Opiniones de Hacker News
  • Hay interés en el anuncio de la función de "uso de computadora" de Claude de Anthropic y preguntas sobre qué diferencia a Skyvern

    • Se preguntan cuál es la diferencia de Skyvern en comparación con la nueva función de Claude
  • Se menciona que últimamente han aparecido muchos wrappers de IA que usan Playwright

    • Consideran que su uso en BPA (automatización de procesos de negocio) es más atractivo que en automatización de pruebas
    • En la automatización de pruebas, la precisión y la repetibilidad son importantes, pero en BPA solo importa el resultado
  • Expresan preocupación por la gran cantidad de prompts y el uso de datos en texto plano en el video de ejemplo de Skyvern

    • Afirman que es menos técnico que generar código con Playwright, pero creen que no hay muchas personas capaces de administrarlo
    • Hay preocupaciones de seguridad por enviar en texto plano credenciales de sitios web e información de tarjetas de crédito
  • Consideran que la frecuencia de rediseño de los sitios web está exagerada

    • La automatización con Playwright puede avisar mediante validación cuándo hace falta una actualización si cambia el proceso, pero no ven esa opción en Skyvern
  • Mencionan el riesgo de las startups basadas en LLMs de terceros

    • Con la participación de grandes empresas como Anthropic, OpenAI y Google, la competencia será intensa
  • Hay felicitaciones por haber liberado Skyvern como open source bajo AGPL y preguntas sobre planes de integración con LangChain

    • Expresan curiosidad sobre la tecnología usada para construir la lógica de pensamiento/acción de Skyvern
  • Explican el concepto de "automatización de navegador"

    • Es crear un programa que manipula sitios web, similar a Selenium
  • Plantean preguntas sobre los casos de uso y las consecuencias a largo plazo de las herramientas de automatización de flujos de trabajo con LLM

    • Preguntan si resuelven la falta de interoperabilidad entre herramientas, si sirven para eludir medidas de seguridad, o si se usan para postergar el mantenimiento de herramientas internas
  • Expresan preocupación por si Skyvern está agregando otra capa de complejidad encima de un proceso ya complejo

    • Creen que el proyecto podría ser útil, pero tienen dudas sobre su efecto a largo plazo
  • Hay una pregunta sobre si alguien ha ejecutado Skyvern en modal.com

  • Hay preguntas sobre el rendimiento en WebArena y VisualWebArena

  • Hay una pregunta sobre la posibilidad de que Cloudflare bloquee Skyvern

  • Hay una pregunta sobre si alguien ha probado ejecutar Skyvern en sitios web de aerolíneas

    • Los sitios web de aerolíneas cambian con frecuencia y tienen fuertes medidas anti-scraping