- Herramienta que automatiza flujos de trabajo basados en navegador usando LLM y visión por computadora
- Las soluciones de automatización existentes dependían del análisis del DOM y de interacciones basadas en XPath, que pueden romperse fácilmente cuando cambia el diseño de un sitio web; Skyvern, en cambio, analiza en tiempo real los elementos del viewport y establece un plan de interacción para realizar la tarea
- Ventajas:
- Puede funcionar incluso en sitios web nuevos y mapear elementos visuales a las acciones necesarias para la tarea sin código personalizado.
- Es resistente a los cambios en el diseño del sitio web y no usa XPath ni selectores predefinidos.
- Un solo flujo de trabajo puede aplicarse a varios sitios web, y puede resolver problemas mediante interacción incluso en situaciones complejas.
Cómo funciona
- Sistema de agentes: Skyvern usa varios agentes para comprender sitios web y planificar y ejecutar tareas.
- Agente de elementos interactuables: analiza el HTML del sitio web y extrae los elementos con los que se puede interactuar.
- Agente de navegación: planifica la navegación para completar la tarea.
- Agente de extracción de datos: extrae datos del sitio web.
- Agente de contraseñas: completa formularios de contraseña.
- Agente de 2FA: completa formularios de 2FA.
- Agente de autocompletado dinámico: completa formularios de autocompletado dinámico.
Skyvern Cloud
- Versión en la nube: la versión administrada en la nube de Skyvern permite automatizar flujos de trabajo a gran escala ejecutando en paralelo múltiples instancias de Skyvern sin tener que administrar la infraestructura. Además, incluye mecanismos para evitar la detección de bots, una red de proxies y funciones para resolver CAPTCHA.
Tareas y flujos de trabajo de Skyvern
- Tarea: el bloque de construcción básico de Skyvern, que indica cómo navegar por un sitio web para lograr un objetivo específico.
- Flujo de trabajo: conecta varias tareas y las compone como una sola unidad de trabajo. Por ejemplo, puede automatizar el proceso de comprar productos automáticamente en una tienda de comercio electrónico.
1 comentarios
Opiniones de Hacker News
Hay interés en el anuncio de la función de "uso de computadora" de Claude de Anthropic y preguntas sobre qué diferencia a Skyvern
Se menciona que últimamente han aparecido muchos wrappers de IA que usan Playwright
Expresan preocupación por la gran cantidad de prompts y el uso de datos en texto plano en el video de ejemplo de Skyvern
Consideran que la frecuencia de rediseño de los sitios web está exagerada
Mencionan el riesgo de las startups basadas en LLMs de terceros
Hay felicitaciones por haber liberado Skyvern como open source bajo AGPL y preguntas sobre planes de integración con LangChain
Explican el concepto de "automatización de navegador"
Plantean preguntas sobre los casos de uso y las consecuencias a largo plazo de las herramientas de automatización de flujos de trabajo con LLM
Expresan preocupación por si Skyvern está agregando otra capa de complejidad encima de un proceso ya complejo
Hay una pregunta sobre si alguien ha ejecutado Skyvern en modal.com
Hay preguntas sobre el rendimiento en WebArena y VisualWebArena
Hay una pregunta sobre la posibilidad de que Cloudflare bloquee Skyvern
Hay una pregunta sobre si alguien ha probado ejecutar Skyvern en sitios web de aerolíneas