- Automatiza el navegador convirtiendo instrucciones en lenguaje natural en interacciones del navegador (código de Selenium)
- Su objetivo es automatizar tareas simples en nombre del usuario que son repetitivas, consumen mucho tiempo y requieren muy poco esfuerzo cognitivo
- Está diseñado para facilitar la automatización de flujos de trabajo web al ofrecer un motor que transforma consultas en lenguaje natural en código de Selenium y permite ejecutarlo en el navegador
Funciones principales
- Procesamiento de lenguaje natural: comprende instrucciones en lenguaje natural para realizar interacciones en el navegador
- Integración con Selenium: se integra fluidamente con Selenium para automatizar navegadores web
- Open source: está construido sobre proyectos open source como transformers y llama-index, y aprovecha modelos open source para garantizar transparencia y alineación con los intereses del usuario
- Soporte para modelos locales para privacidad y control: admite modelos locales como
Gemma-7b para que el usuario pueda tener control total sobre su asistente de IA y garantizar su privacidad
- Tecnología avanzada de IA: usa embeddings locales (
bge-small-en-v1.5) para realizar RAG y extraer las partes de HTML más relevantes; luego, aprovecha Few-shot learning y Chain of Thought para derivar el código de Selenium más pertinente para ejecutar la tarea sin necesidad de hacer fine-tuning del LLM (Nous-Hermes-2-Mixtral-8x7B-DPO) para generación de código
Primeros pasos
- Se puede probar LaVague en un cuaderno de Colab.
Hoja de ruta
- Aunque es un proyecto temprano, podría crecer hasta ayudar a masificar modelos de IA transparentes y alineados que puedan actuar en internet por los usuarios.
- Consideran como áreas principales de exploración hacer fine-tuning de modelos locales para que se vuelvan expertos en Text2Action, mejorar la búsqueda para usar solo las partes de código relevantes para la generación de código y dar soporte a otros motores de navegador (por ejemplo, playwright) u otros frameworks de automatización.
Opinión de GN⁺
- LaVague tiene el potencial de ahorrar tiempo y aumentar la productividad al automatizar tareas repetitivas de los usuarios. Esto puede ser especialmente útil para trabajos como ingreso repetitivo de datos o llenado de formularios.
- Al estar desarrollado sobre una base open source, ofrece transparencia y posibilidad de modificación tanto para usuarios como para desarrolladores. Esto puede ayudar a impulsar la innovación basada en la comunidad y a generar confianza entre los usuarios.
- La tecnología de automatización que aborda LaVague ya se integra con herramientas conocidas por muchas empresas y desarrolladores, como Selenium, por lo que puede incorporarse fácilmente a flujos de trabajo existentes.
- La automatización que aprovecha IA exige alta precisión y eficiencia. Tecnologías como Few-shot learning y Chain of Thought, que ofrece LaVague, pueden ayudar a minimizar errores que podrían surgir al manejar tareas complejas.
- La adopción de este tipo de tecnologías requiere considerar la privacidad del usuario y la seguridad de los datos. Dar soporte a modelos locales puede ser una forma de aliviar estas preocupaciones, pero los usuarios aún deben monitorear cuidadosamente cómo se procesan sus datos.
2 comentarios
Se ve muy bien que se pueda probar en un entorno de notebook. Menos mal que la integración con Playwright está en el roadmap,,
Comentarios de Hacker News
Opinión sobre probar nuevas herramientas
Experiencia vaciando Google Photos
Opinión sobre herramientas de automatización del navegador como TaxyAI
Experiencia con pruebas de Selenium
Preocupación por ignorar instrucciones anti-automatización en sitios web
Opinión sobre el impacto potencial de la automatización
Interés en la compatibilidad con modelos
Impacto en la votación en línea
Importancia de los benchmarks que muestran la tasa de éxito
Interés en el proyecto