Exploración web con GPT-4 Vision y Vimium
(github.com/ishan0102)vimGPT: darles un patio de juegos a los modelos multimodales
Resumen
- Varias startups y proyectos de código abierto están explorando el uso de modelos de lenguaje grandes (LLMs) para la navegación web.
- Existe interés en un proyecto experimental para comprobar si es posible navegar por la web usando solo las capacidades visuales de GPT-4V.
- Al modelo le resulta difícil identificar qué objeto quiere hacer clic sin un DOM del navegador en texto.
Configuración
- Instalar los requisitos de Python:
pip install -r requirements.txt - Hay que descargar Vimium localmente y cargar manualmente la extensión al ejecutar Playwright:
./setup.sh
Idea
- Se está considerando usar la API de Assistant cuando se lance para la búsqueda automática de contexto.
- Existe la posibilidad de desarrollar una versión especial de Vimium que superponga selectivamente elementos según el contexto.
- El problema de que el modelo no reconozca elementos en baja resolución podría mejorarse usando imágenes de mayor resolución.
- Se podría ajustar finamente LLaVa o CogVLM para hacerlo más rápido y más barato.
- Si la Vision API admite modo JSON, se planea usarlo, pero por ahora hay que depender de un método de prompting más rudimentario.
- También se está considerando que la Vision API devuelva instrucciones generales y luego formalizarlas con una API en modo JSON.
- Para eliminar la entrada de texto y mejorar la accesibilidad, también se está considerando añadir conversión de voz a texto con Whisper u otro modelo.
- Se quiere que funcione en el navegador del propio usuario y no en un navegador artificial.
- Se contempla proporcionar fotogramas según si Vimium está activado o no, en caso de que el modelo no pueda ver debajo de los rectángulos amarillos.
- Además de la entrada de imágenes, se planea proporcionar como entrada el árbol de accesibilidad de Chrome para ofrecer el diseño de elementos interactivos que puedan mapearse a los atajos de Vimium.
Material de referencia
Opinión de GN⁺
Lo más importante de este artículo es el intento de revolucionar la experiencia de navegación web usando modelos de lenguaje grandes como GPT-4V. Ofrecer una forma para que el modelo interactúe con la web mediante la extensión Vimium es un enfoque interesante, con potencial para mejorar la accesibilidad y la interactividad en la web. Para entusiastas de la tecnología y desarrolladores de software, este tipo de experimentos ofrece una visión del futuro de la inteligencia artificial y de la evolución de las interfaces web, lo que lo convierte en un tema muy atractivo.
1 comentarios
Opiniones de Hacker News
Cuesta creer que ahora sea posible algo así:
En mi trabajo hay mucha gente que copia datos manualmente porque la deuda técnica es demasiado grande:
Saludo del creador:
Opinión de que vim es una "implementación" adecuada para ChatGPT:
Discusión sobre tareas de captura de pantalla y navegación usando GPT-4 Vision:
Comparte una experiencia experimentando a través de la interfaz de ChatGPT:
Pregunta sobre qué impacto tendrían estas herramientas en el rastreo web o la publicidad:
Se podría crear un piloto automático para el navegador:
Opinión positiva de que GPT-4V presentó una nueva perspectiva para el web scraping:
Comparte una experiencia de uso real: