- Preguntas que surgen al automatizar interacciones web con GPT-4(V)
- ¿Cómo mapear la respuesta del LLM a elementos web?
- ¿Cómo se debe marcar una página para que el LLM entienda mejor su espacio de trabajo?
- ¿Cómo proporcionar una “captura de pantalla” a un LLM solo de texto?
- Tarsier es una utilidad de visión para agentes web multimodales
- Funciona etiquetando visualmente los elementos interactuables de la página con IDs como [1]
- Esto permite proporcionar a GPT-4(V) un mapeo entre elementos e IDs para que pueda ejecutar tareas
- Los elementos interactuables se definen como botones, enlaces o campos de entrada visibles en la página
- Puede proporcionar una representación textual de la página
- Es decir, permite interacciones más profundas incluso en LLM que no son multimodales
- Esto es importante considerando los problemas de rendimiento de los modelos existentes de visión-lenguaje
- También ofrece una utilidad de OCR que convierte capturas de pantalla de páginas en cadenas con estructura espacial que un LLM sin visión puede entender
- Servicios OCR compatibles
- Actualmente solo es compatible con Google Cloud Vision; próximamente tendrá soporte para Amazon Textract y Microsoft Azure Computer Vision
Aún no hay comentarios.