Tarsier - Utilidad de visión para agentes de interacción web

xguru · 2023-11-16T10:03:01+09:00

Preguntas que surgen al automatizar interacciones web con GPT-4(V) ¿Cómo mapear la respuesta del LLM a elementos web? ¿Cómo se debe marcar una página para que el LLM entienda mejor su espacio de trabajo? ¿Cómo proporcionar una “captura de pantalla” a un LLM solo de texto? Tarsier es una utilidad de visión para agentes web multimodales Funciona etiquetando visualmente los elementos interactuables de la página con IDs como [1] Esto permite proporcionar a GPT-4(V) un mapeo entre elementos e IDs para que pueda ejecutar tareas Los elementos interactuables se definen como botones, enlaces o campos de entrada visibles en la página Puede proporcionar una representación textual de la página Es decir, permite interacciones más profundas incluso en LLM que no son multimodales Esto es importante considerando los problemas de rendimiento de los modelos existentes de visión-lenguaje También ofrece una utilidad de OCR que convierte capturas de pantalla de páginas en cadenas con estructura espacial que un LLM sin visión puede entender Servicios OCR compatibles Actualmente solo es compatible con Google Cloud Vision; próximamente tendrá soporte para Amazon Textract y Microsoft Azure Computer Vision

(github.com/reworkd)

6 puntos por xguru 2023-11-16 | Aún no hay comentarios. | Compartir por WhatsApp

Preguntas que surgen al automatizar interacciones web con GPT-4(V)
- ¿Cómo mapear la respuesta del LLM a elementos web?
- ¿Cómo se debe marcar una página para que el LLM entienda mejor su espacio de trabajo?
- ¿Cómo proporcionar una “captura de pantalla” a un LLM solo de texto?
Tarsier es una utilidad de visión para agentes web multimodales
- Funciona etiquetando visualmente los elementos interactuables de la página con IDs como [1]
- Esto permite proporcionar a GPT-4(V) un mapeo entre elementos e IDs para que pueda ejecutar tareas
- Los elementos interactuables se definen como botones, enlaces o campos de entrada visibles en la página
- Puede proporcionar una representación textual de la página
  - Es decir, permite interacciones más profundas incluso en LLM que no son multimodales
  - Esto es importante considerando los problemas de rendimiento de los modelos existentes de visión-lenguaje
- También ofrece una utilidad de OCR que convierte capturas de pantalla de páginas en cadenas con estructura espacial que un LLM sin visión puede entender
Servicios OCR compatibles
- Actualmente solo es compatible con Google Cloud Vision; próximamente tendrá soporte para Amazon Textract y Microsoft Azure Computer Vision

Tarsier - Utilidad de visión para agentes de interacción web

Lecturas relacionadas

Aún no hay comentarios.