6 puntos por xguru 2023-11-16 | Aún no hay comentarios. | Compartir por WhatsApp
  • Preguntas que surgen al automatizar interacciones web con GPT-4(V)
    • ¿Cómo mapear la respuesta del LLM a elementos web?
    • ¿Cómo se debe marcar una página para que el LLM entienda mejor su espacio de trabajo?
    • ¿Cómo proporcionar una “captura de pantalla” a un LLM solo de texto?
  • Tarsier es una utilidad de visión para agentes web multimodales
    • Funciona etiquetando visualmente los elementos interactuables de la página con IDs como [1]
    • Esto permite proporcionar a GPT-4(V) un mapeo entre elementos e IDs para que pueda ejecutar tareas
    • Los elementos interactuables se definen como botones, enlaces o campos de entrada visibles en la página
    • Puede proporcionar una representación textual de la página
      • Es decir, permite interacciones más profundas incluso en LLM que no son multimodales
      • Esto es importante considerando los problemas de rendimiento de los modelos existentes de visión-lenguaje
    • También ofrece una utilidad de OCR que convierte capturas de pantalla de páginas en cadenas con estructura espacial que un LLM sin visión puede entender
  • Servicios OCR compatibles
    • Actualmente solo es compatible con Google Cloud Vision; próximamente tendrá soporte para Amazon Textract y Microsoft Azure Computer Vision

Aún no hay comentarios.

Aún no hay comentarios.