2 puntos por GN⁺ 2023-11-10 | 1 comentarios | Compartir por WhatsApp

vimGPT: darles un patio de juegos a los modelos multimodales

Resumen

  • Varias startups y proyectos de código abierto están explorando el uso de modelos de lenguaje grandes (LLMs) para la navegación web.
  • Existe interés en un proyecto experimental para comprobar si es posible navegar por la web usando solo las capacidades visuales de GPT-4V.
  • Al modelo le resulta difícil identificar qué objeto quiere hacer clic sin un DOM del navegador en texto.

Configuración

  • Instalar los requisitos de Python: pip install -r requirements.txt
  • Hay que descargar Vimium localmente y cargar manualmente la extensión al ejecutar Playwright: ./setup.sh

Idea

  • Se está considerando usar la API de Assistant cuando se lance para la búsqueda automática de contexto.
  • Existe la posibilidad de desarrollar una versión especial de Vimium que superponga selectivamente elementos según el contexto.
  • El problema de que el modelo no reconozca elementos en baja resolución podría mejorarse usando imágenes de mayor resolución.
  • Se podría ajustar finamente LLaVa o CogVLM para hacerlo más rápido y más barato.
  • Si la Vision API admite modo JSON, se planea usarlo, pero por ahora hay que depender de un método de prompting más rudimentario.
  • También se está considerando que la Vision API devuelva instrucciones generales y luego formalizarlas con una API en modo JSON.
  • Para eliminar la entrada de texto y mejorar la accesibilidad, también se está considerando añadir conversión de voz a texto con Whisper u otro modelo.
  • Se quiere que funcione en el navegador del propio usuario y no en un navegador artificial.
  • Se contempla proporcionar fotogramas según si Vimium está activado o no, en caso de que el modelo no pueda ver debajo de los rectángulos amarillos.
  • Además de la entrada de imágenes, se planea proporcionar como entrada el árbol de accesibilidad de Chrome para ofrecer el diseño de elementos interactivos que puedan mapearse a los atajos de Vimium.

Material de referencia

Opinión de GN⁺

Lo más importante de este artículo es el intento de revolucionar la experiencia de navegación web usando modelos de lenguaje grandes como GPT-4V. Ofrecer una forma para que el modelo interactúe con la web mediante la extensión Vimium es un enfoque interesante, con potencial para mejorar la accesibilidad y la interactividad en la web. Para entusiastas de la tecnología y desarrolladores de software, este tipo de experimentos ofrece una visión del futuro de la inteligencia artificial y de la evolución de las interfaces web, lo que lo convierte en un tema muy atractivo.

1 comentarios

 
GN⁺ 2023-11-10
Opiniones de Hacker News
  • Cuesta creer que ahora sea posible algo así:

    • Hay opciones que se pueden elegir para ayudar al usuario a realizar una tarea específica: 'navigate', 'type', 'click' y 'done'.
    • 'navigate' debe ir a la URL indicada, y 'type' y 'click' procesan una cadena de texto.
    • Al hacer clic, debe devolver la secuencia de caracteres amarillos, y al escribir, debe devolver el mensaje como cadena.
    • Si la página es satisfactoria, debe devolver 'done' como clave, y responder únicamente en formato JSON.
  • En mi trabajo hay mucha gente que copia datos manualmente porque la deuda técnica es demasiado grande:

    • Expresa expectativa de que estas herramientas funcionen como una capa capaz de resolver problemas existentes.
  • Saludo del creador:

    • Agradece que compartan el proyecto y pide que le avisen si tienen preguntas.
    • Dice que en el README hay ideas sobre los siguientes pasos y que las contribuciones son bienvenidas.
  • Opinión de que vim es una "implementación" adecuada para ChatGPT:

    • Se puede hacer todo con flujos de texto, y en internet ya existe mucho vimscript.
    • Menciona que empezó un experimento similar y comparte el enlace a un proyecto relacionado.
  • Discusión sobre tareas de captura de pantalla y navegación usando GPT-4 Vision:

    • Después de fallar al superponer información sobre la captura, obtener el árbol de accesibilidad como texto desde playwright y decirle al modelo qué opciones de interacción hay mostró mejores resultados.
    • Sugiere al creador agregar esta idea a la lista de ideas futuras.
  • Comparte una experiencia experimentando a través de la interfaz de ChatGPT:

    • Propone actualizar el CSS para quitar los degradados y las esquinas redondeadas.
    • La combinación de rojo con texto blanco en negrita mostró los resultados más consistentes.
    • Aconseja aumentar el tamaño de la fuente y, si las etiquetas se superponen, separarlas y agregar flechas.
    • Recomienda enviar a la API tanto la imagen anotada como la no anotada.
  • Pregunta sobre qué impacto tendrían estas herramientas en el rastreo web o la publicidad:

    • Potencial como "bloqueador de anuncios" donde el agente encuentra lo que el usuario quiere sin anuncios ni ventanas emergentes.
    • Imagina que podría reducir la importancia del SEO y mejorar la calidad de internet.
    • Por otro lado, también expresa preocupación por el impacto negativo que podría traer la publicidad.
  • Se podría crear un piloto automático para el navegador:

    • Si esta tecnología se despliega a gran escala, será muy difícil distinguir el tráfico de bots.
    • Plantea el problema de que, en el corto plazo, no será barato ni fácilmente accesible.
  • Opinión positiva de que GPT-4V presentó una nueva perspectiva para el web scraping:

    • Se espera que este código o código similar se use en varios proyectos.
    • Por ejemplo, podría usarse para scrapear sitios web como LinkedIn o Twitter, hacer análisis de competidores, entender sectores industriales y obtener noticias.
  • Comparte una experiencia de uso real:

    • Las pequeñas anotaciones sobre las opciones clicables a menudo no aparecían en pantalla, causando que cayera en un bucle.
    • Logró iniciar sesión en Twitter, pero agotó rápidamente el límite de 100 imágenes de la API.
    • Para versiones futuras, propone usar principalmente un navegador basado en texto y recurrir a la visión solo en situaciones complejas.