Claude Computer Use: ¿es Vision la API definitiva?

xguru · 2024-10-28T09:41:01+09:00

Tras probar la API de Computer Use de Anthropic, es lenta, poco confiable y es fácil que tome el control de la computadora, pero es "enormemente interesante" Claude Computer hace sentir una verdadera experiencia de 'agente' porque la visión es la API que une todo, así que siempre puede hacer algo ¿Cómo funciona? Claude Computer Use parece ser básicamente Claude 3.5 ajustado con fine-tuning sobre datos de interacción con computadoras Entiende mucho mejor que otros modelos las capturas de pantalla de la computadora y lo que hay dentro de ella [Lo que hace bien] Leer y navegar la pantalla (relativamente) Casi nunca he visto que Claude lea mal el contenido de una captura de pantalla En comparación con otras IA, es bastante capaz de identificar coordenadas como haz clic en el campo de entrada en la posición (500,250) (aunque puede fallar un poco según el tamaño de la pantalla) Llamadas a funciones Estaba acostumbrado a pensar que las llamadas a funciones eran estrictamente peores que la salida estructurada, pero Claude Computer las usa bien Por ejemplo, si se le da una función de herramienta del navegador que puede ir directamente a un sitio web, la prefiere en lugar de hacer clic en el ícono del navegador Pensamiento paso a paso Si se le pide que descomponga una tarea, Claude normalmente es bastante bueno para identificar los pasos que debe seguir y empezar [Lo que hace mal] Saber cuándo tiene que leer la pantalla Como tomar una captura de pantalla es costoso, la IA tiende a asumir que sus acciones tuvieron éxito Por ejemplo, si escribe en un campo pero ese campo no tenía el foco, después es muy difícil detectarlo. Las llamadas a funciones del sistema deben describir con mucha precisión si el resultado esperado realmente ocurrió Esta es la forma en que Claude se atasca con más frecuencia. Para cuando toma una nueva captura, ya no sabe cómo va su progreso Obtener más datos Si le pides encontrar los 3 locales de shawarma más cercanos, Claude escribirá 'shawarma' en Google Maps y elegirá los 3 primeros resultados Si tiene que hacer clic, casi nunca primero selecciona 'ordenar por distancia' en el menú Esto podría resolverse con una mejor estructura de prompt Recordar el estado En Computer Use, una mayor parte del estado del programa queda almacenada en imágenes, y parece ser más vulnerable al momento de recordarla Esto también aplica a cosas que hizo antes, como pestañas que abrió previamente o aplicaciones que cambió Conviene hacer que Claude emita en texto tanto estado relevante como sea posible y proporcionarle el estado del sistema mediante herramientas Navegar modales y popups Claude se confunde con mayor frecuencia con los modales y popups, y no sabe cómo salir de ellos haciendo clic o no reconoce que no está en el estado correcto [¿Qué hace falta?] Proporcionar la mayor cantidad posible de estado del sistema Idealmente, querríamos que Claude Computer usara visión solo cuando fuera absolutamente necesario Si se le dan herramientas para entender fácilmente el estado sin usar visión, puede moverse más rápido y pensar con más claridad Ayuda muchísimo ofrecer cosas como: la lista de aplicaciones abiertas qué aplicación tiene el foco activo qué elemento tiene el foco dentro de esa aplicación tantas llamadas a funciones como sea posible para navegar específicamente esa aplicación en particular, las herramientas del navegador son importantes (por ejemplo, para ir a una URL específica o buscar) Cómo manejar la incertidumbre Este es el mayor problema aún no resuelto en el desarrollo de agentes Lo más importante en un agente es la confianza, y la confianza requiere entradas y retroalimentación Durante las pruebas hubo varias veces en que era evidente que Claude no sabía qué tenía que hacer, y aun así siguió adelante en vez de detenerse o preguntar Pasé bastante tiempo creando una herramienta de preguntas para lograr que la IA preguntara o razonara cuando se atascaba. Sin embargo, casi no la usó Esto tiene sentido. Las llamadas a funciones son mejores cuando sabe que necesita información y solo tiene que ir a buscarla Pero saber cuándo está en incertidumbre es otro problema. Los desarrolladores de agentes deben poder confiar en que la IA reportará su propia incertidumbre [El camino a seguir] Claude Computer Use es el primer paso hacia un comportamiento de agente real Es muy probable que todavía no estemos aprovechando al máximo las capacidades de este modelo actual Pero está claro que para crear una verdadera experiencia de agente hará falta algo más que llamadas a funciones de LLM

(thariq.io)

4 puntos por xguru 2024-10-28 | Aún no hay comentarios. | Compartir por WhatsApp

Tras probar la API de Computer Use de Anthropic,
- es lenta, poco confiable y es fácil que tome el control de la computadora, pero es "enormemente interesante"
Claude Computer hace sentir una verdadera experiencia de 'agente' porque la visión es la API que une todo, así que siempre puede hacer algo

¿Cómo funciona?

Claude Computer Use parece ser básicamente Claude 3.5 ajustado con fine-tuning sobre datos de interacción con computadoras
Entiende mucho mejor que otros modelos las capturas de pantalla de la computadora y lo que hay dentro de ella

[Lo que hace bien]

Leer y navegar la pantalla (relativamente)

Casi nunca he visto que Claude lea mal el contenido de una captura de pantalla
En comparación con otras IA, es bastante capaz de identificar coordenadas como haz clic en el campo de entrada en la posición (500,250) (aunque puede fallar un poco según el tamaño de la pantalla)

Llamadas a funciones

Estaba acostumbrado a pensar que las llamadas a funciones eran estrictamente peores que la salida estructurada, pero Claude Computer las usa bien
Por ejemplo, si se le da una función de herramienta del navegador que puede ir directamente a un sitio web, la prefiere en lugar de hacer clic en el ícono del navegador

Pensamiento paso a paso

Si se le pide que descomponga una tarea, Claude normalmente es bastante bueno para identificar los pasos que debe seguir y empezar

[Lo que hace mal]

Saber cuándo tiene que leer la pantalla

Como tomar una captura de pantalla es costoso, la IA tiende a asumir que sus acciones tuvieron éxito
Por ejemplo, si escribe en un campo pero ese campo no tenía el foco, después es muy difícil detectarlo. Las llamadas a funciones del sistema deben describir con mucha precisión si el resultado esperado realmente ocurrió
Esta es la forma en que Claude se atasca con más frecuencia. Para cuando toma una nueva captura, ya no sabe cómo va su progreso

Obtener más datos

Si le pides encontrar los 3 locales de shawarma más cercanos, Claude escribirá 'shawarma' en Google Maps y elegirá los 3 primeros resultados
Si tiene que hacer clic, casi nunca primero selecciona 'ordenar por distancia' en el menú
Esto podría resolverse con una mejor estructura de prompt

Recordar el estado

En Computer Use, una mayor parte del estado del programa queda almacenada en imágenes, y parece ser más vulnerable al momento de recordarla
Esto también aplica a cosas que hizo antes, como pestañas que abrió previamente o aplicaciones que cambió
Conviene hacer que Claude emita en texto tanto estado relevante como sea posible y proporcionarle el estado del sistema mediante herramientas

Navegar modales y popups

Claude se confunde con mayor frecuencia con los modales y popups, y no sabe cómo salir de ellos haciendo clic o no reconoce que no está en el estado correcto

[¿Qué hace falta?]

Proporcionar la mayor cantidad posible de estado del sistema

Idealmente, querríamos que Claude Computer usara visión solo cuando fuera absolutamente necesario
Si se le dan herramientas para entender fácilmente el estado sin usar visión, puede moverse más rápido y pensar con más claridad
Ayuda muchísimo ofrecer cosas como:
- la lista de aplicaciones abiertas
- qué aplicación tiene el foco activo
- qué elemento tiene el foco dentro de esa aplicación
- tantas llamadas a funciones como sea posible para navegar específicamente esa aplicación
  - en particular, las herramientas del navegador son importantes (por ejemplo, para ir a una URL específica o buscar)

Cómo manejar la incertidumbre

Este es el mayor problema aún no resuelto en el desarrollo de agentes
Lo más importante en un agente es la confianza, y la confianza requiere entradas y retroalimentación
Durante las pruebas hubo varias veces en que era evidente que Claude no sabía qué tenía que hacer, y aun así siguió adelante en vez de detenerse o preguntar
Pasé bastante tiempo creando una herramienta de preguntas para lograr que la IA preguntara o razonara cuando se atascaba. Sin embargo, casi no la usó
Esto tiene sentido. Las llamadas a funciones son mejores cuando sabe que necesita información y solo tiene que ir a buscarla
Pero saber cuándo está en incertidumbre es otro problema. Los desarrolladores de agentes deben poder confiar en que la IA reportará su propia incertidumbre

[El camino a seguir]

Claude Computer Use es el primer paso hacia un comportamiento de agente real
Es muy probable que todavía no estemos aprovechando al máximo las capacidades de este modelo actual
Pero está claro que para crear una verdadera experiencia de agente hará falta algo más que llamadas a funciones de LLM