- Tras probar la API de Computer Use de Anthropic,
- es lenta, poco confiable y es fácil que tome el control de la computadora, pero es "enormemente interesante"
- Claude Computer hace sentir una verdadera experiencia de 'agente' porque la visión es la API que une todo, así que siempre puede hacer algo
¿Cómo funciona?
- Claude Computer Use parece ser básicamente Claude 3.5 ajustado con fine-tuning sobre datos de interacción con computadoras
- Entiende mucho mejor que otros modelos las capturas de pantalla de la computadora y lo que hay dentro de ella
[Lo que hace bien]
Leer y navegar la pantalla (relativamente)
- Casi nunca he visto que Claude lea mal el contenido de una captura de pantalla
- En comparación con otras IA, es bastante capaz de identificar coordenadas como
haz clic en el campo de entrada en la posición (500,250) (aunque puede fallar un poco según el tamaño de la pantalla)
Llamadas a funciones
- Estaba acostumbrado a pensar que las llamadas a funciones eran estrictamente peores que la salida estructurada, pero Claude Computer las usa bien
- Por ejemplo, si se le da una función de herramienta del navegador que puede ir directamente a un sitio web, la prefiere en lugar de hacer clic en el ícono del navegador
Pensamiento paso a paso
- Si se le pide que descomponga una tarea, Claude normalmente es bastante bueno para identificar los pasos que debe seguir y empezar
[Lo que hace mal]
Saber cuándo tiene que leer la pantalla
- Como tomar una captura de pantalla es costoso, la IA tiende a asumir que sus acciones tuvieron éxito
- Por ejemplo, si escribe en un campo pero ese campo no tenía el foco, después es muy difícil detectarlo. Las llamadas a funciones del sistema deben describir con mucha precisión si el resultado esperado realmente ocurrió
- Esta es la forma en que Claude se atasca con más frecuencia. Para cuando toma una nueva captura, ya no sabe cómo va su progreso
Obtener más datos
- Si le pides encontrar los 3 locales de shawarma más cercanos, Claude escribirá 'shawarma' en Google Maps y elegirá los 3 primeros resultados
- Si tiene que hacer clic, casi nunca primero selecciona 'ordenar por distancia' en el menú
- Esto podría resolverse con una mejor estructura de prompt
Recordar el estado
- En Computer Use, una mayor parte del estado del programa queda almacenada en imágenes, y parece ser más vulnerable al momento de recordarla
- Esto también aplica a cosas que hizo antes, como pestañas que abrió previamente o aplicaciones que cambió
- Conviene hacer que Claude emita en texto tanto estado relevante como sea posible y proporcionarle el estado del sistema mediante herramientas
Navegar modales y popups
- Claude se confunde con mayor frecuencia con los modales y popups, y no sabe cómo salir de ellos haciendo clic o no reconoce que no está en el estado correcto
[¿Qué hace falta?]
Proporcionar la mayor cantidad posible de estado del sistema
- Idealmente, querríamos que Claude Computer usara visión solo cuando fuera absolutamente necesario
- Si se le dan herramientas para entender fácilmente el estado sin usar visión, puede moverse más rápido y pensar con más claridad
- Ayuda muchísimo ofrecer cosas como:
- la lista de aplicaciones abiertas
- qué aplicación tiene el foco activo
- qué elemento tiene el foco dentro de esa aplicación
- tantas llamadas a funciones como sea posible para navegar específicamente esa aplicación
- en particular, las herramientas del navegador son importantes (por ejemplo, para ir a una URL específica o buscar)
Cómo manejar la incertidumbre
- Este es el mayor problema aún no resuelto en el desarrollo de agentes
- Lo más importante en un agente es la confianza, y la confianza requiere entradas y retroalimentación
- Durante las pruebas hubo varias veces en que era evidente que Claude no sabía qué tenía que hacer, y aun así siguió adelante en vez de detenerse o preguntar
- Pasé bastante tiempo creando una herramienta de preguntas para lograr que la IA preguntara o razonara cuando se atascaba. Sin embargo, casi no la usó
- Esto tiene sentido. Las llamadas a funciones son mejores cuando sabe que necesita información y solo tiene que ir a buscarla
- Pero saber cuándo está en incertidumbre es otro problema. Los desarrolladores de agentes deben poder confiar en que la IA reportará su propia incertidumbre
[El camino a seguir]
- Claude Computer Use es el primer paso hacia un comportamiento de agente real
- Es muy probable que todavía no estemos aprovechando al máximo las capacidades de este modelo actual
- Pero está claro que para crear una verdadera experiencia de agente hará falta algo más que llamadas a funciones de LLM
Aún no hay comentarios.