- Quería comprobar el rendimiento de la nueva Computer Use API de Claude, pero el proyecto base parecía demasiado pesado
- Agent es una app sencilla en Electron que permite a Claude 3.5 Sonnet controlar directamente la computadora local
- Se intentó agregar un modo “semiautomático” en el que el usuario confirma cada paso, pero se concluyó que no era necesario porque cada paso era demasiado lento
- Si el modelo se confunde, se puede presionar el botón “Detener” para finalizar la ejecución
Cómo empezar
git clone https://github.com/corbt/agent.exe
cd agent.exe
npm install
- Renombrar
.env.example a .env y agregar la API Key de Anthropic
npm start
- Pedirle al modelo que realice alguna tarea interesante en la computadora
Sistemas compatibles
- MacOS
- En teoría, también puede ser compatible con Windows y Linux (todas las dependencias son multiplataforma)
Limitaciones conocidas
- Solo funciona en la pantalla principal
- La IA puede controlar completamente la computadora
- Probablemente también haya muchos otros problemas
Consejos
- Claude prefiere mucho Firefox
- También se pueden usar otros navegadores, pero funciona mejor si instalas Firefox
Hoja de ruta
- Es un proyecto hecho en 6 horas, así que probablemente no evolucione mucho más
- Pero si llega un PR genial, se revisará y se hará merge
Resumen de GN⁺
- Este proyecto ofrece una forma simple de probar la API de uso de computadora de Claude
- Como la IA puede controlar completamente la computadora, puede haber preocupaciones de seguridad
- Tiene muy buena compatibilidad con Firefox y se puede usar principalmente en MacOS
- Algunos proyectos con funciones similares son AutoHotkey o Sikuli
1 comentarios
Opinión de Hacker News
Creo que la idea de Kyle es excelente y, como desarrollador con experiencia en automatización de escritorio y Electron, sentí que valía la pena leer el código fuente y probarlo con tareas básicas
Me pregunto cuánto tiempo pasará hasta que no notes que agregó un daemon al sistema
Recuerdo una historia de hace unos años en las noticias: "Alexa, ordena una casa de muñecas"
Me pregunto cómo automatizar apps GUI que no sean del navegador en Wayland de Linux
Me pregunto por qué el nombre .exe, si parece una app multiplataforma pensada sobre todo para macOS
Hace poco probé Cursor iniciando un proyecto full-stack desde cero en modo "compose", y me sorprendió el resultado
Hay limitaciones conocidas que impiden que la IA tome el control total de una computadora
Podría ser genial aislarla por air gap y hacer que programe su propio sistema operativo, pero no querría tenerla cerca de datos reales
Parece que solo funciona para tareas simples
Quiero que la computadora se pase el día creando memes, mientras yo cuido a mi familia, trabajo en el jardín y gano criptomonedas