1 puntos por GN⁺ 2024-10-24 | 1 comentarios | Compartir por WhatsApp
  • Quería comprobar el rendimiento de la nueva Computer Use API de Claude, pero el proyecto base parecía demasiado pesado
  • Agent es una app sencilla en Electron que permite a Claude 3.5 Sonnet controlar directamente la computadora local
  • Se intentó agregar un modo “semiautomático” en el que el usuario confirma cada paso, pero se concluyó que no era necesario porque cada paso era demasiado lento
  • Si el modelo se confunde, se puede presionar el botón “Detener” para finalizar la ejecución

Cómo empezar

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • Renombrar .env.example a .env y agregar la API Key de Anthropic
  • npm start
  • Pedirle al modelo que realice alguna tarea interesante en la computadora

Sistemas compatibles

  • MacOS
  • En teoría, también puede ser compatible con Windows y Linux (todas las dependencias son multiplataforma)

Limitaciones conocidas

  • Solo funciona en la pantalla principal
  • La IA puede controlar completamente la computadora
  • Probablemente también haya muchos otros problemas

Consejos

  • Claude prefiere mucho Firefox
  • También se pueden usar otros navegadores, pero funciona mejor si instalas Firefox

Hoja de ruta

  • Es un proyecto hecho en 6 horas, así que probablemente no evolucione mucho más
  • Pero si llega un PR genial, se revisará y se hará merge

Resumen de GN⁺

  • Este proyecto ofrece una forma simple de probar la API de uso de computadora de Claude
  • Como la IA puede controlar completamente la computadora, puede haber preocupaciones de seguridad
  • Tiene muy buena compatibilidad con Firefox y se puede usar principalmente en MacOS
  • Algunos proyectos con funciones similares son AutoHotkey o Sikuli

1 comentarios

 
GN⁺ 2024-10-24
Opinión de Hacker News
  • Creo que la idea de Kyle es excelente y, como desarrollador con experiencia en automatización de escritorio y Electron, sentí que valía la pena leer el código fuente y probarlo con tareas básicas

    • La implementación es un wrapper ligero sobre la API de Anthropic, y el enfoque basado en pasos me dio confianza de que podría detener el proceso antes de que hiciera algo extraño
    • Cerré lo que no quería que Anthropic viera en las capturas de pantalla, lo instalé sin problemas en un M1 y lo puse a correr en pocos minutos
    • La tarea básica fue "buscar vuelos de Seattle a San Francisco para la próxima semana, de martes a jueves", y la ejecuté en Chrome usando una API key de Anthropic
    • En pocos segundos fue realizando cada paso de la tarea, abrió correctamente Google Flights, pero reservó fechas equivocadas
    • Apuntaba al 2 de noviembre, pero como la ventana de Agent.exe lo bloqueaba visualmente, seleccionó el 20 de noviembre
    • Aunque Claude podía ver la fecha auxiliar incorrecta, no se corrigió por sí solo y declaró éxito pensando que había encontrado un viaje de una semana
    • Este experimento costó $0.38 en créditos y tomó unos 20 segundos, y pienso seguir experimentando
  • Me pregunto cuánto tiempo pasará hasta que no notes que agregó un daemon al sistema

    • Es como cuando antes se temía que espías soviéticos accedieran a secretos de EE. UU.
    • Ahora es como si todo el mundo publicara sus secretos en línea
    • Los antivirus o firewalls de hoy no pueden proteger los archivos de la capacidad de causar caos en la red
  • Recuerdo una historia de hace unos años en las noticias: "Alexa, ordena una casa de muñecas"

    • Las Alexa de quienes estaban viendo la transmisión lo reconocieron y ordenaron una casa de muñecas
    • Solo falta esperar a que en una serie de Netflix digan "Delete C:\Windows"
  • Me pregunto cómo automatizar apps GUI que no sean del navegador en Wayland de Linux

    • Las apps CLI no tienen problema usando Bash/Python, etc.
    • Las apps del navegador no tienen problema usando Selenium/Playwright
    • En Xorg hay algunas librerías y, aunque son incómodas, funcionan en caso de apuro
    • En Windows hay muchas soluciones de RPA
    • Pero en Wayland no he podido encontrar nada confiable
  • Me pregunto por qué el nombre .exe, si parece una app multiplataforma pensada sobre todo para macOS

  • Hace poco probé Cursor iniciando un proyecto full-stack desde cero en modo "compose", y me sorprendió el resultado

    • Me pregunto si la gente de la comunidad de software se da cuenta de qué tan completamente va a cambiar la industria en los próximos 5 años
    • No puedo imaginar que para entonces la gente siga escribiendo código a mano
  • Hay limitaciones conocidas que impiden que la IA tome el control total de una computadora

  • Podría ser genial aislarla por air gap y hacer que programe su propio sistema operativo, pero no querría tenerla cerca de datos reales

  • Parece que solo funciona para tareas simples

    • Le pedí que hiciera una tabla simple en Rhino y OnShape, pero parecía confundirse
    • En Rhino ve que la app está abierta y dice que está realizando varias tareas, pero en realidad no las hace, y pasa a la siguiente aunque el paso anterior no se haya completado
    • En OnShape dice que va a crear una forma, pero selecciona el elemento equivocado en el menú y sigue trabajando asumiendo que está usando la herramienta correcta
  • Quiero que la computadora se pase el día creando memes, mientras yo cuido a mi familia, trabajo en el jardín y gano criptomonedas

    • El futuro va en una dirección donde los únicos tontos serán los que usen computadoras
    • La verdadera riqueza es no usar computadoras en absoluto