AgentBlue - agente de IA open source que automatiza Android con comandos en lenguaje natural
(github.com/RGLie)Hola, creé un sistema de agente móvil llamado AgentBlue.
AgentBlue es un sistema open source de automatización con IA que, al ingresar comandos en lenguaje natural desde la terminal, hace que un dispositivo Android explore apps, toque y escriba por sí solo.
Cómo funciona
Usa el Accessibility Service de Android para leer el árbol de UI de la pantalla actual, lo envía a un LLM y así decide la siguiente acción. Este bucle ReAct (Reasoning + Acting) se repite hasta que se cumpla la condición de finalización.
"Busca música lo-fi en YouTube"
→ parseo de UI → decisión del LLM → CLICK "YouTube" → TYPE "lo-fi" → CLICK buscar → DONE
El CLI y la app de Android se comunican en tiempo real usando Firebase Firestore como servidor de retransmisión. Se emparejan con un código de sesión de 8 dígitos, sin necesidad de un servidor aparte.
Características principales
- Soporte para múltiples LLM — elige entre OpenAI, Google Gemini, Anthropic Claude y DeepSeek
- REPL en terminal — inicia una sesión con
agentblue starty envía comandos en lenguaje natural - Configuración remota — cambia la configuración de la app de Android desde el CLI con
/settingy/model - Monitoreo de estado en tiempo real — revisa el progreso de cada paso en la terminal en tiempo real
- Guardas de seguridad — se detiene automáticamente antes de acciones irreversibles como confirmar pagos o eliminar cuentas
- Detección y recuperación de bloqueos — si falla repetidamente en la misma pantalla, inyecta pistas o fuerza
BACK - Uso directo en el dispositivo — permite ingresar comandos directamente desde el dispositivo con un botón flotante, sin CLI
Inicio rápido
Cómo usarlo
npm install -g @agentblue/cli
agentblue init # configuración de Firebase + selección de idioma (incluye servidor compartido por defecto)
agentblue start # genera un código de sesión → ingrésalo en la app de Android → conexión completada
La app de Android se puede usar de inmediato con solo permitir Accessibility Service y el permiso de overlay.
Por qué lo hice
La mayoría de las herramientas RPA se basan en coordenadas de pantalla, así que una sola actualización de la app puede romper los scripts. AgentBlue encuentra objetivos según el significado de la UI (texto, contentDescription, resource ID), por lo que resiste mucho mejor los cambios de layout. Como el LLM vuelve a decidir en cada paso "qué debe hacer después", no hace falta diseñar escenarios por adelantado.
Se agradecen comentarios y contribuciones. En especial, si tienen mejores estrategias de parseo de UI o ideas para mejorar la detección de bloqueos, ¡háganmelo saber por issues, PR o comentarios!
Gracias
Aún no hay comentarios.