14 puntos por j2hyeon02 2026-03-08 | Aún no hay comentarios. | Compartir por WhatsApp

Hola, creé un sistema de agente móvil llamado AgentBlue.

AgentBlue es un sistema open source de automatización con IA que, al ingresar comandos en lenguaje natural desde la terminal, hace que un dispositivo Android explore apps, toque y escriba por sí solo.

Cómo funciona

Usa el Accessibility Service de Android para leer el árbol de UI de la pantalla actual, lo envía a un LLM y así decide la siguiente acción. Este bucle ReAct (Reasoning + Acting) se repite hasta que se cumpla la condición de finalización.

"Busca música lo-fi en YouTube"
→ parseo de UI → decisión del LLM → CLICK "YouTube" → TYPE "lo-fi" → CLICK buscar → DONE
El CLI y la app de Android se comunican en tiempo real usando Firebase Firestore como servidor de retransmisión. Se emparejan con un código de sesión de 8 dígitos, sin necesidad de un servidor aparte.

Características principales

  • Soporte para múltiples LLM — elige entre OpenAI, Google Gemini, Anthropic Claude y DeepSeek
  • REPL en terminal — inicia una sesión con agentblue start y envía comandos en lenguaje natural
  • Configuración remota — cambia la configuración de la app de Android desde el CLI con /setting y /model
  • Monitoreo de estado en tiempo real — revisa el progreso de cada paso en la terminal en tiempo real
  • Guardas de seguridad — se detiene automáticamente antes de acciones irreversibles como confirmar pagos o eliminar cuentas
  • Detección y recuperación de bloqueos — si falla repetidamente en la misma pantalla, inyecta pistas o fuerza BACK
  • Uso directo en el dispositivo — permite ingresar comandos directamente desde el dispositivo con un botón flotante, sin CLI
    Inicio rápido

Cómo usarlo

npm install -g @agentblue/cli
agentblue init # configuración de Firebase + selección de idioma (incluye servidor compartido por defecto)
agentblue start # genera un código de sesión → ingrésalo en la app de Android → conexión completada
La app de Android se puede usar de inmediato con solo permitir Accessibility Service y el permiso de overlay.

Por qué lo hice

La mayoría de las herramientas RPA se basan en coordenadas de pantalla, así que una sola actualización de la app puede romper los scripts. AgentBlue encuentra objetivos según el significado de la UI (texto, contentDescription, resource ID), por lo que resiste mucho mejor los cambios de layout. Como el LLM vuelve a decidir en cada paso "qué debe hacer después", no hace falta diseñar escenarios por adelantado.

Se agradecen comentarios y contribuciones. En especial, si tienen mejores estrategias de parseo de UI o ideas para mejorar la detección de bloqueos, ¡háganmelo saber por issues, PR o comentarios!

Gracias

Aún no hay comentarios.

Aún no hay comentarios.