32 puntos por gracefullight 2026-03-16 | 4 comentarios | Compartir por WhatsApp

Si le dices a un agente “hazme una app de TODO”, algo termina haciendo. El problema es que a menudo crea algo fuera de lugar, se sale del alcance y repite los mismos errores.

Para resolver esto, al principio aparecieron enfoques estructurados como AGENTS.md y, más recientemente, Skills. Pero si ves las skills que realmente se comparten, hay varios problemas en común.

  • Falta la información más importante: la versión de las librerías
  • La descripción del rol termina en una mera declaración como "You are a Senior engineer"
  • Se desperdician tokens explicando largamente cosas que bastarían con unas pocas palabras clave

Como resultado, estas skills ni siquiera son fáciles de seguir para el modelo y, al final, solo desperdician contexto y con el tiempo se convierten en código muerto que nadie quiere volver a abrir.


[Enfoque]

Con oh-my-agent quise resolver este problema no con prompts, sino con un proceso. En vez de decirle simplemente “hazlo de nuevo” cuando el agente trabaja mal, se registra por qué se equivocó y eso se refleja en la siguiente ejecución.

El mecanismo más representativo es la puntuación de Clarification Debt (CD). Si el agente entiende mal los requisitos o se sale del alcance, va acumulando puntos.

  • clarify: +10 — pregunta simple de confirmación
  • correct: +25 — corrección de rumbo por malinterpretar la intención
  • redo: +40 — rollback y reinicio por salirse del alcance
  • empezar a trabajar sin revisar el Charter: +15
  • modificar archivos fuera del alcance permitido: +20
  • repetir el mismo error: multiplicador x1.5

Si supera los 50 puntos, se vuelve obligatoria una Root Cause Analysis (RCA), y si supera los 80, la sesión se detiene. Las lecciones obtenidas de ahí se van acumulando en lessons-learned.md y se aplican de inmediato desde la siguiente sesión. Aunque el prompt sea simple, el proceso se encarga de corregirlo.

Además de eso, hay varios protocolos comunes para evitar que el agente actúe por su cuenta.

  • Clarification Protocol
    La ambigüedad de los requisitos se divide en LOW / MEDIUM / HIGH. Si es LOW, se continúa; si es MEDIUM, se presentan opciones; si es HIGH, se detiene el trabajo y se aclara.
  • Difficulty Guide
    Las tareas se dividen en Simple / Medium / Complex y se ajusta la profundidad de los protocolos necesarios.
  • Context Budget
    Se define un presupuesto de tokens por modelo para reducir el desperdicio innecesario de contexto.

Este enfoque también conecta con lo que OpenAI llamó Harness Engineering. La idea es que usar bien a un agente no depende de una sola línea de prompt, sino de cómo se controla al agente dentro de una estructura.


[Estructura del proyecto]

oh-my-agent gestiona todo esto dentro de la estructura del proyecto.

  • .agents/ = SSOT
    Reúne skills, workflows y configuración bajo .agents/ para usarlo como fuente única de verdad. No depende de un IDE específico.
  • Equipo de agentes basado en roles
    Además de roles base como PM, QA, Frontend, Backend, Mobile y Debug, esta vez se agregaron DB Agent y TF Infra Agent.
    • DB Agent: modelado de SQL / NoSQL / Vector DB, con recomendaciones de seguridad ISO 27001
    • TF Infra Agent: Terraform multicloud, políticas OPA / Sentinel, con guía de controles de la serie ISO 42000
  • Orquestación centrada en workflows
    Toma como flujo base la planificación, revisión, debug y ejecución en paralelo. El workflow /brainstorm, agregado recientemente, explora el diseño sin escribir código.
    Sigue la secuencia análisis del codebase → preguntas de aclaración → propuesta de enfoque → aprobación del usuario → guardado del documento de diseño, y después continúa con /plan → implementación.

[Dos modos de orquestación]

/coordinate funciona rápido y corrige si aparece un problema. PM descompone la tarea, ejecuta a los agentes y luego QA hace una revisión. Si aparecen issues CRITICAL/HIGH, esa parte se vuelve a ejecutar. En conjunto, es un bucle de 7 pasos ligero y veloz.

En cambio, /ultrawork pone mucho más peso en la verificación de calidad. Se divide en cinco etapas: PLAN → IMPL → VERIFY → REFINE → SHIP, y cada una tiene compuertas; si no se supera una, no se puede pasar a la siguiente. 11 de las 17 etapas son de revisión, y en la etapa REFINE también se hace división de archivos, eliminación de duplicación, análisis de efectos colaterales y limpieza de dead code.

Puede parecer un poco excesivo, pero probablemente se pueda compartir la idea de que, a medida que el nivel de abstracción de la programación sube de lenguaje de máquina → lenguaje de programación → lenguaje natural, la verificación termina siendo lo más importante.


[Motivo de la expansión del proyecto]

Hace un mes lo presenté como oh-my-ag, un orquestador exclusivo para Antigravity. Pero desde entonces varios AI IDE empezaron a usar .agents/skills/ como ruta de skills del proyecto, y dejó de tener sentido mantenerlo como algo exclusivo de un IDE en particular. Por eso se expandió a la forma de un arnés general y pasó a ser oh-my-agent.


[Cómo empezar]

curl -fsSL https://raw.githubusercontent.com/first-fluke/oh-my-agent/… | bash

Soporta los principales AI IDE, como Antigravity, Claude Code, Codex CLI y Cursor.


Si ya usas un AI IDE, vale la pena probarlo. Al final, el objetivo del desarrollador es lograr al mismo tiempo QCD (Quality, Cost, Delivery). Fue hecho con la idea de que el desarrollo con agentes tampoco es una excepción.

🔗 GitHub: first-fluke/oh-my-agent

4 comentarios

 
findme 2026-03-16

Soy usuario desde hace tiempo, así que es una noticia que me da gusto. Usé coordinate con muy buenos resultados.
Justo pensaba que estaría bien poder hacer más validaciones, así que si el modo Ultra es todavía más minucioso, tendré que probarlo mañana mismo.

 
gracefullight 2026-03-16

¡Gracias! Si por casualidad no hace mucho caso, avísennos.

 
moon5g 2026-03-17

Al agregar un script en package.json, termina borrando todos los archivos y deja solo la carpeta del workspace. Estoy en proceso de recuperarlos, pero es bastante absurdo.

 
gracefullight 2026-03-17

¿Lo ejecutaste dentro de Claude o del agente? No hay ningún código que elimine package.json ni todos los archivos. ¡Te agradecería si pudieras compartir todo el flujo!

  • tarball.ts:33,35,43 — solo elimina directorios temporales /tmp/oh-my-agent-*
  • cleanup.ts:108,231 — archivo PID, se ejecuta solo con el comando explícito oma cleanup
  • agent.ts:665,1027 — archivos PID/log (cuando termina el proceso)
  • skills.ts:234 — 1 enlace simbólico dentro de .cursor/skills
  • migrate.ts:45-80 — directorio de enlaces simbólicos heredado de .cursor/skills