Tenet - arnés de codificación con IA de larga duración que incluye entrevistas, ejecución de DAG, triple critic y mensajes de steer

(github.com/JeiKeiLim)

8 puntos por jeikei 2026-04-23 | Aún no hay comentarios. | Compartir por WhatsApp

Hola.
Quería compartir Tenet, un arnés de agente de codificación con IA capaz de ejecutarse de forma autónoma durante largos períodos.

Al usar agentes de codificación con IA, las tareas cortas suelen salir bastante bien, pero cuando se pasa a implementaciones que duran varias horas, muchas veces empiezan las dudas rápidamente.
La especificación se vuelve difusa, los tests corren pero no queda claro si son suficientes, cambiar de dirección a mitad de camino se vuelve incómodo, y si la sesión se corta también se pierde el contexto.

Tenet es un arnés creado para reducir ese problema.
Más que ser simplemente “un agente que corre por mucho tiempo”, está más cerca de una estructura pensada para mantener la dirección y la calidad incluso durante ejecuciones largas.

Funciona, a grandes rasgos, con este flujo.

Interview
- Primero concreta los requisitos mediante una entrevista.
- Si hace falta, también realiza investigación técnica.
Visuals / Architecture
- Crea diagramas de arquitectura o mockups de UI.
- Si se trata de trabajo de UI, genera varias variaciones para poder elegir primero hacia qué dirección avanzar.
Spec / Harness / Scenarios
- Deja documentados la spec de implementación, el harness de prueba/validación y los escenarios.
- Fija no solo “qué se va a construir”, sino también “con qué se considerará aprobado”.
DAG decomposition
- Divide el trabajo en un grafo de dependencias.
- Los jobs independientes pueden ejecutarse en paralelo.
Autonomous execution loop
- Ejecuta cada job y, al terminar, le adjunta una evaluación.
- Está diseñado para que este loop pueda correr durante mucho tiempo.

Método de evaluación

Cuando un job termina, no pasa inmediatamente al siguiente, sino que debe superar 3 critic.

code critic: si la implementación coincide con la intención de la spec
test critic: si los tests actuales realmente son suficientes para validar este job
Playwright e2e eval: si realmente funciona desde la perspectiva de un usuario real

Un punto importante fue hacer que estos critic revisaran, en la medida de lo posible, desde un fresh context separado del contexto del autor.
Quería reducir que el agente que escribió el código aprobara demasiado fácilmente su propio resultado.

También lo dejé escrito en el README, pero especialmente del lado de testing consideré que era más importante que los tests validen correctamente que simplemente “haya tests”.

Steer intermedio

En ejecuciones largas, a veces la persona quiere ajustar un poco la dirección a mitad del proceso.

En Tenet, en lugar de volver a explicar toda la ejecución desde el principio en ese momento,
solo se envía un steer message, se guarda, y luego se refleja en los jobs relacionados.

Es decir,

no hace falta cortar todo el loop en ese momento
y se usa un método para retomarlo en la etapa correspondiente.

Le di importancia a dejar documentos y rastros

Mientras construía esto, algo que consideré especialmente importante fue
no dejar solo el resultado, sino también conservar las decisiones y el rastro del trabajo.

Debajo de .tenet/ quedan cosas como estas.

interview
spec
harness
visuals
knowledge
journal
steer
status
SQLite state

Por eso, más que un agente orientado a sesiones que se ejecuta una vez y termina,
apunta a ser una estructura que sigue acumulando un historial de desarrollo que también puede reutilizarse en trabajos posteriores.

La idea se siente más cercana a
intentar llevar al lado de los agentes de IA la estructura de documentación, validación y handoff
que hace falta cuando se delega trabajo a freelancers o a terceros.

Estado actual

Todavía está en una etapa temprana.
Aun así, el flujo básico ya está implementado, y actualmente incluye cosas como las siguientes.

adaptadores para Claude Code / OpenCode / Codex
servidor MCP + CLI
orquestación de jobs basada en DAG
estado persistente basado en SQLite + WAL
recuperación de orphan jobs
pipeline de evaluación de 3 critic
manejo de steer message
estructura documental de .tenet/

De hecho, ya lo he usado en ejecuciones bastante largas,
y confirmé que, tras ejecutarse por más de 6 horas sin intervención humana, produjo resultados utilizables de inmediato.
Uno de los desarrollos que uso a diario ahora mismo también salió usando tenet.

Como es un proyecto en etapa inicial, todavía hay muchas partes ásperas.
Agradeceré mucho cualquier tipo de feedback que quieran darme.

Tenet - arnés de codificación con IA de larga duración que incluye entrevistas, ejecución de DAG, triple critic y mensajes de steer

Lecturas relacionadas

Aún no hay comentarios.