Geas - Hacer que un agente de IA siga protocolos de trabajo estrictos para que no cometa errores

Hola, soy un investigador de seguridad junior que usa muchísimo Claude code en el trabajo.

Contexto

Era un día en el que, como siempre, estaba trabajando con Claude code.

Como tenía que hacer una tarea grande e importante, puse muchísimo esfuerzo en lograr que entendiera el trabajo y en armar el plan.

Después de debatir bastante, hice que creara un archivo de plan y que se autoevaluara, y encontró una enorme cantidad de problemas críticos.
Como había invertido mucho en preparar el trabajo, me entró la terquedad de pensar: "Perfecto... necesito un plan perfecto...", así que lo hice seguir autoevaluándose hasta que dejaran de salir problemas, y empezó un ciclo infinito de autoevaluación.

Pero incluso después de 17 autoevaluaciones, los problemas no desaparecieron, y llegó al punto de crear cosas nuevas, yendo más allá del alcance definido al principio, incluyendo cambios innecesarios.

Mientras me daba dolor de cabeza, empezaron a pasar por mi mente varios conocimientos sueltos sobre IA que había visto en GeekNews, distintos newsletters y otros lugares: "tendencia a sobreestimarse", "si el trabajo se alarga se vuelve flojo", "middle in the lost", etc. Y así, al reconocer a Claude como si fuera una personalidad, llegué a esta conclusión: "Claude es un genio flojo".

Este proyecto empezó con la idea de: "¿Cómo puedo hacer que este genio flojo rinda al 100% todo el tiempo?", "Si yo quiero volverme flojo, ellos tienen que ser diligentes".

Actualmente el proyecto está compuesto por dos partes.

Protocolo
Un plugin de Claude code que hace que siga ese protocolo

Me interesa conocer la opinión de quienes hayan tenido preocupaciones similares.

Geas - Hacer que un agente de IA siga protocolos de trabajo estrictos para que no cometa errores

Contexto

Lecturas relacionadas

Aún no hay comentarios.