Cómo crear un equipo de agentes de IA que reseñe como un coreano de verdad (fork de Harness + 1 millón de personas de NVIDIA)

(github.com/hongsw)

6 puntos por fastkoder 2026-04-28 | 1 comentarios | Compartir por WhatsApp

TL;DR

En un harness donde el enfoque está en revisar — revisión de código, revisión de documentación, investigación UX, simulación de entrevistas — el valor aparece cuando 5 revisores tienen 5 perspectivas distintas. En un equipo genérico de agentes de IA, los 5 suelen tener un tono y una perspectiva parecidos, así que en la práctica la opinión de una sola persona se repite 5 veces.

Este fork incorpora en tiempo de ejecución búsquedas dinámicas sobre NVIDIA Nemotron-Personas-Korea (1 millón de filas, CC BY 4.0), y les da a los agentes perfiles de personas reales del entorno laboral coreano (hasta rol, generación, región y situación familiar) para producir reseñas con perspectivas realmente distintas.

Por qué un harness de revisión necesita profundidad de personas

Incluso viendo el mismo código/documento/diseño, cada persona tiene una perspectiva distinta:

Líder de backend de 45 años con experiencia en SI
→ "Desde la gestión de riesgos, vayamos con un despliegue por etapas. Si validamos lo suficiente, al final eso termina acortando el calendario."
Growth marketer MZ de 24 años
→ "Me gusta la rapidez con la que plantearon hipótesis cuando se dispararon los números, pero el nivel de significancia está algo débil. ¿Le damos más vueltas al A/B?"
PM de 38 años, madre trabajadora
→ "En conclusión, si esto no entra dentro del trimestre, entonces por favor revisemos prioridades primero."
Diseñador de 27 años con experiencia en fintech
→ "En los datos cualitativos de entrevistas con usuarios, se repitió bastante el comentario de que 'el momento de recibir el cupón se siente algo plano'."

→ Aun viendo el mismo código, 4 personas capturan riesgos/valores/prioridades diferentes. Esa es la esencia de un equipo de revisión.

Qué se agregó (3 skills nuevas, no invasivas)

revfactory/harness existente no se modifica; la activación se bifurca automáticamente por palabras clave en la description:

korean-persona-search — filtro multieje con predicate pushdown sobre Parquet (rol, región, edad, educación, generación) + muestreo de diversidad
korean-voice-adapter — matriz de estilos formales coreanos + cultura laboral coreana (línea de reporte, modales en reuniones, expresiones indirectas) + diccionario de vocabulario de 13 industrias
korean-persona-harness — metaorquestador (pipeline de 5 subagentes: analista de escenarios → curador de personas → adaptador de habla → constructor de agentes → QA de diversidad)

Compatible tanto con Claude Code como con Codex CLI — mismo formato SKILL.md, caché de dataset compartida.

Validación — mismo LLM, misma tarea, mismo volumen (102 líneas vs 103 líneas)

Simulación de minuta de standup semanal de un equipo de 5 personas. La precisión de dominio es equivalente. La diferencia aparece en la diversidad de perspectivas.

Resultado de harness normal:

Identificabilidad de voz: baja (los 5 tienen casi el mismo tono)
Modales laborales coreanos: mínimos
Respuestas mutuas, ánimo y agradecimientos: 0 veces
Tono de solicitud/confirmación: 5 veces
Exposición de asuntos personales: 0 casos

Resultado de korean-persona-harness:

Identificabilidad de voz: muy alta (se pueden distinguir incluso ocultando los nombres)
Modales laborales coreanos: abundantes (evitar afirmaciones tajantes, mentoring, tono de confirmación)
Respuestas mutuas, ánimo y agradecimientos: 4 veces
Tono de solicitud/confirmación: 11 veces
Exposición de asuntos personales: 2 casos (agenda familiar, apelación a autoridad)

Detalle humano que apareció solo en Run B:

Backend (papá de dos hijos): "La próxima semana voy a estar algo complicado por temas de agenda de los niños, así que creo que sería bueno dejar una rotación organizada con anticipación."

Modales laborales coreanos: mínimos
Modales laborales coreanos: mínimos
Respuestas mutuas, ánimo y agradecimientos: 0 veces
Tono de solicitud/confirmación: 5 veces
Exposición de asuntos personales: 0 casos

Resultado de korean-persona-harness:

Identificabilidad de voz: muy alta (se pueden distinguir incluso ocultando los nombres)
Modales laborales coreanos: abundantes (evitar afirmaciones tajantes, mentoring, tono de confirmación)
Respuestas mutuas, ánimo y agradecimientos: 4 veces
Tono de solicitud/confirmación: 11 veces
Exposición de asuntos personales: 2 casos (agenda familiar, apelación a autoridad)

Detalle humano que apareció solo en Run B:

Backend (papá de dos hijos): "La próxima semana voy a estar algo complicado por temas de agenda de los niños, así que creo que sería bueno dejar una rotación organizada con anticipación."

Líder de equipo (45 años) → marketer (24 años): "La actitud de plantear rápido hipótesis sobre la causa cuando se dispararon los números, sigue por ese camino."
Marketer: "Ah, muchas gracias, líder!"

Líder de equipo: "Sin embargo, hay indicios de que nuestra política de reintentos estuvo funcionando de forma demasiado agresiva y eso amplificó parte de la incidencia. No voy a afirmarlo de forma definitiva hasta la versión final del RCA."

→ Las personas de familia, generación y rol se integran de forma natural en el habla. No es una prioridad abstracta de "estabilidad primero", sino que se nota en la conducta por qué esta persona tiene esa prioridad.

Matriz de valor — dónde puede servir

Revisión de código (5 personas, 5 perspectivas distintas) → muy alto
Simulación de entrevistas con usuarios virtuales → muy alto
Revisión de copy de marketing para usuarios coreanos → muy alto
Investigación UX y talleres de personas → alto
Simulación de minutas y colaboración en reuniones → alto
RFC y documentación técnica → medio
Diseño de infraestructura y arquitectura → bajo (harness base es más adecuado)

Instalación (1 línea)

Claude Code:

  /plugin marketplace add hongsw/harness  
  /plugin install harness@harness

Codex CLI:

  python3 ~/.codex/skills/.system/skill-installer/scripts/install-skill-from-github.py \  
      --repo hongsw/harness \  
      --path skills/korean-persona-search \  
      --path skills/korean-voice-adapter \  
      --path skills/korean-persona-harness

Caché de dataset (compartida entre ambos runtimes):

  pip install huggingface_hub pyarrow  
  python3 $SKILL_DIR/korean-persona-search/scripts/download.py

⚠️ Atención: el instalador existente de revfactory/harness usa el mismo nombre de marketplace y plugin, por lo que se necesita una migración de 4 pasos:

  /plugin uninstall harness@harness  
  /plugin marketplace remove harness-marketplace  
  /plugin marketplace add hongsw/harness  
  /plugin install harness@harness

Enlaces

Repositorio del fork: github.com/hongsw/harness
PR #9 upstream (pendiente de merge): github.com/revfactory/harness/pull/9
Artefactos de validación: _workspace/comparison_test
Dataset: huggingface.co/.../Nemotron-Personas-Korea (CC BY 4.0)
Harness original: github.com/revfactory/harness

1 comentarios

tomlee 2026-04-28

Qué interesante jaja. Nosotros también estamos yendo por un camino distinto en un área similar: es una plataforma de registro y compartición para almacenar personas llamada ClawSouls (clawsouls.ai). Las personas que se registran una vez pueden aplicarse en plataformas de agentes como OpenClaw, Claude Code, Cursor y Hermes Agent mediante el paquete npm clawsouls. Les agradecería si pudieran publicarlo también. Esta plataforma ya fue presentada antes en GeekNews. Show GN: ClawSouls – Un registro abierto para cambiar la persona de un agente de IA con una sola línea Si les interesa colaborar, por favor contáctenme ^^ ( contact@clawsouls.ai )