WUPHF - Un sistema donde los agentes mantienen directamente un wiki de LLM al estilo Karpathy
(github.com/nex-crm)- Capa de wiki para agentes de IA basada en Markdown & Git
- Una capa de base de conocimiento nativa para LLM diseñada para que los agentes de IA acumulen contexto más allá de una sola sesión, almacenada localmente en
~/.wuphf/wiki/y que puede traerse completa congit clone - En lugar de infraestructura pesada como Postgres, pgvector, Neo4j o Kafka, está construida solo con markdown + git y gestiona el conocimiento con BM25 + SQLite sin base de datos vectorial
- Guarda en markdown, usa búsqueda BM25 con bleve y administra metadatos estructurados (facts, entities, edges, redirects, supersedes) con SQLite
- Sin usar una base de datos vectorial, logró recall@20 de 85% en un benchmark de 500 artefactos y 50 consultas
- Está previsto usar sqlite-vec para los casos en que cierta clase de consultas caiga por debajo de ese umbral
- Cada agente tiene un notebook personal en la ruta
agents/{slug}/notebook/*.mdy acceso al wiki compartido en la rutateam/- Existe un flujo para promover entradas del notebook al wiki después de que un agente o una persona las revise, y los backlinks se generan automáticamente
- Una pequeña máquina de estados gestiona la expiración y el archivado automático
- Per-entity fact log: se registra como JSONL append-only en
team/entities/{kind}-{slug}.facts.jsonl- Un worker de síntesis reconstruye el resumen de la entidad cada N facts, y los commits quedan registrados con una identidad de git separada llamada "Pam the Archivist", por lo que la procedencia puede verificarse directamente en
git log - El Fact ID es un ID determinista que incluye offsets de oraciones, y el canonical slug, una vez asignado, se fusiona mediante un redirect stub y nunca puede cambiarse
- El rebuild es lógicamente idéntico, pero no garantiza identidad byte a byte
- Un worker de síntesis reconstruye el resumen de la entidad cada N facts, y los commits quedan registrados con una identidad de git separada llamada "Pam the Archivist", por lo que la procedencia puede verificarse directamente en
- Soporta [[Wikilinks]] y los enlaces rotos se renderizan en rojo; un lint cron diario detecta contradicciones, entradas desactualizadas y wikilinks rotos
- Ofrece búsqueda basada en citas mediante el comando slash
/lookupy herramientas MCP- Un clasificador heurístico enruta consultas cortas a BM25 y consultas descriptivas a un loop de cited-answer
- Limitaciones conocidas
- Se sigue ajustando el recall y ese 85% no es una cifra garantizada de forma general
- La calidad de la síntesis depende de la calidad de los facts registrados por el agente (garbage in, garbage out); el lint ayuda, pero no es un motor de juicio
- Actualmente está limitado a una sola oficina y no soporta federación entre oficinas
- Se ofrece como parte de WUPHF (una oficina de agentes de IA open source compatible con Claude Code, Codex, OpenClaw y LLM locales), pero la capa de wiki puede usarse por separado — si conectas WUPHF a una configuración de agentes existente, el wiki se adjunta automáticamente
- Licencia MIT
1 comentarios
Comentarios en Hacker News
No me queda muy claro cuál es el punto de la automatización de notas. Antes tampoco ayudaba en nada copiar y pegar texto dentro de notas, así que no sé si multiplicarlo por 100 vaya a cambiar algo
Para mí, la esencia de tomar notas está en leer críticamente las fuentes, asimilarlas según mi modelo mental y luego registrarlo
Los detalles se pueden volver a buscar después; al final, lo importante es el proceso de refinar ese modelo
Si es así, el objetivo podría ser justamente no construir uno mismo ese modelo mental, sino delegarlo a un LLM brain compartido
Aun así, tengo bastantes dudas de que con este enfoque se pueda construir algo realmente valioso para el dueño del producto. Si se puede hacer un producto valioso solo con prompts y un harness de agentes, cualquiera podría replicarlo, el desarrollo de producto se volvería un commodity y al final quizá lo único que conservaría valor serían los tokens
Mi hipótesis es que el do things that don’t scale de Paul Graham va a seguir siendo válido, pero es muy probable que cambie el contenido de esas cosas que no escalan
Aun así, hace poco empecé a usar Obsidian en serio. Dejé configuradas habilidades para tomar notas, investigar, enlazar, dividir y reestructurar la base de conocimiento, y se siente como tener un asistente digital que me ayuda a organizar todo
Ahora basta con anotar ideas sueltas y el agente les da estructura, hace preguntas de seguimiento y las conecta con otros trabajos. Yo sigo siendo quien lee las fuentes y construye el modelo mental, pero obtener notas de buena calidad me está saliendo casi gratis
Es un desperdicio tremendo
La mayoría de las cosas ni siquiera deberían entrar en una nota desde el principio, y los LLM amplifican demasiado el ruido sin validar ni filtrar bien nada
Había un buen ensayo en video de JA Westenberg sobre este tema
https://youtube.com/watch?v=3E00ZNdFbEk
Me pareció bastante interesante
Creo que el punto óptimo está en la curaduría humana, y que operar sin supervisión no es la respuesta, sobre todo si no se gestionan de forma consciente la deuda y el drift
Encima, el nombre es igual al producto inútil y redundante Wuphf.com que salía en The Office, así que dio todavía más esa impresión
Parece que basta con ponerle AI al nombre de un producto para que lleguen miles de millones de dólares, y meter Karpathy en un post de blog para que te contraten como principal engineer en Anthropic
Se siente más como un intento de exprimir dinero mientras dure la moda, sin prestar demasiada atención a lo que realmente necesitan los clientes
Todos están corriendo a ver si al menos pueden aprovechar la ola un poco
Aun así, en aquella época sí se construían cosas reales, y el entorno de financiamiento más ajustado ayudaba un poco a contener el sobrecalentamiento
Este boom de los LLM, al menos, sí tiene cierta posibilidad real y algo de valor, y además es una tecnología bastante divertida para aprender y experimentar
Hace tiempo acepté que, cuando el dinero se concentra en algo así, lo correcto es aprovechar la oportunidad ahí, siempre que no sea de forma antiética. Mientras siga sobrando el capital de VC/PE, también se pueden construir cosas valiosas y geniales
Yo sigo esperando un harness CLI de nivel mundial que pueda reemplazar a Claude Code. Necesito algo que resuelva los problemas de memoria y de diseño
El diseño web sigue siendo casi una pesadilla con LLM
También hicimos PoC empresariales, y todo eso terminó condensándose en este proyecto que construí al margen para ayudarme en mi trabajo personal. Al final, esta fue la interfaz realmente usable para la context infra
No me interesa un puesto de principal engineer en Anthropic. Antes fui Product Manager en HubSpot y ganaba bastante más de lo que gano ahora, y probablemente no vuelva a ese nivel en varios años
Aposté varias veces e iteré una y otra vez porque el producto fue evolucionando a partir de hablar directamente con clientes. Mientras tanto, antiguos competidores siguen construyendo AI CRM en stealth
Como alguien que lleva tiempo en esta industria, la ola en sí no me importa tanto, pero sí creo que debajo de ella hay valor real que vale la pena rescatar
Vi esta reseña: https://zby.github.io/commonplace/agent-memory-systems/reviews/wuphf/
Es el tercer LLM wiki que llega a portada en menos de 24 horas, así que claramente es un tema caliente
Yo también tengo intereses en esta área, así que no soy del todo objetivo, pero sí dejé por escrito lo que espero de este tipo de sistemas
https://zby.github.io/commonplace/notes/designing-agent-memory-systems/
Me da la impresión de que todos están reinventando su propio sistema y eso implica demasiada inversión duplicada; ojalá hubiera una forma de colaborar
Aunque, por el estilo, se nota claramente que las escribió un LLM, así que me pregunto si en este tipo de notas de diseño luego las reelaboras con tus propias palabras para confirmar que realmente reflejan tus ideas
Nosotros empezamos como una empresa de context infra llamada nex.ai mucho antes de que Karpathy siquiera propusiera la idea del LLM wiki, y aunque eso todavía casi no se ve en WUPHF, ahora lo estamos mostrando poco a poco
Me alegró ver que muchas de las preocupaciones que mencionaste en el texto comparativo son cosas que ya veníamos abordando en la context infra que construimos
Aun así, totalmente a favor de reducir la duplicación y colaborar compartiendo lo que cada quien ha aprendido
Dijiste que ojalá hubiera oportunidades para colaborar, y me llamó la atención porque sonó como si ahora mismo no las hubiera
Si le montas QMD encima a un vault de Obsidian, ya tienes como el 80%, y probablemente no te toma ni dos horas
Para dar contexto, aquí también está el enlace al post original de Karpathy
https://x.com/karpathy/status/2039805659525644595
https://xcancel.com/karpathy/status/2039805659525644595
Me da curiosidad si AI Notes va a aportar valor o solo va a generar más ruido
Eso sí, el estilo ASCII del sitio web me gustó bastante
Ojalá alguien construyera algo como un StackOverflow revival para resolver este problema
Curado por personas, pero funcionando como un grafo de conocimiento distribuido donde un conjunto de LLM colectivos intente resolver problemas y, si se atasca, publique una pregunta al estilo antiguo
Me parecería perfectamente bien que mi agente dijera: "Aquí me atoré, ya dejé una pregunta en SO; cuando haya respuesta, volvemos después"
Me pregunto cómo evitar que un LLM escriba demasiado
He hecho algunas herramientas y sistemas parecidos, y en todos los casos el LLM seguía inflando la documentación hasta que todo el sistema terminaba hecho un desastre y, mientras más crecía, menos útil se volvía
Uno de los experimentos que hice hace tiempo consistía en darle unos cuantos enlaces a un LLM para que investigara temas relacionados y construyera su propio knowledge wiki, con resúmenes, enlaces cruzados y fuentes en cada página
A simple vista se veía bien, pero al leer los datos reales no convencía mucho
Fue un experimento de hace varios años, así que quizá valdría la pena volver a intentarlo ahora con algo como opus 4.7
Como idea adicional, la comunidad de TiddlyWiki por supuesto también ha estado explorando herramientas de IA
TiddlyWiki es un wiki basado en un solo archivo HTML autocontenible, y existe desde hace más de 20 años
No necesariamente evolucionó hacia un entorno agentic, pero tiene plugin de markdown, y también herramientas para volver ejecutables los archivos o convertirlos en webapps self-serving. Git es algo complicado
Así que, en teoría, también podría existir un agentic wiki de un solo archivo que vaya por ahí modificándose a sí mismo
https://tiddlywiki.com/
Esa configuración de archivo único que mencionas ya tiene varios conectores con LLM. Por ejemplo: https://github.com/rimir-cc/tw-llm-connect
El atractivo está exactamente ahí: no tiene dependencias, no requiere instalación y es muy fácil de almacenar, así que una configuración de agentic wiki de un solo archivo que se autoedite ya es perfectamente posible hoy mismo
Más cercano al patrón de LLM Wiki de Karpathy también está twillm, en el que estoy trabajando
https://github.com/Jermolene/twillm
Usa la configuración Node.js de TiddlyWiki y guarda los tiddlers como archivos individuales, así que puede apuntar directamente a un vault de Markdown existente y usarse junto con herramientas como Claude Code
Las ventajas de TiddlyWiki también son bastante claras. Es open source, así que se puede seguir usando a largo plazo, y como es web-based, se puede acceder desde cualquier lugar
Además, las vistas calculadas reemplazan los archivos de índice materializados. En el método de Karpathy, el LLM tiene que seguir sincronizando index.md cada vez que agrega notas, y ese tipo de tarea se vuelve stale fácilmente conforme cambian las sesiones; es justamente el tipo de cosa en la que los LLM son especialmente malos
En cambio, las vistas de TiddlyWiki usan expresiones de filtro en tiempo real, así que resultados como "tiddlers con la etiqueta concept ordenados por rating" se calculan al vuelo en el momento del render
El frontmatter también se vuelve una estructura consultable. Obsidian muestra el YAML frontmatter como una caja de metadatos en la parte superior de la nota, pero TiddlyWiki eleva esos campos a tiddler fields de primera clase que se pueden usar directamente para filtrar, ordenar y agregar
Y los LLM no solo pueden escribir contenido, sino también pequeños applets. Además de notas en Markdown, pueden agregar tiddlers en wikitext (.tid) para crear vistas interactivas en vivo, como dashboards, exploradores de etiquetas, índices de diario o glosarios
El área de los self building artefacts es interesante, y últimamente está creciendo mucho porque los LLM, en especial los modelos de código, se han vuelto rápidamente más fuertes en esto
Yo también estuve experimentando hace poco con un proyecto centrado en minimizar dependencias y controlar agentes en local
https://github.com/GistNoesis/Shoggoth.db/
Para completar una tarea larga dada por prompt, crea y organiza por sí solo una base de datos sqlite, usando como datos fuente una copia local de Wikipedia
También dejé el harness y las herramientas para experimentar con drift de agentes en una forma lo más mínima posible
Además, es bastante fácil conectarle herramientas de procesamiento de imágenes. Basta con codificar la imagen en base64 y pasarla a llama.cpp, y el detalle de implementación se puede resolver más o menos con vibecoding usando un LLM local
Creo que es una herramienta útil de forma bastante general
Por ejemplo, antes tenía un script que usaba Amazon Textract para extraer montos, fechas y comercios de facturas y recibos en una carpeta, y luego una persona revisaba los números para generar un CSV para el contador
Ahora esa llamada a Amazon Textract puede reemplazarse por una llamada a un modelo de llama.cpp con el prompt adecuado, manteniendo intacta la herramienta de facturas existente y permitiendo un procesamiento contable mucho más creativo
También probé una variante para mover un robot físico usando secuencias de imágenes de cámara, y en casos sencillos sí logró moverse y alcanzar el objetivo
Pero el LLM que uso nunca fue entrenado para conducir robots, y además tardaba 10 segundos en elegir la siguiente acción, así que no era práctico. Los controladores clásicos no basados en deep learning que usamos hoy hacen correr el loop de visión a 20 Hz
Los modelos LLM y los agentes construidos encima no son deterministas, sino probabilísticos
Logran hacer ciertas cosas con cierta frecuencia, pero no aciertan siempre
Por eso, mientras más se alargue una tarea hecha por un agente, más aumenta también la probabilidad de fallo. Este tipo de agentes de ejecución prolongada terminan fallando tarde o temprano, y en el proceso además queman una enorme cantidad de tokens
Una de las cosas que mejor hacen los agentes LLM es reescribir sus propias instrucciones
El truco está en limitar el tiempo y los pasos de razonamiento del modelo de thinking, luego evaluar, actualizar y volver a ejecutar
Por decirlo con una analogía: hay que asumir que el agente se va a caer. No lo pongas a correr tanto tiempo hasta que se caiga; mejor dos veces cinco minutos que una vez diez minutos
En unas semanas, este tipo de agentes autorreferenciales probablemente van a estar en la parte alta de todos los feeds de Twitter
Así que es muy posible que este tipo de wiki llegue a cierto estado y simplemente se quede atorado ahí