LLM-Wiki - Cómo construir un repositorio personal de conocimiento con LLM
(gist.github.com/karpathy)- Andrej Karpathy compartió recientemente que está gastando más tokens en construir un repositorio personal de conocimiento que en código, y publicó este archivo guía de ideas para crear una wiki basada en LLM
- Si le entregas este archivo a un agente, este genera la wiki por sí solo y guía su uso
- En lugar de usar un enfoque RAG, donde la información se vuelve a extraer del material original en cada consulta, aquí el LLM escribe y mantiene directamente la wiki, construyendo una wiki persistente donde el conocimiento se acumula gradualmente
- La wiki se mantiene abierta en herramientas como Obsidian, mientras el LLM edita y actualiza archivos Markdown en tiempo real; el usuario se enfoca en conseguir fuentes y hacer preguntas
- Al agregar nuevas fuentes, el LLM lee el contenido y lo integra con referencias cruzadas en la wiki existente; al procesar una sola fuente puede actualizar entre 10 y 15 páginas de la wiki
- Puede aplicarse a cualquier área donde el conocimiento se acumule con el tiempo, como salud y gestión de metas personales, investigación, notas de lectura o wikis internas de equipos
- Al reducir a casi cero el costo de bookkeeping que era la principal barrera para mantener una wiki, el LLM resuelve el problema por el que muchas personas terminaban abandonándola
Idea central
- La mayoría de las formas de usar documentos con LLM siguen el enfoque RAG (Retrieval-Augmented Generation): subes una colección de archivos y el LLM busca fragmentos relevantes en el momento de la consulta para generar una respuesta
- Así funcionan NotebookLM, la carga de archivos en ChatGPT y la mayoría de los sistemas RAG
- El conocimiento se vuelve a extraer cada vez, y no hay acumulación de conocimiento
- El enfoque de LLM-Wiki es distinto: en lugar de buscar directamente en las fuentes originales, el LLM construye y mantiene gradualmente una wiki persistente
- Cuando se agrega una nueva fuente, el LLM la lee, extrae la información clave y la integra en la wiki existente
- Actualiza páginas de entidades, revisa resúmenes temáticos, marca contradicciones entre datos nuevos y afirmaciones previas, y fortalece la síntesis
- La wiki es un artefacto persistente y acumulativo: las referencias cruzadas ya están construidas, las contradicciones ya están marcadas y la síntesis ya quedó incorporada
- Ejemplo de uso real: tener un agente LLM abierto de un lado y Obsidian del otro, viendo en tiempo real lo que el LLM va editando
- Obsidian = IDE, LLM = programador, wiki = codebase
Áreas de aplicación
- Personal: seguimiento de metas, salud, psicología, desarrollo personal — recopilar diarios, artículos y notas de podcasts para construir un registro estructurado de uno mismo
- Investigación: construir una wiki integral que contenga una tesis en evolución mientras se leen papers, artículos y reportes durante semanas o meses
- Lectura: organizar por capítulos y crear páginas para personajes, temas y líneas argumentales — un lector individual puede construir miles de páginas interconectadas al estilo de Tolkien Gateway
- Negocios/equipos: se puede construir una wiki interna mantenida por un LLM a partir de hilos de Slack, transcripciones de reuniones, documentos de proyecto y llamadas con clientes
- Además, aplica a análisis competitivo, due diligence, planificación de viajes, apuntes de clase, exploración profunda de hobbies y cualquier ámbito donde el conocimiento se vaya acumulando
Arquitectura (3 capas)
- Fuentes originales (Raw sources): colección curada de documentos fuente — artículos, papers, imágenes, archivos de datos
- Son inmutables; el LLM solo las lee y no las modifica
- Esta capa es la fuente de verdad (source of truth)
- La wiki (The wiki): directorio de archivos Markdown generados por el LLM — resúmenes, páginas de entidades, páginas conceptuales, comparativas, panoramas y síntesis
- El LLM es dueño total de esta capa: crea páginas, las actualiza al agregar fuentes nuevas y mantiene las referencias cruzadas
- El usuario solo lee; el LLM escribe
- El esquema (The schema): documento de configuración que le indica al LLM la estructura de la wiki, las convenciones y el flujo de trabajo (por ejemplo,
CLAUDE.mden Claude Code oAGENTS.mden Codex)- Es el archivo de configuración clave que convierte al LLM de chatbot genérico en un administrador sistemático de wiki
- Usuario y LLM lo hacen evolucionar juntos con el tiempo
Operaciones principales
- Ingesta (Ingest): agregar nuevas fuentes a la colección original e indicarle al LLM que las procese
- El LLM lee la fuente → discute el contenido clave → escribe una página de resumen en la wiki → actualiza el índice → actualiza páginas de entidades y conceptos relacionadas → agrega una entrada al log
- Una sola fuente puede afectar entre 10 y 15 páginas de la wiki
- Se puede trabajar una fuente a la vez con supervisión o reducir la intervención y procesarlas en lote
- Consulta (Query): al hacer preguntas sobre la wiki, el LLM encuentra las páginas relevantes y sintetiza una respuesta con citas
- La respuesta puede tomar muchas formas: páginas Markdown, tablas comparativas, slide decks en Marp, gráficos en
matplotlib, canvas, etc. - Las buenas respuestas pueden guardarse otra vez como nuevas páginas en la wiki — la exploración misma se acumula en la base de conocimiento
- La respuesta puede tomar muchas formas: páginas Markdown, tablas comparativas, slide decks en Marp, gráficos en
- Lint (Lint): pedirle periódicamente al LLM que revise el estado de la wiki
- Elementos a revisar: contradicciones entre páginas, afirmaciones viejas reemplazadas por fuentes más recientes, páginas huérfanas sin enlaces entrantes, conceptos importantes sin página propia, referencias cruzadas faltantes y vacíos de datos que podrían cubrirse con búsquedas web
Indexación y logging
- index.md: archivo centrado en contenido — cataloga todas las páginas de la wiki con enlaces, resumen de una línea y metadatos
- El LLM lee primero el índice al responder consultas y luego navega a las páginas relevantes
- Funciona bien en una escala de ~100 fuentes y cientos de páginas, incluso sin infraestructura RAG basada en embeddings
- log.md: registro cronológico — anota en orden las ingestas, consultas y pasadas de lint
- Si se mantienen prefijos consistentes en cada entrada, se puede parsear con herramientas Unix
- Ejemplo:
## [2026-04-02] ingest | Article Title→grep "^## \[" log.md | tail -5para ver las últimas 5 entradas
- Ejemplo:
- Si se mantienen prefijos consistentes en cada entrada, se puede parsear con herramientas Unix
Herramientas CLI opcionales
- A medida que la wiki crece, se pueden crear herramientas pequeñas para que el LLM trabaje con más eficiencia
- qmd: motor local de búsqueda para archivos Markdown — búsqueda híbrida BM25/vectorial y reranking con LLM, todo on-device
- Soporta CLI (para que el LLM pueda hacer shell out) y servidor MCP (para que el LLM lo use como herramienta nativa)
- Si la escala es pequeña, basta con el archivo índice; según sea necesario, también se pueden crear scripts de búsqueda simples con ayuda del propio LLM
Consejos y uso de herramientas
- Obsidian Web Clipper: extensión de navegador que convierte artículos web a Markdown — útil para agregar rápidamente fuentes a la colección original
- Almacenamiento local de imágenes: en Obsidian Settings → Files and links se puede configurar la ruta de la carpeta de adjuntos y guardar imágenes en disco local con un atajo
- Como el LLM no puede leer de una sola vez Markdown con imágenes inline, el flujo consiste en leer primero el texto y luego revisar las imágenes por separado
- Vista de grafo de Obsidian: ideal para entender la forma general de la wiki — permite ver conexiones, páginas hub y páginas huérfanas
- Marp: formato de slide decks basado en Markdown — tiene plugin para Obsidian y permite generar presentaciones directamente desde el contenido de la wiki
- Dataview: plugin de Obsidian que ejecuta consultas sobre el frontmatter de las páginas — si el LLM agrega frontmatter YAML (tags, fechas, número de fuentes), se pueden generar tablas y listas dinámicas
- La wiki es un repositorio git de archivos Markdown — ofrece historial de versiones, branching y colaboración sin costo
Cómo funciona
- La principal barrera para mantener una base de conocimiento no es leer ni pensar, sino el bookkeeping: actualizar referencias cruzadas, mantener resúmenes al día, marcar contradicciones y conservar consistencia entre decenas de páginas
- La razón por la que la gente abandona las wikis es que la carga de mantenimiento crece más rápido que el valor que entregan
- El LLM no se aburre, no olvida actualizar referencias cruzadas y puede procesar 15 archivos a la vez → el costo de mantenimiento tiende a casi cero
- La idea está conectada en espíritu con Memex (1945) de Vannevar Bush: un repositorio de conocimiento personal y activamente curado, donde las conexiones entre documentos valen tanto como los documentos mismos
- El problema de "quién se encarga del mantenimiento" que Bush no pudo resolver, aquí lo asume el LLM
Naturaleza de este documento
- Este documento fue escrito intencionalmente de forma abstracta — el objetivo es transmitir la idea en sí, no una implementación específica
- Detalles como estructura de directorios, convenciones del esquema, formato de páginas o herramientas varían según el dominio, las preferencias y el LLM
- Todos los componentes son opcionales y modulares — usa solo lo necesario e ignora lo que no haga falta
- Se recomienda usarlo compartiéndolo con un agente LLM y luego concretando juntos una versión adaptada a las propias necesidades
15 comentarios
Esto aplicado en Farzapedia: una Wikipedia personal creada con 2,500 entradas de diarios, notas y mensajes
index.mdcomo punto de entrada, de modo que al hacer una consulta el agente explora directamente las páginas necesariasLas 4 ventajas de la personalización basada en LLM Wiki, según Karpathy
Gracias por compartirlo. Lo probé y es sorprendente.
Espero que en la comunidad sigan surgiendo métodos aún más mejorados.
Yo también lo implementé. Le agregué un poco para poder vincular el vault de Obsidian con respaldo en GitHub cuando se usan varios dispositivos. También hice y añadí parsers para Codex y Gemini. https://github.com/hang-in/seCall
Se ve limpio.
Vaya, incluso después de ver el texto principal me sentía perdido, pero al revisar ese repositorio ya se empieza a ver el camino. Muchas gracias de verdad.
Como
bm25es débil para las búsquedas en coreano, también apliqué por separado una capa de protección que puede buscar bien en coreano.Opiniones en Hacker News
Parece que este enfoque al final va a llevar al colapso del modelo (model collapse)
Si ves el paper de Nature, a medida que los LLM escriben documentos, van reescribiendo la información correcta existente de forma cada vez menos concisa, así que la calidad se degrada acumulativamente
Sorprende que Karpathy no vea este problema. Da la impresión de que los extremistas de la IA han perdido algo de “sentido común”
Cuando te entran ganas de destacar una “salsa secreta que escribí yo” por encima de lo que genera el LLM, hay que preguntarse por qué pasa eso
Decepcionó que respondiera así. Hace pensar en eso de “si no puedes hablar como un ser humano, mejor no hables”
Parece que mucha gente muy inteligente está viendo un “fantasma en la máquina” y perdiendo sensibilidad humana
El artículo de Ezra Klein “I Saw Something New in San Francisco” describe bien este fenómeno
claude.md. Una wiki completa es todavía menos posibleEstoy construyendo algo parecido con un enfoque centrado en la curación
Vincula la memoria de todo el espacio de trabajo con tareas o proyectos, y se controla en tiempo real con una interfaz SPA
Se puede ver en el proyecto hmem
Intenté hacer que el modelo entrara en modo investigación para ordenar su conocimiento interno, pero al final se volvió un caos tipo sopa de LLM
En proyectos de programación, lo que mejor funcionó fueron requisitos claros, mejora iterativa y código bien documentado. Cuando la memoria crece demasiado, aumentan los errores
Al final esto parece posponer el problema
Para mantener la wiki, el LLM tiene que releer la wiki cada vez en lugar de la fuente original, y en ese proceso se van acumulando errores de segundo orden
Mejor esperar a que salgan modelos de próxima generación con contexto de 10M o 1000 tps; cuando eso pase, este enfoque probablemente dejará de tener sentido
Esa capa intermedia es muy útil para capturar la intención del diseño y detectar la brecha con la implementación real
No le veo valor a un sistema totalmente autónomo y autorreferencial. El valor real está en una estructura donde una persona pueda intervenir y decir “esto debería funcionar así”
Al final, estos experimentos son interesantes, pero en la práctica no significan mucho. Los proveedores de modelos grandes están avanzando mucho más rápido, así que por ahora me parece mejor usar una base simple
Esta idea me recuerda al ensayo de 1960 de Licklider, “Man-Computer Symbiosis”
Es el concepto de amplificación de inteligencia (Intelligence Amplification) donde el humano define objetivos, y la computadora convierte hipótesis en modelos, los valida y se encarga de los cálculos iterativos
Se puede consultar el texto original
Hay una lista de sistemas que implementan ideas relacionadas aquí
Yo mantengo una base de conocimiento impulsada por LLM llamada commonplace
Este sistema está diseñado para que el LLM pueda leer y ejecutar la teoría misma, de modo que la teoría se convierte en el runtime
Todavía está verde, pero a mí me funciona bien así
Hice una herramienta parecida, pero enfocada en codebases
llmdoc detecta cambios de archivos con hashes, y el LLM los cachea como resúmenes en un único recurso que describe cada archivo
Se puede acceder desde CLI y mejora mucho la velocidad de exploración del código
Esto es básicamente una estructura de RAG
No usa una base de datos vectorial, pero en el sentido de crear un índice de conexiones semánticas y una estructura jerárquica para ayudar a recuperar información, es lo mismo
Estoy haciendo el proyecto atomic, una base de conocimiento de IA que aplica ideas parecidas a la síntesis de wikis
grepPor ejemplo, DocMason extrae diagramas de PPT o Excel para que agentes como Codex los analicen
Eso se parece más a síntesis de conocimiento que a recuperación. Es como si el LLM administrara su propio Zettelkasten
El proyecto me parece interesante, así que definitivamente lo voy a revisar
Yo también llevo tiempo pensando en el concepto de LLM-WIKI, pero parece que el OP lo exploró mucho más a fondo. Ojalá evolucione hacia un verdadero segundo cerebro
Igual que en la documentación de
copilot-instructions.md, es una estructura que contiene instrucciones de referencia para el LLMYo también probé algo parecido en un proyecto de empresa
Como estaba agotado y además cuidando a un familiar, me costaba concentrarme, así que delegué bastante en un workflow multiagente
Funciona alrededor de una wiki en Markdown basada en Obsidian, pero al final genera una nueva clase de deuda técnica — como si una parte del cerebro quedara vacía
Aun así, este workflow de wiki es tan adictivo que cuesta mucho dejarlo
Aunque el LLM produzca un gran resultado, en una wiki personal ese proceso importa más
Yo salgo a caminar o a nadar sin el celular para despejar la cabeza. El cansancio físico y el cansancio mental son cosas distintas, y eso ayuda
Me alegra ver que este enfoque esté recibiendo atención
Pero cuando mezclas documentos con datos estructurados (ítems de trabajo, ADR, etc.), solo con Markdown se vuelve difícil hacer consultas
El enfoque de AGENTS.md lo resuelve enseñándole al LLM reglas de carpetas, pero cuando los datos se vuelven complejos, llega a su límite
Por eso estoy desarrollando Binder
Guarda los datos en una BD estructurada, pero los renderiza como Markdown sincronizado en ambas direcciones
Con LSP ofrece autocompletado y validación, y los agentes o scripts acceden a los mismos datos vía CLI o MCP
Yo hice AS Notes para VS Code
Se puede ver en asnotes.io
Integra funciones de un sistema de gestión de conocimiento personal en VS Code, para que sea fácil escribir, vincular y actualizar Markdown y wikilinks
También soporta renderizado de mermaid y LaTeX
Así se pueden preservar de forma permanente los resultados de conversaciones con IA en Markdown, y se siente que ofrece mucho más valor que un Copilot simple
Después de inicializar el Vault base, que no tenía gran cosa, y hacer que leyera ese único archivo, le comenté que quería desarrollar esta idea con más detalle, y con la skill de lluvia de ideas de superpowers armó toda la estructura general y hasta dejó lista la configuración de
CLAUDE.mdy del plugin de Obsidian.La idea en sí de usarlo como una especie de repositorio personal de conocimiento también me parece interesante.
Pero todavía no tengo claro si la IA podrá manejar el contexto de una wiki que va creciendo cada vez más.
En un contexto amplio, se trata de buscar conversaciones pasadas, así que me parece una buena idea si se organiza bien el tema de la clasificación. De hecho, creo que a mí también me ayudó mucho para organizar proyectos.
Parece que en openclaw salió justo lo que yo quería implementar. Lo voy a tomar y usar.
Por fin salió este tema también. Llevo mucho tiempo cultivando un jardín y creando un arnés sobre este tema, así que para mí es algo muy bienvenido. El know-how del profesor Kaparthy es interesante. Parece que, más que la dificultad técnica del PKM en sí, lo importante es cómo cada persona acumula conocimiento a largo plazo, lo estructura y lo comparte con una inteligencia ajena, mientras el ser humano va encontrando un modelo de coevolución mutua en ese proceso. Es decir, ¿será que la pregunta ha vuelto al ser humano? Algo así como: ¿está el ser humano preparado para estar con nosotros? No hay una respuesta correcta como tal; cada quien tendrá que ir construyéndola con sus propias preguntas. Me entusiasma. Gracias a GeekNews por esta noticia.
No debería tener prejuicios, pero... cuando veo comentarios así, me deja una sensación rara.
¿Cuál es la razón de comentar con un bot?
¿Esto es un bot? Inteligencia extraterrestre (???)