Por qué los sistemas de archivos están llamando la atención
(madalitso.me)- En el reciente ecosistema de agentes de IA, el sistema de archivos vuelve a atraer atención y está surgiendo como un medio de gestión de contexto persistente distinto de las bases de datos
- La ventana de contexto de los LLM se parece más a una pizarra que se borra que a una memoria persistente, y el sistema de archivos es el medio de almacenamiento permanente más simple para resolverlo
- Claude Code, Cursor y otros implementan memoria de largo plazo mediante almacenamiento de contexto basado en archivos; archivos como
CLAUDE.mdyaboutme.mdcumplen el papel de contener la identidad del agente y la información del entorno - La gestión de contexto basada en sistemas de archivos está emergiendo como tema central, y empresas clave como LlamaIndex, LangChain, Oracle y Archil han publicado seguidamente textos y productos relacionados
- Mientras proliferan archivos de contexto para agentes como
CLAUDE.md,AGENTS.mdy.cursorrules, el formato Agent Skills (SKILL.md) de Anthropic está siendo adoptado por Microsoft, OpenAI, GitHub y Cursor, logrando interoperabilidad - Según una investigación de ETH Zürich, los archivos de contexto podrían incluso reducir la tasa de éxito de las tareas y aumentar el costo de inferencia en más de 20%, por lo que conviene describir solo los requisitos mínimos
- Los archivos no dependen de una app específica y se están consolidando como una interfaz abierta que, en la era de los agentes de IA, permite cambiar entre herramientas, combinar flujos de trabajo y mantener continuidad
Everyone is talking about files : en todos lados se habla de archivos
- LlamaIndex publicó "Files Are All You Need", y LangChain abordó cómo los agentes pueden usar sistemas de archivos para la ingeniería de contexto
- Oracle (sí, Oracle) publicó un texto que compara sistemas de archivos y bases de datos para gestionar la memoria de agentes, mientras que Dan Abramov propuso un sistema de archivos social basado en AT Protocol
- Archil está construyendo volúmenes en la nube porque los agentes quieren un sistema de archivos POSIX
- Jerry Liu de LlamaIndex sostiene que, en lugar de "un agente con cientos de herramientas", uno con un sistema de archivos y 5 a 10 herramientas podría ser más general que un agente con más de 100 herramientas MCP
- Karpathy señala que Claude Code funciona porque se ejecuta directamente sobre la computadora, el entorno, los datos y el contexto del usuario, y evalúa que OpenAI se equivocó al enfocarse en desplegar contenedores en la nube
- Hoy, los agentes de programación representan la mayor parte de los casos de uso prácticos de IA, y Anthropic está cerca de la rentabilidad mientras Claude Code, su herramienta CLI, impulsa una parte considerable de sus ingresos
La ventana de contexto no es memoria
- La memoria humana incluye almacenamiento de largo plazo, recuerdo selectivo y olvido de información innecesaria, pero la ventana de contexto de un LLM se parece más a una pizarra que se borra constantemente
- Al usar Claude Code, cuando se acerca la alerta de "context left until auto-compact", el contexto acumulado por el agente —como la base de código, preferencias y decisiones— se comprime o se pierde
- El sistema de archivos resuelve esto de la forma más simple: escribir el registro en archivos y volver a leerlo cuando haga falta
CLAUDE.mdbrinda contexto persistente sobre el proyecto- Cursor guarda historiales de chat pasados como archivos buscables
- El archivo
aboutme.mdfunciona como un descriptor de identidad portable que contiene preferencias, habilidades y estilo de trabajo, y puede moverse entre apps sin coordinación por API
Investigación de ETH Zürich: la paradoja de los archivos de contexto
- Un artículo reciente de ETH Zürich evaluó si los archivos de contexto a nivel de repositorio realmente ayudan a los agentes de programación a completar tareas
- El resultado fue contraintuitivo: en varios agentes y modelos, los archivos de contexto terminaron reduciendo la tasa de éxito de las tareas, mientras que el costo de inferencia aumentó en más de 20%
- Los agentes que recibieron archivos de contexto exploraron más ampliamente, ejecutaron más pruebas y recorrieron más archivos, pero se demoraron más en llegar al código que realmente necesitaba modificaciones
- El archivo funcionó como una checklist que el agente seguía con demasiada rigidez
- La conclusión del paper no es "no usen archivos de contexto", sino que los requisitos innecesarios vuelven más difícil la tarea y los archivos de contexto deberían describir solo los requisitos mínimos
- El problema no es la capa persistente del sistema de archivos en sí, sino la práctica de escribir
CLAUDE.mdcomo si fuera un documento de onboarding de 2,000 palabras
El formato de archivo es la API — pero, ¿qué archivo?
- Hoy conviven
CLAUDE.md,AGENTS.md,copilot-instructions.mdy.cursorrules; hay consenso en que los agentes necesitan contexto persistente basado en sistema de archivos, pero no hay acuerdo sobre el nombre del archivo ni el formato de su contenido - En el texto sobre sistema de archivos social de Dan Abramov, el diseño central es este: AT Protocol trata los datos del usuario como archivos dentro de un repositorio personal, y las apps evitan conflictos mediante namespaces basados en nombres de dominio, sin necesidad de ponerse de acuerdo sobre qué es un "post"
- La base de datos de cada app pasa a ser dato derivado, es decir, una vista materializada en caché de todas las carpetas de usuario
- Anthropic presentó Agent Skills como estándar abierto: el formato
SKILL.mdfue adoptado por Microsoft, OpenAI, Atlassian, GitHub y Cursor- Una skill escrita para Claude Code también funciona en Codex y Copilot: el formato de archivo es la API
- NanoClaw es un framework ligero de asistente personal de IA que adopta un modelo de "skills en lugar de funciones"
- Si hace falta soporte para Telegram, en vez de un módulo de Telegram, una skill
/add-telegram(archivo Markdown) le enseña a Claude Code cómo integrarlo - Como las skills son archivos, son portables, auditables y combinables, sin necesidad de servidores MCP ni marketplaces de plugins
- Si hace falta soporte para Telegram, en vez de un módulo de Telegram, una skill
- Esto es interoperabilidad sin coordinación: si dos apps pueden leer Markdown, pueden compartir contexto; si entienden el formato
SKILL.md, pueden compartir funcionalidades; sin contratos de partnership ni reuniones de organismos de estandarización, el propio formato de archivo cumple el papel de coordinación
El desplazamiento del cuello de botella
- La arquitectura de datos tradicional se diseñó bajo la idea de que el almacenamiento era el cuello de botella, pero a medida que la capacidad de procesamiento superó al I/O de almacenamiento, el paradigma cambió hacia la separación entre storage y compute (S3 + clústeres temporales de cómputo)
- En los agentes de IA ocurre algo parecido: el cuello de botella no es el rendimiento del modelo ni el cómputo, sino el contexto
- Los modelos son lo suficientemente inteligentes, pero son olvidadizos
- El sistema de archivos es la forma más efectiva de gestionar contexto persistente justo en el punto donde corre el agente (la máquina del desarrollador, donde ya existen el entorno y los datos)
El sistema de archivos ya es un grafo
- En Twitter, alguien señaló que quienes usan sistemas de archivos mientras dicen que los agentes no necesitan grafos en realidad están negando que ya están usando un grafo
- Un sistema de archivos es una estructura de árbol compuesta por directorios, subdirectorios y archivos; es decir, un grafo acíclico dirigido (DAG)
- Cuando un agente hace
ls,grep, lee archivos o sigue referencias, ya está recorriendo un grafo
- Richmond, en el texto de Oracle, ofrece la distinción más precisa: los sistemas de archivos ganan como interfaz, y las bases de datos ganan como capa subyacente
- Cuando se necesita acceso concurrente, búsqueda semántica a gran escala, deduplicación o ponderación por frescura, al final se termina construyendo un índice propio, que en la práctica es una base de datos
- La interfaz de archivos es poderosa porque es universal y los LLM ya la entienden, y la capa subyacente basada en base de datos también lo es porque ofrece las garantías necesarias para la operación real
- El futuro no es archivos contra bases de datos, sino una estructura donde los archivos son la interfaz con la que interactúan humanos y agentes, y debajo hay una capa subyacente adecuada para cada caso de uso
Esto redefine la computación personal
- El sistema de archivos podría redefinir el significado de la computación personal en la era de la IA
- Datos, contexto, preferencias, skills y memoria existen en formatos que pertenecen al usuario, que cualquier agente puede leer y que no quedan encerrados en una aplicación específica
aboutme.mdfunciona tanto en OpenClaw/NanoClaw hoy como en una herramienta nueva mañana- Los archivos de skills son portables y el contexto del proyecto se mantiene más allá de una herramienta concreta
- Esto se parece a lo que la computación personal buscaba originalmente antes de que todo migrara a apps SaaS cerradas y bases de datos propietarias
- Los archivos son el protocolo abierto original, y a medida que los agentes de IA se vuelven la interfaz principal de la computación, pasan a ser la capa de interoperabilidad que permite cambiar de herramienta, combinar flujos de trabajo y mantener continuidad entre aplicaciones sin pedirle permiso a nadie
- Aun así, hay un costado idealista: la historia de los formatos abiertos está llena de estándares que ganaron en el papel pero fracasaron en la práctica
- Las empresas tienen fuertes incentivos para hacer sus archivos de contexto ligeramente distintos y mantener el costo de cambio
- El hecho de que
CLAUDE.md,AGENTS.mdy.cursorrulescoexistan en vez de converger en un formato universal muestra que la fragmentación es el estado por defecto - El paper de ETH Zürich recuerda que, incluso si existe un formato, escribir buenos archivos de contexto es difícil, y uno malo puede ser peor que no tener ninguno
- El mensaje central de Dan Abramov:
Nuestros recuerdos, pensamientos y diseños deben sobrevivir más que el software que los creó
- No es una afirmación técnica sino una cuestión de valores, y el sistema de archivos encaja en ese rol no porque sea la mejor tecnología, sino porque ya es la única tecnología que pertenece al usuario
1 comentarios
Comentarios en Hacker News
Los archivos son una forma fundamental de libertad que permite a los usuarios poseer directamente sus datos
Eso hace posible la soberanía sobre la confidencialidad, la integridad y la disponibilidad
Como eje central de la libertad digital, deberían ser reconocidos al mismo nivel que las licencias FOSS
El lenguaje natural existe dentro del propio archivo, y la legibilidad se vuelve la especificación
Cualquiera que pueda escribir de forma legible puede escribir en un archivo y ejecutarlo de inmediato, como en un REPL
Hacen que los datos queden atados a las apps y no puedan existir de forma independiente, además de dificultar la importación/exportación
Estoy creando una herramienta para resolver esto, extrayendo datos de los respaldos en archivos granulares y moviéndolos a una biblioteca digital personal
Los datos inmutables pueden simplemente archivarse, pero el gran reto es lograr que los datos editables vuelvan a una forma “viva” para poder modificarse otra vez en apps
Facilitan cambios temporales y compartir configuraciones, y el significado de cada ajuste queda claramente definido
No me gusta que Windows trate a los archivos como ciudadanos de tercera clase
Pienso lo mismo desde la perspectiva de SaaS
Cuanto más efímero y específico de dominio sea el código, más estándar y aburridamente estables deben ser los datos (archivos)
Los formatos que solo una app puede leer son deuda técnica y al final terminan arruinando un proyecto
La razón por la que un archivo JPEG de 1995 todavía puede abrirse es que no depende de un software específico
Es un enfoque correcto, validado una y otra vez
Capas de abstracción como Google Photos o Immich son solo por conveniencia; lo esencial son los archivos
En el trabajo también gestiono investigación y documentos con archivos markdown y csv
enlace al proyecto elodie
Si cambias de plataforma, pierdes todo el historial de edición
La función de deshacer es útil, pero ojalá estos cambios se estandaricen para que sean portables
Quiero mencionar Plan 9 de Bell Labs
Plan 9 from Bell Labs
Le pedí a Claude investigación previa y me sugirió Plan 9; justo ese es el tipo de concepto que necesitamos ahora
La filosofía de minimizar privilegios para los agentes es la misma que la del modelo de seguridad empresarial
Simplemente Plan 9 llegó demasiado temprano
Esto me hace darme cuenta otra vez de que Plan 9 y UNIX tenían razón
La interfaz más poderosa son los archivos de texto sobre el sistema de archivos
Ya es hora de volver a construir 9p2026
Aunque algunos conceptos básicos del artículo están equivocados: el sistema de archivos no es un árbol, sino un grafo con ciclos
Es una idea con la que también conecto profundamente
Durante el último año trasladé mis datos personales desde más de 10 SaaS a una sola estructura de directorios
Un sistema de archivos bien organizado es suficiente para un solo usuario y elimina la fragmentación de datos
Creo que en el futuro aparecerán nuevas bases de datos que soporten escritura segura multiusuario sin volver opaco el sistema de archivos
Se siente parecido al papel que cumple QMD para la búsqueda
Ahora mismo el uso de IA sigue en una etapa inmadura
Los sistemas de producción correrán sobre estructuras de datos consistentes y escalables, pero los agentes que las construyan usarán tecnología basada en sistemas de archivos
Parece probable que la UI evolucione más allá del escritorio hacia interfaces de voz y visuales
Por ejemplo, en una videollamada, leyendo expresiones faciales y entonación para obtener más contexto
No es multimodal completo, pero me pareció muy interesante
Escribir ayuda a ordenar las ideas y no es tan impulsivo como hablar
Por muy bueno que se vuelva el reconocimiento de voz (STT), la inteligencia humana sigue funcionando alrededor de la escritura
Los archivos solo sirven si se pueden encontrar
Es decir, la búsqueda y los índices son indispensables, pero empiezan a romperse a gran escala
Por eso la pregunta clave es “qué tamaño puede tener la base de conocimiento que maneja un agente”
Analicé este tema desde primeros principios en el texto “a good agentic KB”
En múltiples archivos bien organizados, como en una codebase, los agentes de código encuentran bien la información
Pero cuando los datos son un desastre, estructurarlos en un sistema de archivos es mucho más difícil
Es más complejo que hacer búsqueda semántica en una vector DB
Las codebases mantienen naturalmente una estructura de grafo gracias al principio DRY, pero los datos no relacionados con código no funcionan así
Así que coincido en que el sistema de archivos es una buena estructura de contexto a largo plazo, pero todavía no reemplaza por completo a la búsqueda
Creo que el sistema de archivos es una abstracción terrible
Tener que colgar archivos de una estructura consciente de árbol de directorios es ineficiente
Pienso que un modelo relacional o una estructura basada en identificadores únicos sería mejor
Los cambios en una rama no afectan a las demás
En cambio, una base de datos puede hacer que un UPDATE o DELETE afecte a todo, lo cual es riesgoso
Por eso el punto medio ideal sería, como en los sistemas operativos modernos, una estructura de árbol con índices de base de datos encima
Indexa nombres de archivo con un b+tree y también guarda los datos del archivo en la MFT
Un directorio no es más que una fila con el atributo ‘directory=true’
Un enfoque totalmente relacional como WinFS fracasó por problemas de rendimiento, y Skydrive ocupó ese lugar
Parece que esto se olvida con frecuencia
Al final, parece que vamos hacia un almacenamiento tipo blob al estilo S3 con buenos índices encima, y directorios que se generen bajo demanda como si fueran etiquetas
Quedaría solo la capacidad de agrupar cosas, como “los materiales relacionados con el Q3 están en este directorio”