Por qué los sistemas de archivos están llamando la atención

(madalitso.me)

36 puntos por GN⁺ 2026-03-09 | 1 comentarios | Compartir por WhatsApp

En el reciente ecosistema de agentes de IA, el sistema de archivos vuelve a atraer atención y está surgiendo como un medio de gestión de contexto persistente distinto de las bases de datos
La ventana de contexto de los LLM se parece más a una pizarra que se borra que a una memoria persistente, y el sistema de archivos es el medio de almacenamiento permanente más simple para resolverlo
Claude Code, Cursor y otros implementan memoria de largo plazo mediante almacenamiento de contexto basado en archivos; archivos como CLAUDE.md y aboutme.md cumplen el papel de contener la identidad del agente y la información del entorno
La gestión de contexto basada en sistemas de archivos está emergiendo como tema central, y empresas clave como LlamaIndex, LangChain, Oracle y Archil han publicado seguidamente textos y productos relacionados
Mientras proliferan archivos de contexto para agentes como CLAUDE.md, AGENTS.md y .cursorrules, el formato Agent Skills (SKILL.md) de Anthropic está siendo adoptado por Microsoft, OpenAI, GitHub y Cursor, logrando interoperabilidad
Según una investigación de ETH Zürich, los archivos de contexto podrían incluso reducir la tasa de éxito de las tareas y aumentar el costo de inferencia en más de 20%, por lo que conviene describir solo los requisitos mínimos
Los archivos no dependen de una app específica y se están consolidando como una interfaz abierta que, en la era de los agentes de IA, permite cambiar entre herramientas, combinar flujos de trabajo y mantener continuidad

Everyone is talking about files : en todos lados se habla de archivos

LlamaIndex publicó "Files Are All You Need", y LangChain abordó cómo los agentes pueden usar sistemas de archivos para la ingeniería de contexto
Oracle (sí, Oracle) publicó un texto que compara sistemas de archivos y bases de datos para gestionar la memoria de agentes, mientras que Dan Abramov propuso un sistema de archivos social basado en AT Protocol
Archil está construyendo volúmenes en la nube porque los agentes quieren un sistema de archivos POSIX
Jerry Liu de LlamaIndex sostiene que, en lugar de "un agente con cientos de herramientas", uno con un sistema de archivos y 5 a 10 herramientas podría ser más general que un agente con más de 100 herramientas MCP
Karpathy señala que Claude Code funciona porque se ejecuta directamente sobre la computadora, el entorno, los datos y el contexto del usuario, y evalúa que OpenAI se equivocó al enfocarse en desplegar contenedores en la nube
Hoy, los agentes de programación representan la mayor parte de los casos de uso prácticos de IA, y Anthropic está cerca de la rentabilidad mientras Claude Code, su herramienta CLI, impulsa una parte considerable de sus ingresos

La ventana de contexto no es memoria

La memoria humana incluye almacenamiento de largo plazo, recuerdo selectivo y olvido de información innecesaria, pero la ventana de contexto de un LLM se parece más a una pizarra que se borra constantemente
Al usar Claude Code, cuando se acerca la alerta de "context left until auto-compact", el contexto acumulado por el agente —como la base de código, preferencias y decisiones— se comprime o se pierde
El sistema de archivos resuelve esto de la forma más simple: escribir el registro en archivos y volver a leerlo cuando haga falta
- CLAUDE.md brinda contexto persistente sobre el proyecto
- Cursor guarda historiales de chat pasados como archivos buscables
- El archivo aboutme.md funciona como un descriptor de identidad portable que contiene preferencias, habilidades y estilo de trabajo, y puede moverse entre apps sin coordinación por API

Investigación de ETH Zürich: la paradoja de los archivos de contexto

Un artículo reciente de ETH Zürich evaluó si los archivos de contexto a nivel de repositorio realmente ayudan a los agentes de programación a completar tareas
El resultado fue contraintuitivo: en varios agentes y modelos, los archivos de contexto terminaron reduciendo la tasa de éxito de las tareas, mientras que el costo de inferencia aumentó en más de 20%
- Los agentes que recibieron archivos de contexto exploraron más ampliamente, ejecutaron más pruebas y recorrieron más archivos, pero se demoraron más en llegar al código que realmente necesitaba modificaciones
- El archivo funcionó como una checklist que el agente seguía con demasiada rigidez
La conclusión del paper no es "no usen archivos de contexto", sino que los requisitos innecesarios vuelven más difícil la tarea y los archivos de contexto deberían describir solo los requisitos mínimos
El problema no es la capa persistente del sistema de archivos en sí, sino la práctica de escribir CLAUDE.md como si fuera un documento de onboarding de 2,000 palabras

El formato de archivo es la API — pero, ¿qué archivo?

Hoy conviven CLAUDE.md, AGENTS.md, copilot-instructions.md y .cursorrules; hay consenso en que los agentes necesitan contexto persistente basado en sistema de archivos, pero no hay acuerdo sobre el nombre del archivo ni el formato de su contenido
En el texto sobre sistema de archivos social de Dan Abramov, el diseño central es este: AT Protocol trata los datos del usuario como archivos dentro de un repositorio personal, y las apps evitan conflictos mediante namespaces basados en nombres de dominio, sin necesidad de ponerse de acuerdo sobre qué es un "post"
- La base de datos de cada app pasa a ser dato derivado, es decir, una vista materializada en caché de todas las carpetas de usuario
Anthropic presentó Agent Skills como estándar abierto: el formato SKILL.md fue adoptado por Microsoft, OpenAI, Atlassian, GitHub y Cursor
- Una skill escrita para Claude Code también funciona en Codex y Copilot: el formato de archivo es la API
NanoClaw es un framework ligero de asistente personal de IA que adopta un modelo de "skills en lugar de funciones"
- Si hace falta soporte para Telegram, en vez de un módulo de Telegram, una skill /add-telegram (archivo Markdown) le enseña a Claude Code cómo integrarlo
- Como las skills son archivos, son portables, auditables y combinables, sin necesidad de servidores MCP ni marketplaces de plugins
Esto es interoperabilidad sin coordinación: si dos apps pueden leer Markdown, pueden compartir contexto; si entienden el formato SKILL.md, pueden compartir funcionalidades; sin contratos de partnership ni reuniones de organismos de estandarización, el propio formato de archivo cumple el papel de coordinación

El desplazamiento del cuello de botella

La arquitectura de datos tradicional se diseñó bajo la idea de que el almacenamiento era el cuello de botella, pero a medida que la capacidad de procesamiento superó al I/O de almacenamiento, el paradigma cambió hacia la separación entre storage y compute (S3 + clústeres temporales de cómputo)
En los agentes de IA ocurre algo parecido: el cuello de botella no es el rendimiento del modelo ni el cómputo, sino el contexto
- Los modelos son lo suficientemente inteligentes, pero son olvidadizos
- El sistema de archivos es la forma más efectiva de gestionar contexto persistente justo en el punto donde corre el agente (la máquina del desarrollador, donde ya existen el entorno y los datos)

El sistema de archivos ya es un grafo

En Twitter, alguien señaló que quienes usan sistemas de archivos mientras dicen que los agentes no necesitan grafos en realidad están negando que ya están usando un grafo
- Un sistema de archivos es una estructura de árbol compuesta por directorios, subdirectorios y archivos; es decir, un grafo acíclico dirigido (DAG)
- Cuando un agente hace ls, grep, lee archivos o sigue referencias, ya está recorriendo un grafo
Richmond, en el texto de Oracle, ofrece la distinción más precisa: los sistemas de archivos ganan como interfaz, y las bases de datos ganan como capa subyacente
- Cuando se necesita acceso concurrente, búsqueda semántica a gran escala, deduplicación o ponderación por frescura, al final se termina construyendo un índice propio, que en la práctica es una base de datos
La interfaz de archivos es poderosa porque es universal y los LLM ya la entienden, y la capa subyacente basada en base de datos también lo es porque ofrece las garantías necesarias para la operación real
El futuro no es archivos contra bases de datos, sino una estructura donde los archivos son la interfaz con la que interactúan humanos y agentes, y debajo hay una capa subyacente adecuada para cada caso de uso

Esto redefine la computación personal

El sistema de archivos podría redefinir el significado de la computación personal en la era de la IA
- Datos, contexto, preferencias, skills y memoria existen en formatos que pertenecen al usuario, que cualquier agente puede leer y que no quedan encerrados en una aplicación específica
- aboutme.md funciona tanto en OpenClaw/NanoClaw hoy como en una herramienta nueva mañana
- Los archivos de skills son portables y el contexto del proyecto se mantiene más allá de una herramienta concreta
Esto se parece a lo que la computación personal buscaba originalmente antes de que todo migrara a apps SaaS cerradas y bases de datos propietarias
- Los archivos son el protocolo abierto original, y a medida que los agentes de IA se vuelven la interfaz principal de la computación, pasan a ser la capa de interoperabilidad que permite cambiar de herramienta, combinar flujos de trabajo y mantener continuidad entre aplicaciones sin pedirle permiso a nadie
Aun así, hay un costado idealista: la historia de los formatos abiertos está llena de estándares que ganaron en el papel pero fracasaron en la práctica
- Las empresas tienen fuertes incentivos para hacer sus archivos de contexto ligeramente distintos y mantener el costo de cambio
- El hecho de que CLAUDE.md, AGENTS.md y .cursorrules coexistan en vez de converger en un formato universal muestra que la fragmentación es el estado por defecto
- El paper de ETH Zürich recuerda que, incluso si existe un formato, escribir buenos archivos de contexto es difícil, y uno malo puede ser peor que no tener ninguno
El mensaje central de Dan Abramov:

Nuestros recuerdos, pensamientos y diseños deben sobrevivir más que el software que los creó
- No es una afirmación técnica sino una cuestión de valores, y el sistema de archivos encaja en ese rol no porque sea la mejor tecnología, sino porque ya es la única tecnología que pertenece al usuario

1 comentarios

GN⁺ 2026-03-09

Comentarios en Hacker News

Los archivos son una forma fundamental de libertad que permite a los usuarios poseer directamente sus datos
Eso hace posible la soberanía sobre la confidencialidad, la integridad y la disponibilidad
Como eje central de la libertad digital, deberían ser reconocidos al mismo nivel que las licencias FOSS
- Gracias a la capacidad de razonamiento de los LLM, ahora ya no hace falta preocuparse por la estructura de los archivos
  El lenguaje natural existe dentro del propio archivo, y la legibilidad se vuelve la especificación
  Cualquiera que pueda escribir de forma legible puede escribir en un archivo y ejecutarlo de inmediato, como en un REPL
- Por eso resulta incómodo que grandes tecnológicas como Apple intenten eliminar el concepto de archivo
  Hacen que los datos queden atados a las apps y no puedan existir de forma independiente, además de dificultar la importación/exportación
  Estoy creando una herramienta para resolver esto, extrayendo datos de los respaldos en archivos granulares y moviéndolos a una biblioteca digital personal
  Los datos inmutables pueden simplemente archivarse, pero el gran reto es lograr que los datos editables vuelvan a una forma “viva” para poder modificarse otra vez en apps
- Creo que los archivos de configuración son mucho mejores que un almacén centralizado como Windows Registry
  Facilitan cambios temporales y compartir configuraciones, y el significado de cada ajuste queda claramente definido
  No me gusta que Windows trate a los archivos como ciudadanos de tercera clase
Pienso lo mismo desde la perspectiva de SaaS
Cuanto más efímero y específico de dominio sea el código, más estándar y aburridamente estables deben ser los datos (archivos)
Los formatos que solo una app puede leer son deuda técnica y al final terminan arruinando un proyecto
La razón por la que un archivo JPEG de 1995 todavía puede abrirse es que no depende de un software específico
- Mi sistema de gestión de fotos de hace más de 10 años usa el sistema de archivos y EXIF como fuente de verdad
  Es un enfoque correcto, validado una y otra vez
  Capas de abstracción como Google Photos o Immich son solo por conveniencia; lo esencial son los archivos
  En el trabajo también gestiono investigación y documentos con archivos markdown y csv
  enlace al proyecto elodie
- El problema de la gestión de fotos hoy es que las ediciones, etiquetas y álbumes se guardan todos como metadatos externos
  Si cambias de plataforma, pierdes todo el historial de edición
  La función de deshacer es útil, pero ojalá estos cambios se estandaricen para que sean portables
Quiero mencionar Plan 9 de Bell Labs
Plan 9 from Bell Labs
- Estoy creando un orquestador de agentes llamado agenc
  Le pedí a Claude investigación previa y me sugirió Plan 9; justo ese es el tipo de concepto que necesitamos ahora
  La filosofía de minimizar privilegios para los agentes es la misma que la del modelo de seguridad empresarial
  Simplemente Plan 9 llegó demasiado temprano
- Como sistema de archivos nuevo, vale la pena echarle un vistazo a GeFS
Esto me hace darme cuenta otra vez de que Plan 9 y UNIX tenían razón
La interfaz más poderosa son los archivos de texto sobre el sistema de archivos
Ya es hora de volver a construir 9p2026
Aunque algunos conceptos básicos del artículo están equivocados: el sistema de archivos no es un árbol, sino un grafo con ciclos
- Me pregunto cuál es la funcionalidad clave de Plan 9, si se puede montar con FUSE o si hace falta una magia más profunda
Es una idea con la que también conecto profundamente
Durante el último año trasladé mis datos personales desde más de 10 SaaS a una sola estructura de directorios
Un sistema de archivos bien organizado es suficiente para un solo usuario y elimina la fragmentación de datos
Creo que en el futuro aparecerán nuevas bases de datos que soporten escritura segura multiusuario sin volver opaco el sistema de archivos
Se siente parecido al papel que cumple QMD para la búsqueda
Ahora mismo el uso de IA sigue en una etapa inmadura
Los sistemas de producción correrán sobre estructuras de datos consistentes y escalables, pero los agentes que las construyan usarán tecnología basada en sistemas de archivos
Parece probable que la UI evolucione más allá del escritorio hacia interfaces de voz y visuales
Por ejemplo, en una videollamada, leyendo expresiones faciales y entonación para obtener más contexto
- En un video demo de IA que vi recientemente, se extrae contexto de la voz y los gestos, se convierte en texto y luego se alimenta a un LLM
  No es multimodal completo, pero me pareció muy interesante
- Aun así, no creo que la entrada de texto vaya a desaparecer
  Escribir ayuda a ordenar las ideas y no es tan impulsivo como hablar
  Por muy bueno que se vuelva el reconocimiento de voz (STT), la inteligencia humana sigue funcionando alrededor de la escritura
Los archivos solo sirven si se pueden encontrar
Es decir, la búsqueda y los índices son indispensables, pero empiezan a romperse a gran escala
Por eso la pregunta clave es “qué tamaño puede tener la base de conocimiento que maneja un agente”
Analicé este tema desde primeros principios en el texto “a good agentic KB”
En múltiples archivos bien organizados, como en una codebase, los agentes de código encuentran bien la información
Pero cuando los datos son un desastre, estructurarlos en un sistema de archivos es mucho más difícil
Es más complejo que hacer búsqueda semántica en una vector DB
Las codebases mantienen naturalmente una estructura de grafo gracias al principio DRY, pero los datos no relacionados con código no funcionan así
Así que coincido en que el sistema de archivos es una buena estructura de contexto a largo plazo, pero todavía no reemplaza por completo a la búsqueda
Creo que el sistema de archivos es una abstracción terrible
Tener que colgar archivos de una estructura consciente de árbol de directorios es ineficiente
Pienso que un modelo relacional o una estructura basada en identificadores únicos sería mejor
- La ventaja del sistema de archivos es la preservación de la localidad de los cambios
  Los cambios en una rama no afectan a las demás
  En cambio, una base de datos puede hacer que un UPDATE o DELETE afecte a todo, lo cual es riesgoso
  Por eso el punto medio ideal sería, como en los sistemas operativos modernos, una estructura de árbol con índices de base de datos encima
- NTFS usa internamente una base de datos MFT
  Indexa nombres de archivo con un b+tree y también guarda los datos del archivo en la MFT
  Un directorio no es más que una fila con el atributo ‘directory=true’
  Un enfoque totalmente relacional como WinFS fracasó por problemas de rendimiento, y Skydrive ocupó ese lugar
- En la mayoría de los sistemas de archivos, los archivos se identifican de forma única por inode y pueden referenciarse mediante varios enlaces
  Parece que esto se olvida con frecuencia
- Los UUID son opacos para los humanos, pero para los agentes son identificadores perfectamente distinguibles
  Al final, parece que vamos hacia un almacenamiento tipo blob al estilo S3 con buenos índices encima, y directorios que se generen bajo demanda como si fueran etiquetas
  Quedaría solo la capacidad de agrupar cosas, como “los materiales relacionados con el Q3 están en este directorio”

Por qué los sistemas de archivos están llamando la atención

Everyone is talking about files : en todos lados se habla de archivos

La ventana de contexto no es memoria

Investigación de ETH Zürich: la paradoja de los archivos de contexto

El formato de archivo es la API — pero, ¿qué archivo?

El desplazamiento del cuello de botella

El sistema de archivos ya es un grafo

Esto redefine la computación personal

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News