36 puntos por GN⁺ 2026-03-09 | 1 comentarios | Compartir por WhatsApp
  • En el reciente ecosistema de agentes de IA, el sistema de archivos vuelve a atraer atención y está surgiendo como un medio de gestión de contexto persistente distinto de las bases de datos
  • La ventana de contexto de los LLM se parece más a una pizarra que se borra que a una memoria persistente, y el sistema de archivos es el medio de almacenamiento permanente más simple para resolverlo
  • Claude Code, Cursor y otros implementan memoria de largo plazo mediante almacenamiento de contexto basado en archivos; archivos como CLAUDE.md y aboutme.md cumplen el papel de contener la identidad del agente y la información del entorno
  • La gestión de contexto basada en sistemas de archivos está emergiendo como tema central, y empresas clave como LlamaIndex, LangChain, Oracle y Archil han publicado seguidamente textos y productos relacionados
  • Mientras proliferan archivos de contexto para agentes como CLAUDE.md, AGENTS.md y .cursorrules, el formato Agent Skills (SKILL.md) de Anthropic está siendo adoptado por Microsoft, OpenAI, GitHub y Cursor, logrando interoperabilidad
  • Según una investigación de ETH Zürich, los archivos de contexto podrían incluso reducir la tasa de éxito de las tareas y aumentar el costo de inferencia en más de 20%, por lo que conviene describir solo los requisitos mínimos
  • Los archivos no dependen de una app específica y se están consolidando como una interfaz abierta que, en la era de los agentes de IA, permite cambiar entre herramientas, combinar flujos de trabajo y mantener continuidad

Everyone is talking about files : en todos lados se habla de archivos

La ventana de contexto no es memoria

  • La memoria humana incluye almacenamiento de largo plazo, recuerdo selectivo y olvido de información innecesaria, pero la ventana de contexto de un LLM se parece más a una pizarra que se borra constantemente
  • Al usar Claude Code, cuando se acerca la alerta de "context left until auto-compact", el contexto acumulado por el agente —como la base de código, preferencias y decisiones— se comprime o se pierde
  • El sistema de archivos resuelve esto de la forma más simple: escribir el registro en archivos y volver a leerlo cuando haga falta
    • CLAUDE.md brinda contexto persistente sobre el proyecto
    • Cursor guarda historiales de chat pasados como archivos buscables
    • El archivo aboutme.md funciona como un descriptor de identidad portable que contiene preferencias, habilidades y estilo de trabajo, y puede moverse entre apps sin coordinación por API

Investigación de ETH Zürich: la paradoja de los archivos de contexto

  • Un artículo reciente de ETH Zürich evaluó si los archivos de contexto a nivel de repositorio realmente ayudan a los agentes de programación a completar tareas
  • El resultado fue contraintuitivo: en varios agentes y modelos, los archivos de contexto terminaron reduciendo la tasa de éxito de las tareas, mientras que el costo de inferencia aumentó en más de 20%
    • Los agentes que recibieron archivos de contexto exploraron más ampliamente, ejecutaron más pruebas y recorrieron más archivos, pero se demoraron más en llegar al código que realmente necesitaba modificaciones
    • El archivo funcionó como una checklist que el agente seguía con demasiada rigidez
  • La conclusión del paper no es "no usen archivos de contexto", sino que los requisitos innecesarios vuelven más difícil la tarea y los archivos de contexto deberían describir solo los requisitos mínimos
  • El problema no es la capa persistente del sistema de archivos en sí, sino la práctica de escribir CLAUDE.md como si fuera un documento de onboarding de 2,000 palabras

El formato de archivo es la API — pero, ¿qué archivo?

  • Hoy conviven CLAUDE.md, AGENTS.md, copilot-instructions.md y .cursorrules; hay consenso en que los agentes necesitan contexto persistente basado en sistema de archivos, pero no hay acuerdo sobre el nombre del archivo ni el formato de su contenido
  • En el texto sobre sistema de archivos social de Dan Abramov, el diseño central es este: AT Protocol trata los datos del usuario como archivos dentro de un repositorio personal, y las apps evitan conflictos mediante namespaces basados en nombres de dominio, sin necesidad de ponerse de acuerdo sobre qué es un "post"
    • La base de datos de cada app pasa a ser dato derivado, es decir, una vista materializada en caché de todas las carpetas de usuario
  • Anthropic presentó Agent Skills como estándar abierto: el formato SKILL.md fue adoptado por Microsoft, OpenAI, Atlassian, GitHub y Cursor
    • Una skill escrita para Claude Code también funciona en Codex y Copilot: el formato de archivo es la API
  • NanoClaw es un framework ligero de asistente personal de IA que adopta un modelo de "skills en lugar de funciones"
    • Si hace falta soporte para Telegram, en vez de un módulo de Telegram, una skill /add-telegram (archivo Markdown) le enseña a Claude Code cómo integrarlo
    • Como las skills son archivos, son portables, auditables y combinables, sin necesidad de servidores MCP ni marketplaces de plugins
  • Esto es interoperabilidad sin coordinación: si dos apps pueden leer Markdown, pueden compartir contexto; si entienden el formato SKILL.md, pueden compartir funcionalidades; sin contratos de partnership ni reuniones de organismos de estandarización, el propio formato de archivo cumple el papel de coordinación

El desplazamiento del cuello de botella

  • La arquitectura de datos tradicional se diseñó bajo la idea de que el almacenamiento era el cuello de botella, pero a medida que la capacidad de procesamiento superó al I/O de almacenamiento, el paradigma cambió hacia la separación entre storage y compute (S3 + clústeres temporales de cómputo)
  • En los agentes de IA ocurre algo parecido: el cuello de botella no es el rendimiento del modelo ni el cómputo, sino el contexto
    • Los modelos son lo suficientemente inteligentes, pero son olvidadizos
    • El sistema de archivos es la forma más efectiva de gestionar contexto persistente justo en el punto donde corre el agente (la máquina del desarrollador, donde ya existen el entorno y los datos)

El sistema de archivos ya es un grafo

  • En Twitter, alguien señaló que quienes usan sistemas de archivos mientras dicen que los agentes no necesitan grafos en realidad están negando que ya están usando un grafo
    • Un sistema de archivos es una estructura de árbol compuesta por directorios, subdirectorios y archivos; es decir, un grafo acíclico dirigido (DAG)
    • Cuando un agente hace ls, grep, lee archivos o sigue referencias, ya está recorriendo un grafo
  • Richmond, en el texto de Oracle, ofrece la distinción más precisa: los sistemas de archivos ganan como interfaz, y las bases de datos ganan como capa subyacente
    • Cuando se necesita acceso concurrente, búsqueda semántica a gran escala, deduplicación o ponderación por frescura, al final se termina construyendo un índice propio, que en la práctica es una base de datos
  • La interfaz de archivos es poderosa porque es universal y los LLM ya la entienden, y la capa subyacente basada en base de datos también lo es porque ofrece las garantías necesarias para la operación real
  • El futuro no es archivos contra bases de datos, sino una estructura donde los archivos son la interfaz con la que interactúan humanos y agentes, y debajo hay una capa subyacente adecuada para cada caso de uso

Esto redefine la computación personal

  • El sistema de archivos podría redefinir el significado de la computación personal en la era de la IA
    • Datos, contexto, preferencias, skills y memoria existen en formatos que pertenecen al usuario, que cualquier agente puede leer y que no quedan encerrados en una aplicación específica
    • aboutme.md funciona tanto en OpenClaw/NanoClaw hoy como en una herramienta nueva mañana
    • Los archivos de skills son portables y el contexto del proyecto se mantiene más allá de una herramienta concreta
  • Esto se parece a lo que la computación personal buscaba originalmente antes de que todo migrara a apps SaaS cerradas y bases de datos propietarias
    • Los archivos son el protocolo abierto original, y a medida que los agentes de IA se vuelven la interfaz principal de la computación, pasan a ser la capa de interoperabilidad que permite cambiar de herramienta, combinar flujos de trabajo y mantener continuidad entre aplicaciones sin pedirle permiso a nadie
  • Aun así, hay un costado idealista: la historia de los formatos abiertos está llena de estándares que ganaron en el papel pero fracasaron en la práctica
    • Las empresas tienen fuertes incentivos para hacer sus archivos de contexto ligeramente distintos y mantener el costo de cambio
    • El hecho de que CLAUDE.md, AGENTS.md y .cursorrules coexistan en vez de converger en un formato universal muestra que la fragmentación es el estado por defecto
    • El paper de ETH Zürich recuerda que, incluso si existe un formato, escribir buenos archivos de contexto es difícil, y uno malo puede ser peor que no tener ninguno
  • El mensaje central de Dan Abramov:

    Nuestros recuerdos, pensamientos y diseños deben sobrevivir más que el software que los creó

    • No es una afirmación técnica sino una cuestión de valores, y el sistema de archivos encaja en ese rol no porque sea la mejor tecnología, sino porque ya es la única tecnología que pertenece al usuario

1 comentarios

 
GN⁺ 2026-03-09
Comentarios en Hacker News
  • Los archivos son una forma fundamental de libertad que permite a los usuarios poseer directamente sus datos
    Eso hace posible la soberanía sobre la confidencialidad, la integridad y la disponibilidad
    Como eje central de la libertad digital, deberían ser reconocidos al mismo nivel que las licencias FOSS

    • Gracias a la capacidad de razonamiento de los LLM, ahora ya no hace falta preocuparse por la estructura de los archivos
      El lenguaje natural existe dentro del propio archivo, y la legibilidad se vuelve la especificación
      Cualquiera que pueda escribir de forma legible puede escribir en un archivo y ejecutarlo de inmediato, como en un REPL
    • Por eso resulta incómodo que grandes tecnológicas como Apple intenten eliminar el concepto de archivo
      Hacen que los datos queden atados a las apps y no puedan existir de forma independiente, además de dificultar la importación/exportación
      Estoy creando una herramienta para resolver esto, extrayendo datos de los respaldos en archivos granulares y moviéndolos a una biblioteca digital personal
      Los datos inmutables pueden simplemente archivarse, pero el gran reto es lograr que los datos editables vuelvan a una forma “viva” para poder modificarse otra vez en apps
    • Creo que los archivos de configuración son mucho mejores que un almacén centralizado como Windows Registry
      Facilitan cambios temporales y compartir configuraciones, y el significado de cada ajuste queda claramente definido
      No me gusta que Windows trate a los archivos como ciudadanos de tercera clase
  • Pienso lo mismo desde la perspectiva de SaaS
    Cuanto más efímero y específico de dominio sea el código, más estándar y aburridamente estables deben ser los datos (archivos)
    Los formatos que solo una app puede leer son deuda técnica y al final terminan arruinando un proyecto
    La razón por la que un archivo JPEG de 1995 todavía puede abrirse es que no depende de un software específico

    • Mi sistema de gestión de fotos de hace más de 10 años usa el sistema de archivos y EXIF como fuente de verdad
      Es un enfoque correcto, validado una y otra vez
      Capas de abstracción como Google Photos o Immich son solo por conveniencia; lo esencial son los archivos
      En el trabajo también gestiono investigación y documentos con archivos markdown y csv
      enlace al proyecto elodie
    • El problema de la gestión de fotos hoy es que las ediciones, etiquetas y álbumes se guardan todos como metadatos externos
      Si cambias de plataforma, pierdes todo el historial de edición
      La función de deshacer es útil, pero ojalá estos cambios se estandaricen para que sean portables
  • Quiero mencionar Plan 9 de Bell Labs
    Plan 9 from Bell Labs

    • Estoy creando un orquestador de agentes llamado agenc
      Le pedí a Claude investigación previa y me sugirió Plan 9; justo ese es el tipo de concepto que necesitamos ahora
      La filosofía de minimizar privilegios para los agentes es la misma que la del modelo de seguridad empresarial
      Simplemente Plan 9 llegó demasiado temprano
    • Como sistema de archivos nuevo, vale la pena echarle un vistazo a GeFS
  • Esto me hace darme cuenta otra vez de que Plan 9 y UNIX tenían razón
    La interfaz más poderosa son los archivos de texto sobre el sistema de archivos
    Ya es hora de volver a construir 9p2026
    Aunque algunos conceptos básicos del artículo están equivocados: el sistema de archivos no es un árbol, sino un grafo con ciclos

    • Me pregunto cuál es la funcionalidad clave de Plan 9, si se puede montar con FUSE o si hace falta una magia más profunda
  • Es una idea con la que también conecto profundamente
    Durante el último año trasladé mis datos personales desde más de 10 SaaS a una sola estructura de directorios
    Un sistema de archivos bien organizado es suficiente para un solo usuario y elimina la fragmentación de datos
    Creo que en el futuro aparecerán nuevas bases de datos que soporten escritura segura multiusuario sin volver opaco el sistema de archivos
    Se siente parecido al papel que cumple QMD para la búsqueda

  • Ahora mismo el uso de IA sigue en una etapa inmadura
    Los sistemas de producción correrán sobre estructuras de datos consistentes y escalables, pero los agentes que las construyan usarán tecnología basada en sistemas de archivos
    Parece probable que la UI evolucione más allá del escritorio hacia interfaces de voz y visuales
    Por ejemplo, en una videollamada, leyendo expresiones faciales y entonación para obtener más contexto

    • En un video demo de IA que vi recientemente, se extrae contexto de la voz y los gestos, se convierte en texto y luego se alimenta a un LLM
      No es multimodal completo, pero me pareció muy interesante
    • Aun así, no creo que la entrada de texto vaya a desaparecer
      Escribir ayuda a ordenar las ideas y no es tan impulsivo como hablar
      Por muy bueno que se vuelva el reconocimiento de voz (STT), la inteligencia humana sigue funcionando alrededor de la escritura
  • Los archivos solo sirven si se pueden encontrar
    Es decir, la búsqueda y los índices son indispensables, pero empiezan a romperse a gran escala
    Por eso la pregunta clave es “qué tamaño puede tener la base de conocimiento que maneja un agente”
    Analicé este tema desde primeros principios en el texto “a good agentic KB”

  • En múltiples archivos bien organizados, como en una codebase, los agentes de código encuentran bien la información
    Pero cuando los datos son un desastre, estructurarlos en un sistema de archivos es mucho más difícil
    Es más complejo que hacer búsqueda semántica en una vector DB
    Las codebases mantienen naturalmente una estructura de grafo gracias al principio DRY, pero los datos no relacionados con código no funcionan así
    Así que coincido en que el sistema de archivos es una buena estructura de contexto a largo plazo, pero todavía no reemplaza por completo a la búsqueda

  • Creo que el sistema de archivos es una abstracción terrible
    Tener que colgar archivos de una estructura consciente de árbol de directorios es ineficiente
    Pienso que un modelo relacional o una estructura basada en identificadores únicos sería mejor

    • La ventaja del sistema de archivos es la preservación de la localidad de los cambios
      Los cambios en una rama no afectan a las demás
      En cambio, una base de datos puede hacer que un UPDATE o DELETE afecte a todo, lo cual es riesgoso
      Por eso el punto medio ideal sería, como en los sistemas operativos modernos, una estructura de árbol con índices de base de datos encima
    • NTFS usa internamente una base de datos MFT
      Indexa nombres de archivo con un b+tree y también guarda los datos del archivo en la MFT
      Un directorio no es más que una fila con el atributo ‘directory=true’
      Un enfoque totalmente relacional como WinFS fracasó por problemas de rendimiento, y Skydrive ocupó ese lugar
    • En la mayoría de los sistemas de archivos, los archivos se identifican de forma única por inode y pueden referenciarse mediante varios enlaces
      Parece que esto se olvida con frecuencia
    • Los UUID son opacos para los humanos, pero para los agentes son identificadores perfectamente distinguibles
      Al final, parece que vamos hacia un almacenamiento tipo blob al estilo S3 con buenos índices encima, y directorios que se generen bajo demanda como si fueran etiquetas
      Quedaría solo la capacidad de agrupar cosas, como “los materiales relacionados con el Q3 están en este directorio”