Posible filtración de sesión/caché entre instancias de workspace o cuentas de consumidor

(github.com/anthropics)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

En el issue #74066 de Claude Code, un usuario de un workspace Enterprise ZDR reportó que en su sesión se mezclaron respuestas relacionadas con un templo de Minecraft sin relación con su trabajo, y cuestionó la posible falta de aislamiento de caché del workspace y una posible filtración entre planes de consumidor
El entorno reportado fue macOS(darwin), Apple_Terminal y Claude Code 2.1.199; además, el usuario indicó que usaba una configuración inusual donde el directorio real de trabajo y el directorio de ejecución eran distintos, y que después de /compact también hubo una confusión separada en la que se tocó el proyecto del directorio de ejecución
Un comentario sugirió primero usar grep sobre el transcript local en ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl para distinguir si era contaminación de contexto local o una filtración del lado del servidor; el autor respondió que no encontró coincidencias locales relacionadas con Minecraft, salvo el log de la sesión actual y una ruta minecraft.py
Más tarde, en una sesión de Claude Mobile de la misma cuenta Enterprise también se mezcló contenido no relacionado sobre un print abstracto de 3 paneles; dijo que los puntos en común fueron Sonnet 5, la primera respuesta tras más de 5 minutos y un cache miss, y que envió /feedback y lo escaló internamente
Otros participantes compartieron experiencias similares con Claude Code, la API y el uso de Claude dentro de la oficina, aunque algunos plantearon la posibilidad de alucinación o de que no fuera un problema exclusivo de Claude Code; en la página del issue no figura un análisis final de causa raíz ni una resolución por parte de Anthropic

Fenómeno reportado

El issue #74066 de Claude Code trata un caso en el que, estando autenticado en un workspace Enterprise ZDR, el agente de pronto dijo que estaba construyendo un “templo de Minecraft”
El usuario escribió que el agente le preguntó qué tipo de ladrillos quería, y que incluso en el recap afirmó con seguridad que estaba construyendo un templo de Minecraft
El cuestionamiento del problema va por dos líneas
- Posible mezcla de la sesión o la caché de un compañero dentro del mismo workspace
- Posible mezcla en una sesión Enterprise ZDR de contenido proveniente de un plan de consumidor
Información del entorno reportado
- Platform: darwin
- Terminal: Apple_Terminal
- Version: 2.1.199
- Feedback ID: f336f5d2-3992-4a04-9e1f-ec30f006f75e

Confusión entre directorio de ejecución y directorio de trabajo

El usuario inició la sesión desde un directorio no relacionado con el trabajo real
- Porque ese directorio tenía un .claude con el contexto necesario
- El trabajo real se estaba realizando en otro directorio
Después de /compact, hubo un caso en el que el agente olvidó las instrucciones del usuario y empezó a trabajar sobre el proyecto del directorio de ejecución
El usuario distingue que esta confusión de directorios parece deberse a su propia configuración, pero es diferente del fenómeno en el que se mezcló un prompt relacionado con Minecraft

Propuesta de revisar el transcript local

Un participante sugirió que primero había que comprobar si el texto “Minecraft temple” existía en los archivos locales de sesión
Explicó que el contenido enviado y recibido por el CLI de Claude Code se guarda por sesión como transcript en ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl
El comando sugerido para verificarlo fue el siguiente

grep -rli 'minecraft\|temple\|brick' ~/.claude/projects/ 2>/dev/null

La interpretación de resultados se divide en dos posibilidades
- Si algún archivo coincide, entonces el texto existe localmente y podría tratarse de mezcla de contexto/transcript local
- Si no hay coincidencias locales, entonces se debería sospechar de un problema del modelo o del servidor, porque sería texto que esa máquina nunca envió ni recibió
También se sugirió un comando para comprobar si se trataba de una mezcla local proveniente de otra sesión

grep -rli minecraft ~/.claude/projects/ | while read f; do
  printf '%s  %s\n' "$(grep -m1 -o '"cwd":"[^"]*"' "$f")" "$f"; done

Quien hizo la sugerencia consideró que el launch cwd actúa tanto como ubicación de almacenamiento del transcript como clave de contexto, por lo que iniciar desde un directorio no relacionado y usar /compact puede generar confusión de directorios
Aun así, distinguió que ese mecanismo puede explicar la confusión de directorios, pero no el prompt de Minecraft que el usuario nunca escribió

Resultados adicionales de la revisión del autor

El autor respondió que, al buscar localmente, aparte del punto en el log actual donde primero pareció aparecer la filtración y la conversación posterior con el modelo, no había más coincidencias relacionadas
Respecto a minecraft, dijo que apareció una vez en la lista de archivos de un entorno virtual de Python, en la ruta del lexer de Pygments minecraft.py
temple y bricks no coincidieron en esos límites de palabra ni en un contexto relacionado con Minecraft
- Databricks
- bricked by an over-eager click
- Subcadenas irrelevantes como dentro de verdictSignalsLabel
El usuario indicó que envió /feedback y que también lo escaló internamente

Caso similar en Claude Mobile

El mismo autor añadió que observó el mismo tipo de fenómeno en una sesión de Claude Mobile de la misma cuenta Enterprise
Señaló los siguientes puntos en común
- Sonnet 5
- La primera respuesta después de más de 5 minutos
- Una situación de cache miss
Como no pudo subir una imagen adjunta del correo, dejó el contenido OCR en un comentario
- El usuario había reunido archivos CSV en una carpeta, compartió un enlace a una carpeta de Google Drive y pidió ayuda
- Claude habló de un mockup de un set de prints abstractos de 3 paneles ajustado a las dimensiones reales de una pared, además de investigación sobre artistas y tiendas, todo sin relación con la solicitud
- Luego dijo “Detecting injection attempt, proceeding...”, tratando ese contenido como si fuera una inyección
- En el proceso de razonamiento mostrado, concluyó que se había insertado un bloque sobre dimensiones de pared y prints artísticos que no tenía relación con la petición sobre CSV, y que intentaría extraer el ID de la carpeta de Drive para procesar los archivos CSV

Casos y reacciones de otros participantes

Un participante escribió que la semana anterior, en Claude Code con Sonnet 5, se había mezclado en medio de los resultados de herramientas contenido que no provenía de la herramienta realmente invocada
- Un aviso manipulado de “MCP servers need auth”
- Otro volcado de CLAUDE.md
- Instrucciones falsas de “Plan mode is active”
Otro participante dijo que Claude una vez mencionó tiendas cerca del lugar donde vive su amigo, y que ese amigo también usa Claude en la misma oficina
Otro comentó que en 2025, al usar tokens de API, pareció como si de pronto aparecieran herramientas de otro agente, aunque en ese momento lo tomó como una alucinación y no investigó a fondo
Un comentario enlazó una publicación sobre un incidente relacionado de Claude, señalando que al principio parecía que habían visto datos de otro usuario, pero que después Anthropic dijo que en realidad era una exposición incorrecta de contexto interno del agente
Algunos comentarios creen que el fenómeno parece una alucinación o que podría no ser un problema exclusivo de Claude Code

Estado actual y puntos pendientes

En la página, el issue sigue en estado Open, y en el cuerpo no hay análisis final de causa raíz ni constancia de una corrección completada
El punto central sigue siendo de dónde ingresó el texto no relacionado
- Mezcla de transcript local o de contexto basada en el launch cwd
- Problema de estado de sesión del modelo o del servidor
- Exposición incorrecta de contexto interno del agente
- Alucinación común
Los resultados de búsqueda local del autor apuntan a que no se encontraron contenidos sobre Minecraft temple o bricks en sesiones locales previas, pero dentro del issue público no hay un dictamen oficial de Anthropic

1 comentarios

GN⁺ 4 시간 전

Opiniones de Hacker News

Estoy muy involucrado del lado de quienes usan LLM de varios proveedores, y conozco al menos dos casos en los que la infraestructura intermedia intercambió respuestas
Una vez afectó a un modelo Claude y otra a un modelo GPT, y fueron proveedores distintos
Uno de ellos dio un post mortem adecuado: una puerta de enlace de API manejó mal el código de estado HTTP 100, entró en un estado de error y, en la práctica, se produjo un error off-by-one; yo recibía la respuesta al prompt inmediatamente anterior a mi solicitud, y mi respuesta pasaba al siguiente llamador
El otro no explicó la causa raíz, solo nos dijeron que confiáramos en que no volvería a ocurrir
Ambos eran empresas con capitalización de mercado superior a 1 billón de dólares
En este caso, como la respuesta se cambió durante la transmisión, ZDR en sí no se rompió, pero creo que podría ser un problema parecido. Puede que no se trate de que los datos se conserven, sino de que no estén aislados de forma segura en la infraestructura intermedia
- Este ataque se llama desincronización HTTP (HTTP desync) o request smuggling
  A menudo los clientes lo usan intencionalmente para espiar las respuestas de otros clientes
  Cada vez que se multiplexan solicitudes de varios clientes en una sola conexión upstream puede haber vulnerabilidad, porque, contra lo que parece, HTTP es tan complejo que resulta difícil emparejar de forma confiable solicitudes y respuestas en el upstream
  Por ejemplo, tener más de un encabezado Content-Length, mezclar Content-Length con codificación por chunks, o pasar un encabezado Content-Length de HTTP/2 que no coincide con la longitud real del cuerpo puede provocar desincronización en algunos sistemas
  Hay una charla de DEF CON sobre este tema: https://www.youtube.com/watch?v=w-eJM2Pc0KI
  El mismo ataque se aplicó también a SMTP, manipulando saltos de línea alrededor del delimitador de fin de mensaje; ahí se le llama SMTP smuggling. También podría aplicarse a otros protocolos
- Suena plausible, pero entonces la respuesta podría salir de la red corporativa, así que me pregunto si no sería una violación implícita de ZDR
  Por ejemplo, si estás manejando PHI, aunque Claude no haya conservado nada, una filtración de la respuesta podría ser una violación de HIPAA, y supongo que cumplir con HIPAA era el objetivo desde el principio; me pregunto cómo debería verse eso
- No queda claro por qué usar una cuenta throwaway
  Toda conducta nueva de actores para quienes incluso una afirmación de valor moral positivo apenas resulta plausible debería reportarse, discutirse, diseccionarse y criticarse temprano y con frecuencia
Creo que con solo agregar a AGENTS.md una línea que diga “nunca hables de Minecraft a menos que se te pida explícitamente” quedaría bien
- Anthropic es demasiado exclusivo y de un nivel superior como para usar un patrón idiomático estándar como AGENTS.md; tendría que ser CLAUDE.md
Hasta que se demuestre, suena a alucinación. Incluso los LLM líderes hacen ese tipo de cosas a veces, y siempre parecen plausibles
Tal vez la sesión tenía muchísimo contexto previo, por ejemplo más de 800 mil tokens, y en ese caso creo que la probabilidad de alucinación aumenta
Un comentario relacionado del autor original también aumenta esa posibilidad: en el resultado de una llamada a herramienta que listaba archivos de un entorno virtual de Python aparecía una cadena de ruta minecraft.py, y el paquete Pygments tiene un lexer llamado minecraft.py
- Sé que no hay una definición exacta de alucinación, pero esto suena totalmente distinto de lo que normalmente se llama alucinación
  Una alucinación suele ser una respuesta plausible pero incorrecta, o información fabricada ajustada a la respuesta más probable, como una cita generada, y surge de la forma en que el LLM predice tokens. Este caso es una salida completamente no plausible, así que no encaja bien con una alucinación
  Eso no significa necesariamente que tenga que ser una filtración entre sesiones; podría ser datos de entrenamiento o algo como generación de datos estilo Magpie, donde con un prompt vacío escupe una conversación
  Viendo los subcomentarios sobre caché, también parece posible que haya un error en el que, en vez de cargar algo desde caché, no cargue nada y escupa generación aleatoria
  Corrigiendo: el nombre nuevo era magpie. El concepto de que un LLM genere una conversación aleatoria a partir de un prompt vacío vale la pena, y parece tan posible como una filtración de sesión: https://github.com/magpie-align/magpie
- El autor afirma en el hilo de abajo que lo reprodujo en un contexto separado
  Dijo que lo mismo ocurrió también en una sesión de Claude Mobile de la misma cuenta Enterprise, y que el punto en común fue Sonnet 5 y la primera respuesta después de más de 5 minutos, es decir, un cache miss
- No digo que no esté de acuerdo, pero esto de todos modos debe investigarse
  Es una lástima que haya tan poca transparencia, porque aunque nieguen que haya habido una filtración, no podemos saberlo con certeza
- Me pregunto por qué eso haría que sea más probable
- Exacto
  Si has usado bastante los LLM, habrás visto que todos los modelos a veces empiezan de golpe a soltar tonterías en un idioma completamente distinto. En cierto porcentaje pueden volverse totalmente raros
En los últimos días también he visto esto en Gemini
En prompts con entradas bastante grandes, a menudo sale una respuesta que parece pertenecerle a otra persona. Puede ser una alucinación inducida, pero también parece una colisión de caché u otro problema
No he visto evidencia de que se esté filtrando información personal, pero inquieta estar investigando algún tema y de pronto recibir algo que parece una respuesta de tutoría de matemáticas
- En las últimas semanas también hubo problemas con Gemini accedido desde la UI. Me preocupa que unos días después estén viendo lo mismo en otro contexto
  Me da la sensación de que quizá está ocurriendo un incidente de seguridad grande tras bambalinas
  He estado trabajando en usar AI como apoyo para escribir gramáticas de metaparsing, y por suerte la mayor parte todavía no la he publicado
  Me queda claro que la siguiente generación de modelos muestra un gran cambio de nivel en identificación y explotación de vulnerabilidades básicas, sobre todo si sabes dónde hacer que mire. En mis propias herramientas de parsing ya encontró varios bugs y al menos un exploit, y cuesta imaginar cuántos más quedan todavía en todo el ecosistema tecnológico moderno
- Toda nuestra empresa está haciendo una evaluación intermedia, y como la única herramienta permitida es Gemini, la gente está confundida por respuestas aleatorias que parecen no tener relación
  A menudo también salen en otro idioma
  Eso cuando llega a responder; si no, simplemente devuelve el código de error 1099
Soy Thariq del equipo de Claude Code.
Gracias por el reporte detallado; estoy seguro de que esto es una alucinación, pero por supuesto nos tomamos en serio este tipo de reportes y el equipo lo está investigando. Avisaremos si aparece algo.
- Gracias por trabajar en esto incluso en fin de semana y, como sugerencia desde el punto de vista de usuario, estaría bueno que fuera más fácil gestionar la memoria de Claude Code.
  Ahora, si uno entra a la carpeta .claude y cambia cosas como el nombre de una carpeta de proyecto, a veces no carga bien la memoria. Sería bueno que importar/exportar fuera más fácil.
¿Las opciones son una de dos? ¿Esta tecnología asombrosa es tan tonta que saca Minecraft al azar, o hay un problema de seguridad grave?
- Esa persona tenía minecraft.py en su contexto, y el contexto de la sesión también era muy largo.
  No es raro que una sesión de LLM con contexto largo a veces se vaya por las ramas. La gente que espera perfección absoluta en toda interacción con un LLM ve esto como una acusación total contra toda la tecnología, pero quienes la usan a diario aceptan que la salida es parcialmente probabilística y aprenden a evitar contextos excesivamente largos, aunque el modelo los permita.
  Conviene comprimir estratégicamente o resumir los siguientes pasos y pasarlos a una sesión nueva. Usar subsesiones puede gastar más tokens en resúmenes y transferencia de datos, pero también puede reducir la contaminación del contexto.
- Es fin de semana, así que podemos antropomorfizar.
  También he conocido ingenieros brillantes que de repente sacaban el tema de Minecraft; hoy en día probablemente sería Factorio, así que tiene sentido.
- El autor original sí tenía un archivo minecraft.py. Así que no es 100% aleatorio por completo.
Tengo un problema de pago/suscripción y no hay nada que pueda hacer ni forma de conseguir ayuda.
El chatbot de soporte simplemente me bloquea, y los correos también los maneja un chatbot. Ni siquiera sé si es el mismo chatbot. Era un callejón sin salida total, y al final contacté a mi banco, el emisor de la tarjeta de crédito, y el empleado me dijo que lo mejor era reportar la tarjeta como perdida y pedir una nueva, así que hice eso. Espero que funcione.
Nunca entendí en qué momento el mundo decidió que estaba bien entregarles tantos permisos no verificados a estas empresas. Aunque, en realidad, siempre fue así, solo con otra forma.
Es interesante que el primer comentario en el post de GitHub sea una respuesta tipo claudeslop, y que luego sigan reacciones a eso.
Cosas que Fable 5 rechazó, en orden: “tengo paleta de cerdo y quiero una receta de hong shao rou”, “escribir un framework de patrones MCP para darle a Claude Code”, “explicar la biomecánica del movimiento de c. elegans”.
La última está relacionada con un proyecto personal, así que lo entiendo. Como el servicio se cayó, ¿me darán otro día de Fable 5 funcionando?
- No sé qué tan relacionado esté, pero normalmente, si alguien hubiera creado un clasificador tan malo, lo habrían despedido.
  Anthropic parece creer que tiene poder monopólico para encajarles basura a los consumidores, pero no creo que sea así.
- No entiendo qué relación tiene esto. ¿A quién le estás hablando? Esto es Hacker News, no el soporte de Anthropic.
- Me impresiona que la gente use este modelo de frontera para cocinar.
- Me pregunto si fue el filtro de seguridad el que lo rechazó, o si el modelo estaba caído.
- Le pregunté cómo funciona heredar ojos azules de los padres y, por motivos de seguridad, me degradó a Opus.
¿Hay algo especial en los LLM que haga más difícil separar los datos de clientes que en un SaaS común?
- Sí.
  Hay un caché de contexto, que es un estado compartido demasiado grande y caro como para replicarlo cada vez que quieres evitarlo; la localidad de memoria es muy importante para el rendimiento; el hardware está extremadamente sobresuscrito; y los costos son muy altos.
  Por estos factores, para la mayoría de las cargas de trabajo y clientes, el aislamiento por hardware o el aislamiento tradicional de espacios de memoria —es decir, hipervisores/VM/virtualización asistida por hardware— prácticamente no puede ser el punto de partida, y todo el aislamiento termina empujado a la capa de software. Solo eso ya lo hace mucho más difícil que un SaaS generalista.
  Además, las herramientas, frameworks y hardware GPU sobre los que corre el sistema no fueron diseñados pensando en el aislamiento de trabajos, y crear ese tipo de aislamiento es casi un área de investigación más nueva incluso que compartir hardware de CPU x86. En x86 también se necesitó una cantidad enorme de esfuerzo durante más de 30 años.
  La relación entre madurez y uso/sensibilidad tampoco es buena en general. Estas empresas son jóvenes, desarrollan rápido y están bajo una presión enorme de entrega por demandas gigantescas de cargas de trabajo de clientes.
  No sé si el post original describe un problema real o no, pero en general lo sorprendente es que no haya más casos así. Desde esta perspectiva, de verdad se parece a un castillo de naipes.
- Parece que hicieron la implementación con vibe coding.
  En Codex no he tenido grandes problemas, pero con Claude Code parece que se reportan problemas graves casi todos los días.
  Y también son los que más presumen de no leer ni revisar el código.
  Los LLM son muy capaces, pero están muy lejos del nivel que promocionan.
  Ahora ya pasamos del vibe coding a hacer que el LLM se haga vibe coding a sí mismo dentro del bucle.
- Especulando, hacer cualquier cosa en GPU de forma multi-tenant debe ser más difícil que en la mayoría de los SaaS por la falta de herramientas de seguridad de memoria.
  He construido sistemas SaaS multi-tenant y hace mucho hice algo de programación GPU, pero nunca combiné ambos campos.
- Si no se comparte el caché de prefijos (caché KV) entre clientes, la eficiencia computacional sería terriblemente mala.

Posible filtración de sesión/caché entre instancias de workspace o cuentas de consumidor

Fenómeno reportado

Confusión entre directorio de ejecución y directorio de trabajo

Propuesta de revisar el transcript local

Resultados adicionales de la revisión del autor

Caso similar en Claude Mobile

Casos y reacciones de otros participantes

Estado actual y puntos pendientes

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News