- En el issue #74066 de Claude Code, un usuario de un workspace Enterprise ZDR reportó que en su sesión se mezclaron respuestas relacionadas con un templo de Minecraft sin relación con su trabajo, y cuestionó la posible falta de aislamiento de caché del workspace y una posible filtración entre planes de consumidor
- El entorno reportado fue macOS(darwin), Apple_Terminal y Claude Code 2.1.199; además, el usuario indicó que usaba una configuración inusual donde el directorio real de trabajo y el directorio de ejecución eran distintos, y que después de
/compact también hubo una confusión separada en la que se tocó el proyecto del directorio de ejecución
- Un comentario sugirió primero usar
grep sobre el transcript local en ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl para distinguir si era contaminación de contexto local o una filtración del lado del servidor; el autor respondió que no encontró coincidencias locales relacionadas con Minecraft, salvo el log de la sesión actual y una ruta minecraft.py
- Más tarde, en una sesión de Claude Mobile de la misma cuenta Enterprise también se mezcló contenido no relacionado sobre un print abstracto de 3 paneles; dijo que los puntos en común fueron Sonnet 5, la primera respuesta tras más de 5 minutos y un cache miss, y que envió
/feedback y lo escaló internamente
- Otros participantes compartieron experiencias similares con Claude Code, la API y el uso de Claude dentro de la oficina, aunque algunos plantearon la posibilidad de alucinación o de que no fuera un problema exclusivo de Claude Code; en la página del issue no figura un análisis final de causa raíz ni una resolución por parte de Anthropic
Fenómeno reportado
- El issue #74066 de Claude Code trata un caso en el que, estando autenticado en un workspace Enterprise ZDR, el agente de pronto dijo que estaba construyendo un “templo de Minecraft”
- El usuario escribió que el agente le preguntó qué tipo de ladrillos quería, y que incluso en el recap afirmó con seguridad que estaba construyendo un templo de Minecraft
- El cuestionamiento del problema va por dos líneas
- Posible mezcla de la sesión o la caché de un compañero dentro del mismo workspace
- Posible mezcla en una sesión Enterprise ZDR de contenido proveniente de un plan de consumidor
- Información del entorno reportado
- Platform:
darwin
- Terminal:
Apple_Terminal
- Version:
2.1.199
- Feedback ID:
f336f5d2-3992-4a04-9e1f-ec30f006f75e
Confusión entre directorio de ejecución y directorio de trabajo
- El usuario inició la sesión desde un directorio no relacionado con el trabajo real
- Porque ese directorio tenía un
.claude con el contexto necesario
- El trabajo real se estaba realizando en otro directorio
- Después de
/compact, hubo un caso en el que el agente olvidó las instrucciones del usuario y empezó a trabajar sobre el proyecto del directorio de ejecución
- El usuario distingue que esta confusión de directorios parece deberse a su propia configuración, pero es diferente del fenómeno en el que se mezcló un prompt relacionado con Minecraft
Propuesta de revisar el transcript local
- Un participante sugirió que primero había que comprobar si el texto “Minecraft temple” existía en los archivos locales de sesión
- Explicó que el contenido enviado y recibido por el CLI de Claude Code se guarda por sesión como transcript en
~/.claude/projects/<encoded-cwd>/<session-id>.jsonl
- El comando sugerido para verificarlo fue el siguiente
grep -rli 'minecraft\|temple\|brick' ~/.claude/projects/ 2>/dev/null
- La interpretación de resultados se divide en dos posibilidades
- Si algún archivo coincide, entonces el texto existe localmente y podría tratarse de mezcla de contexto/transcript local
- Si no hay coincidencias locales, entonces se debería sospechar de un problema del modelo o del servidor, porque sería texto que esa máquina nunca envió ni recibió
- También se sugirió un comando para comprobar si se trataba de una mezcla local proveniente de otra sesión
grep -rli minecraft ~/.claude/projects/ | while read f; do
printf '%s %s\n' "$(grep -m1 -o '"cwd":"[^"]*"' "$f")" "$f"; done
- Quien hizo la sugerencia consideró que el launch cwd actúa tanto como ubicación de almacenamiento del transcript como clave de contexto, por lo que iniciar desde un directorio no relacionado y usar
/compact puede generar confusión de directorios
- Aun así, distinguió que ese mecanismo puede explicar la confusión de directorios, pero no el prompt de Minecraft que el usuario nunca escribió
Resultados adicionales de la revisión del autor
- El autor respondió que, al buscar localmente, aparte del punto en el log actual donde primero pareció aparecer la filtración y la conversación posterior con el modelo, no había más coincidencias relacionadas
- Respecto a
minecraft, dijo que apareció una vez en la lista de archivos de un entorno virtual de Python, en la ruta del lexer de Pygments minecraft.py
temple y bricks no coincidieron en esos límites de palabra ni en un contexto relacionado con Minecraft
Databricks
bricked by an over-eager click
- Subcadenas irrelevantes como dentro de
verdictSignalsLabel
- El usuario indicó que envió
/feedback y que también lo escaló internamente
Caso similar en Claude Mobile
- El mismo autor añadió que observó el mismo tipo de fenómeno en una sesión de Claude Mobile de la misma cuenta Enterprise
- Señaló los siguientes puntos en común
- Sonnet 5
- La primera respuesta después de más de 5 minutos
- Una situación de cache miss
- Como no pudo subir una imagen adjunta del correo, dejó el contenido OCR en un comentario
- El usuario había reunido archivos CSV en una carpeta, compartió un enlace a una carpeta de Google Drive y pidió ayuda
- Claude habló de un mockup de un set de prints abstractos de 3 paneles ajustado a las dimensiones reales de una pared, además de investigación sobre artistas y tiendas, todo sin relación con la solicitud
- Luego dijo “Detecting injection attempt, proceeding...”, tratando ese contenido como si fuera una inyección
- En el proceso de razonamiento mostrado, concluyó que se había insertado un bloque sobre dimensiones de pared y prints artísticos que no tenía relación con la petición sobre CSV, y que intentaría extraer el ID de la carpeta de Drive para procesar los archivos CSV
Casos y reacciones de otros participantes
- Un participante escribió que la semana anterior, en Claude Code con Sonnet 5, se había mezclado en medio de los resultados de herramientas contenido que no provenía de la herramienta realmente invocada
- Un aviso manipulado de “MCP servers need auth”
- Otro volcado de
CLAUDE.md
- Instrucciones falsas de “Plan mode is active”
- Otro participante dijo que Claude una vez mencionó tiendas cerca del lugar donde vive su amigo, y que ese amigo también usa Claude en la misma oficina
- Otro comentó que en 2025, al usar tokens de API, pareció como si de pronto aparecieran herramientas de otro agente, aunque en ese momento lo tomó como una alucinación y no investigó a fondo
- Un comentario enlazó una publicación sobre un incidente relacionado de Claude, señalando que al principio parecía que habían visto datos de otro usuario, pero que después Anthropic dijo que en realidad era una exposición incorrecta de contexto interno del agente
- Algunos comentarios creen que el fenómeno parece una alucinación o que podría no ser un problema exclusivo de Claude Code
Estado actual y puntos pendientes
- En la página, el issue sigue en estado Open, y en el cuerpo no hay análisis final de causa raíz ni constancia de una corrección completada
- El punto central sigue siendo de dónde ingresó el texto no relacionado
- Mezcla de transcript local o de contexto basada en el launch cwd
- Problema de estado de sesión del modelo o del servidor
- Exposición incorrecta de contexto interno del agente
- Alucinación común
- Los resultados de búsqueda local del autor apuntan a que no se encontraron contenidos sobre Minecraft temple o bricks en sesiones locales previas, pero dentro del issue público no hay un dictamen oficial de Anthropic
1 comentarios
Opiniones de Hacker News
Estoy muy involucrado del lado de quienes usan LLM de varios proveedores, y conozco al menos dos casos en los que la infraestructura intermedia intercambió respuestas
Una vez afectó a un modelo Claude y otra a un modelo GPT, y fueron proveedores distintos
Uno de ellos dio un post mortem adecuado: una puerta de enlace de API manejó mal el código de estado HTTP 100, entró en un estado de error y, en la práctica, se produjo un error off-by-one; yo recibía la respuesta al prompt inmediatamente anterior a mi solicitud, y mi respuesta pasaba al siguiente llamador
El otro no explicó la causa raíz, solo nos dijeron que confiáramos en que no volvería a ocurrir
Ambos eran empresas con capitalización de mercado superior a 1 billón de dólares
En este caso, como la respuesta se cambió durante la transmisión, ZDR en sí no se rompió, pero creo que podría ser un problema parecido. Puede que no se trate de que los datos se conserven, sino de que no estén aislados de forma segura en la infraestructura intermedia
A menudo los clientes lo usan intencionalmente para espiar las respuestas de otros clientes
Cada vez que se multiplexan solicitudes de varios clientes en una sola conexión upstream puede haber vulnerabilidad, porque, contra lo que parece, HTTP es tan complejo que resulta difícil emparejar de forma confiable solicitudes y respuestas en el upstream
Por ejemplo, tener más de un encabezado Content-Length, mezclar Content-Length con codificación por chunks, o pasar un encabezado Content-Length de HTTP/2 que no coincide con la longitud real del cuerpo puede provocar desincronización en algunos sistemas
Hay una charla de DEF CON sobre este tema: https://www.youtube.com/watch?v=w-eJM2Pc0KI
El mismo ataque se aplicó también a SMTP, manipulando saltos de línea alrededor del delimitador de fin de mensaje; ahí se le llama SMTP smuggling. También podría aplicarse a otros protocolos
Por ejemplo, si estás manejando PHI, aunque Claude no haya conservado nada, una filtración de la respuesta podría ser una violación de HIPAA, y supongo que cumplir con HIPAA era el objetivo desde el principio; me pregunto cómo debería verse eso
Toda conducta nueva de actores para quienes incluso una afirmación de valor moral positivo apenas resulta plausible debería reportarse, discutirse, diseccionarse y criticarse temprano y con frecuencia
Creo que con solo agregar a AGENTS.md una línea que diga “nunca hables de Minecraft a menos que se te pida explícitamente” quedaría bien
Hasta que se demuestre, suena a alucinación. Incluso los LLM líderes hacen ese tipo de cosas a veces, y siempre parecen plausibles
Tal vez la sesión tenía muchísimo contexto previo, por ejemplo más de 800 mil tokens, y en ese caso creo que la probabilidad de alucinación aumenta
Un comentario relacionado del autor original también aumenta esa posibilidad: en el resultado de una llamada a herramienta que listaba archivos de un entorno virtual de Python aparecía una cadena de ruta
minecraft.py, y el paquete Pygments tiene un lexer llamadominecraft.pyUna alucinación suele ser una respuesta plausible pero incorrecta, o información fabricada ajustada a la respuesta más probable, como una cita generada, y surge de la forma en que el LLM predice tokens. Este caso es una salida completamente no plausible, así que no encaja bien con una alucinación
Eso no significa necesariamente que tenga que ser una filtración entre sesiones; podría ser datos de entrenamiento o algo como generación de datos estilo Magpie, donde con un prompt vacío escupe una conversación
Viendo los subcomentarios sobre caché, también parece posible que haya un error en el que, en vez de cargar algo desde caché, no cargue nada y escupa generación aleatoria
Corrigiendo: el nombre nuevo era magpie. El concepto de que un LLM genere una conversación aleatoria a partir de un prompt vacío vale la pena, y parece tan posible como una filtración de sesión: https://github.com/magpie-align/magpie
Dijo que lo mismo ocurrió también en una sesión de Claude Mobile de la misma cuenta Enterprise, y que el punto en común fue Sonnet 5 y la primera respuesta después de más de 5 minutos, es decir, un cache miss
Es una lástima que haya tan poca transparencia, porque aunque nieguen que haya habido una filtración, no podemos saberlo con certeza
Si has usado bastante los LLM, habrás visto que todos los modelos a veces empiezan de golpe a soltar tonterías en un idioma completamente distinto. En cierto porcentaje pueden volverse totalmente raros
En los últimos días también he visto esto en Gemini
En prompts con entradas bastante grandes, a menudo sale una respuesta que parece pertenecerle a otra persona. Puede ser una alucinación inducida, pero también parece una colisión de caché u otro problema
No he visto evidencia de que se esté filtrando información personal, pero inquieta estar investigando algún tema y de pronto recibir algo que parece una respuesta de tutoría de matemáticas
Me da la sensación de que quizá está ocurriendo un incidente de seguridad grande tras bambalinas
He estado trabajando en usar AI como apoyo para escribir gramáticas de metaparsing, y por suerte la mayor parte todavía no la he publicado
Me queda claro que la siguiente generación de modelos muestra un gran cambio de nivel en identificación y explotación de vulnerabilidades básicas, sobre todo si sabes dónde hacer que mire. En mis propias herramientas de parsing ya encontró varios bugs y al menos un exploit, y cuesta imaginar cuántos más quedan todavía en todo el ecosistema tecnológico moderno
A menudo también salen en otro idioma
Eso cuando llega a responder; si no, simplemente devuelve el código de error 1099
Soy Thariq del equipo de Claude Code.
Gracias por el reporte detallado; estoy seguro de que esto es una alucinación, pero por supuesto nos tomamos en serio este tipo de reportes y el equipo lo está investigando. Avisaremos si aparece algo.
Ahora, si uno entra a la carpeta
.claudey cambia cosas como el nombre de una carpeta de proyecto, a veces no carga bien la memoria. Sería bueno que importar/exportar fuera más fácil.¿Las opciones son una de dos? ¿Esta tecnología asombrosa es tan tonta que saca Minecraft al azar, o hay un problema de seguridad grave?
minecraft.pyen su contexto, y el contexto de la sesión también era muy largo.No es raro que una sesión de LLM con contexto largo a veces se vaya por las ramas. La gente que espera perfección absoluta en toda interacción con un LLM ve esto como una acusación total contra toda la tecnología, pero quienes la usan a diario aceptan que la salida es parcialmente probabilística y aprenden a evitar contextos excesivamente largos, aunque el modelo los permita.
Conviene comprimir estratégicamente o resumir los siguientes pasos y pasarlos a una sesión nueva. Usar subsesiones puede gastar más tokens en resúmenes y transferencia de datos, pero también puede reducir la contaminación del contexto.
También he conocido ingenieros brillantes que de repente sacaban el tema de Minecraft; hoy en día probablemente sería Factorio, así que tiene sentido.
minecraft.py. Así que no es 100% aleatorio por completo.Tengo un problema de pago/suscripción y no hay nada que pueda hacer ni forma de conseguir ayuda.
El chatbot de soporte simplemente me bloquea, y los correos también los maneja un chatbot. Ni siquiera sé si es el mismo chatbot. Era un callejón sin salida total, y al final contacté a mi banco, el emisor de la tarjeta de crédito, y el empleado me dijo que lo mejor era reportar la tarjeta como perdida y pedir una nueva, así que hice eso. Espero que funcione.
Nunca entendí en qué momento el mundo decidió que estaba bien entregarles tantos permisos no verificados a estas empresas. Aunque, en realidad, siempre fue así, solo con otra forma.
Es interesante que el primer comentario en el post de GitHub sea una respuesta tipo claudeslop, y que luego sigan reacciones a eso.
Cosas que Fable 5 rechazó, en orden: “tengo paleta de cerdo y quiero una receta de hong shao rou”, “escribir un framework de patrones MCP para darle a Claude Code”, “explicar la biomecánica del movimiento de c. elegans”.
La última está relacionada con un proyecto personal, así que lo entiendo. Como el servicio se cayó, ¿me darán otro día de Fable 5 funcionando?
Anthropic parece creer que tiene poder monopólico para encajarles basura a los consumidores, pero no creo que sea así.
¿Hay algo especial en los LLM que haga más difícil separar los datos de clientes que en un SaaS común?
Hay un caché de contexto, que es un estado compartido demasiado grande y caro como para replicarlo cada vez que quieres evitarlo; la localidad de memoria es muy importante para el rendimiento; el hardware está extremadamente sobresuscrito; y los costos son muy altos.
Por estos factores, para la mayoría de las cargas de trabajo y clientes, el aislamiento por hardware o el aislamiento tradicional de espacios de memoria —es decir, hipervisores/VM/virtualización asistida por hardware— prácticamente no puede ser el punto de partida, y todo el aislamiento termina empujado a la capa de software. Solo eso ya lo hace mucho más difícil que un SaaS generalista.
Además, las herramientas, frameworks y hardware GPU sobre los que corre el sistema no fueron diseñados pensando en el aislamiento de trabajos, y crear ese tipo de aislamiento es casi un área de investigación más nueva incluso que compartir hardware de CPU x86. En x86 también se necesitó una cantidad enorme de esfuerzo durante más de 30 años.
La relación entre madurez y uso/sensibilidad tampoco es buena en general. Estas empresas son jóvenes, desarrollan rápido y están bajo una presión enorme de entrega por demandas gigantescas de cargas de trabajo de clientes.
No sé si el post original describe un problema real o no, pero en general lo sorprendente es que no haya más casos así. Desde esta perspectiva, de verdad se parece a un castillo de naipes.
En Codex no he tenido grandes problemas, pero con Claude Code parece que se reportan problemas graves casi todos los días.
Y también son los que más presumen de no leer ni revisar el código.
Los LLM son muy capaces, pero están muy lejos del nivel que promocionan.
Ahora ya pasamos del vibe coding a hacer que el LLM se haga vibe coding a sí mismo dentro del bucle.
He construido sistemas SaaS multi-tenant y hace mucho hice algo de programación GPU, pero nunca combiné ambos campos.