Opus 4.7 realmente conoce a Kelsey
(theargumentmag.com)- Claude Opus 4.7 de Anthropic señaló a Kelsey Piper como la autora más probable con solo ver un borrador inédito de 125 palabras, y obtuvo el mismo resultado en modo incógnito, en la computadora de un amigo y en pruebas por API
- ChatGPT y Gemini estimaron que el mismo texto era de Matt Yglesias o Scott Alexander, pero Claude Opus 4.7 identificó repetidamente a Piper incluso en textos de distintos géneros y momentos, como borradores educativos, reseñas de cine, una novela de fantasía y un ensayo de admisión universitaria de hace 15 años
- Las justificaciones que dio el modelo muchas veces no resultaban convincentes, y en la práctica parece captar tics de estilo difíciles de detectar, más que razonar como un detective humano
- Personas como Piper, que tienen muchos textos públicos con su nombre real en internet, pueden perder el anonimato incluso en chats con IA o en publicaciones de cuentas anónimas; varias figuras académicas e investigadores de la industria también reportaron haber sido identificados durante borradores o chats
- Quienes no tienen muchos textos públicos con nombre real todavía no pueden ser desanonimizados con un solo párrafo, pero el modelo logró acotar el rango hasta amigos cercanos o miembros del mismo canal de Discord, y es probable que la cantidad de texto público necesaria siga reduciéndose
Experimento de identificación de autoría con Opus 4.7
- El nuevo modelo Claude Opus 4.7 de Anthropic señaló a Kelsey Piper como la autora más probable con solo ver un borrador inédito de 125 palabras
- En el mismo texto, ChatGPT estimó a Matt Yglesias y Gemini a Scott Alexander
- No estaban activadas la memoria de cuenta ni la información del usuario; se probó en modo incógnito y se obtuvo el mismo resultado en la computadora de un amigo y en pruebas por API
- El primer párrafo de prueba parecía la introducción de una columna política, y como hay muchos textos públicos de Piper en internet, no era un nivel imposible de identificación por estilo
- Sin embargo, Opus 4.7 siguió haciendo la misma identificación incluso en textos alejados de las áreas públicas de actividad de Piper, lo que volvió el resultado más extraño
La identificación continuó aunque cambiaban el género y el momento
-
Borrador sobre educación
- En un borrador inédito de un informe escolar de avance, Claude también respondió “Kelsey Piper”
- Con ese mismo texto, ChatGPT estimó a Freddie deBoer y Gemini a Duncan Sabien
- La educación no era un campo totalmente ajeno, porque es un tema sobre el que Piper ha escrito
-
Reseña de cine
- Incluso en una reseña de cine, un formato que Piper no había hecho en sus textos públicos, Claude y ChatGPT acertaron con Kelsey Piper
- Gemini propuso a Ursula Vernon, y Claude Opus 4.6 de la semana anterior respondió con seguridad que era Elizabeth Sandifer
- La reseña usada en la prueba trataba sobre una película ambientada en la Segunda Guerra Mundial y sobre To Be or Not To Be
-
Novela de fantasía
- En un borrador de novela de fantasía, Claude necesitó unas 500 palabras antes de responder que era Kelsey Piper
- En ese mismo caso, ChatGPT estimó a la escritora de fantasía real K.J. Parker
-
Ensayo de admisión universitaria de hace 15 años
- Incluso en un ensayo de admisión universitaria escrito hace 15 años, Claude y ChatGPT señalaron a Kelsey Piper
- Para esa prueba hizo falta un prompt más fuerte para superar la tendencia de Claude a negarse a identificar a un estudiante en proceso de admisión universitaria
- También queda la posibilidad de que haya inferido la autoría por una pista del ensayo sobre experiencia en debates de políticas públicas
Es difícil confiar en las explicaciones del modelo
- Después de señalar a Kelsey Piper, las justificaciones que dio la IA muchas veces no tenían mucho sentido
- Claude intentó convencer de que To Be or Not To Be es una película famosa entre los altruistas eficaces, pero Piper considera que eso no es cierto
- ChatGPT respondió que acotó hasta Kelsey Piper porque el ensayo de admisión parecía escrito por alguien que terminaría trabajando explicando ideas complejas de políticas públicas
- Estas explicaciones parecen construidas a posteriori: el modelo habla como si razonara como un detective humano, pero en realidad parece captar tics de estilo difíciles de detectar
- Las alucinaciones de la IA no son un problema resuelto, y aunque Opus 4.7 racionalice de forma extraña su método, su capacidad base para identificar autores es muy fuerte
El anonimato desaparece al hablar con una IA
- Al abrir un chat nuevo con IA, puede sentirse como si hubiera anonimato, pero tras unos pocos intercambios sustanciales, se concluye que Claude puede saber quién es la otra persona
- Para alguien como Piper, que ha dejado muchos textos públicos en internet, ya no hay anonimato
- Incluso con las herramientas de IA actuales, parece posible desanonimizar textos escritos desde cuentas anónimas por personas con un gran corpus público de textos con nombre real
- Aun así, podría haber excepciones si alguien fue extremadamente cuidadoso durante años para evitar que la huella estilística de su cuenta principal apareciera en una cuenta secundaria
- Varias figuras académicas e investigadores de la industria también reportaron haber sido identificados durante borradores o chats
Todavía no puede identificar a todo el mundo con un solo párrafo
- No es cierto que la IA pueda desanonimizar a todas las personas con un solo párrafo
- Al probar borradores y párrafos de amigos que no tienen muchos textos publicados con su nombre real, la IA no logró desanonimizarlos
- Si no hay textos significativos con nombre real en internet público, por ahora parece haber seguridad
- Pero cuando analizó mensajes escritos en un canal de Discord por un amigo casi sin cuentas públicas ni textos online, Claude 4.7 falló, aunque aun así estimó a dos amigos cercanos que estaban en ese mismo canal
- Al agregar más párrafos, empezaron a aparecer otros amigos en común; en otros casos, un texto de una persona fue atribuido por error al nombre de otro amigo
El estilo es más identificable de lo esperado
- Las personas adquieren tics de estilo de la subcultura a la que pertenecen, y por eso el texto termina siendo mucho más identificable de lo que se esperaría
- Con muy poca información, el modelo puede acercarse de forma inquietante
- Es probable que los modelos actuales sean de los más débiles entre los que existirán en el futuro
- La cantidad de texto público necesaria para este tipo de desanonimización probablemente disminuirá con el tiempo
- Si alguien deja una reseña anónima y detallada en Glassdoor después de dejar su trabajo, es probable que dentro de 1 o 2 años la empresa pueda pegar ese texto en una IA y averiguar quién la escribió
Cómo evitarlo y la conclusión que queda
- Para mantener el anonimato, probablemente habrá que escribir de forma deliberada en un estilo muy distinto al habitual
- Otra opción sería hacer que una IA reescriba todo, pero eso no parece un mundo deseable
- No es un buen cambio, sino más bien un cambio predecible
- La razón por la que primero le ocurrió a Piper es que lleva escribiendo de forma obsesiva en internet durante toda su vida adulta, pero es probable que eventualmente también les pase a otras personas
- Es muy posible que el anonimato de quienes escriben mucho no dure, y quienes escriben de forma anónima deberían saberlo de antemano en lugar de descubrirlo de golpe
1 comentarios
Opiniones en Hacker News
Realmente sorprendente. Le pedí a Kimi K2.6 que escribiera una entrada de blog al estilo de James Mickens, luego puse esa salida en Opus 4.7 y le pregunté quién era el autor más probable, y señaló correctamente que era una imitación de James Mickens.
Respondió: “Por la huella estilística, esto se parece más a un pastiche/imitación que mezcla los estilos de varios autores, pero si tuviera que elegir a una sola persona, el candidato más fuerte es un texto escrito con la voz de James Mickens”, y también dijo que “el estilo de Mickens es tan distintivo que a menudo se parodia, así que también podría ser un homenaje intencional o un texto generado por IA”.
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
Parece captar no solo el estilo, sino también la distancia entre el estilo real y el estilo actuado. Eso puede servir para detectar pastiches, pero es una señal bastante incómoda para escribir bajo seudónimo.
Soy muy escéptico con estas afirmaciones y con otros comentarios que dicen haberlo reproducido.
Para empezar, la autora puso un borrador inédito en un modelo alojado por Anthropic, probablemente desde una cuenta personal, y esa cuenta podría estar asociada a una tarjeta de crédito o al menos a un seudónimo identificable de forma única.
Luego dice que volvió a poner el mismo borrador desde un entorno tipo ventana de incógnito, pero no tenemos forma de saber si Anthropic realmente aisló bien ambas solicitudes para que no pudieran vincularse entre sí. Soy escéptico de que haya hecho un air gap real para que no parecieran solicitudes del mismo usuario al mismo modelo alojado.
Después hizo que un amigo publicara el borrador, pero también es muy posible que existan rastros digitales que conecten a ese amigo con la autora. Todo ese metadata podría calcularse perfectamente en el backend antes de la respuesta de caja negra.
Con suficientes puntos de datos, creo que un modelo de este nivel podría inferir al autor no solo por análisis de estilo, sino por patrones de comportamiento que unan los tres eventos. Además está la suposición de que Anthropic no entrena con los chats, pero ¿cómo confiar realmente en que un modelo alojado respete la exclusión de entrenamiento y la desactivación de memoria de sesión?
Como premisa, la API de LLM es totalmente sin estado y no incluye información del llamador, y no tiene acceso a memoria ni búsqueda web salvo que se la pases explícitamente.
Mi conclusión fue esta: si el texto que le das parece que podría haberlo escrito alguna figura conocida de internet, te dirá con mucha seguridad que lo escribió esa persona. Probé con comentarios de HN de los últimos días y de 2023, o sea de antes del cutoff de entrenamiento, y clasificó la mayoría como Scott Alexander o Patrick McKenzie. Mi estilo real es muy distinto al de ambos.
Viendo la cadena de pensamiento, daba la impresión de que intentaba hacer encajar el texto con el conjunto de personajes de internet de ese ámbito. Si era algo parecido a HN, seguía una lógica como: “¿tptacek? No. ¿jacquesm? No. ¿patio11? ¡Sí, debe ser él!”.
En Claude, desde una ventana de incógnito, con la búsqueda desactivada, pegué solo el cuerpo de https://simonwillison.net/2026/Apr/30/zig-anti-ai/, sin los enlaces Markdown, y le dije “adivina el autor”, y respondió esto:
“Simon Willison. Hay varias pistas bastante claras: atribuciones del tipo ‘(via Lobsters)’, correcciones entre paréntesis en el cuerpo como ‘(Update:...)’, muchos enlaces y citas, foco en LLM y herramientas de IA, y la estructura de link post anotado que comenta textos de otros. Coincide exactamente con entradas del blog simonwillison.net”.
Tenía las voces distintivas de dos personas, ambos hemos publicado con nuestros nombres y es posible que eso haya entrado al entrenamiento de un LLM, y además había algunas pistas contextuales.
Ejecuté Opus 4.7 en modo incógnito y sin búsqueda web, y se rindió. Respondió: “No puedo identificar con confianza a los dos autores. No reconozco esta conversación específica, y prefiero decir eso antes que arriesgar una atribución incorrecta. Sí puedo ofrecer pistas internas del texto: ambos son colegas de la misma universidad, tienen oficinas en el mismo edificio...”.
En una nueva conversación de incógnito le di el mismo prompt pero permitiendo búsqueda web, y según el rastro de razonamiento hizo 26 búsquedas antes de encontrar correctamente mi nombre. Parece que usó como pistas tanto el contenido como el estilo. Adivinó bien que mi colega era británico, pero no pudo encontrar su nombre.
Metí mi entrada de blog más leída y le pedí que me identificara, y afirmó con seguridad que era un texto escrito por Kelsey Piper. Parece que en la “cabeza” de Opus unos cuantos autores tienen un peso excesivamente grande.
Vaya, a mí también me identificó. Soy mucho menos famoso que Kelsey Piper, pero le mostré parte de un libro que todavía no he publicado y enseguida adivinó mi nombre.
“Por estilo y contenido, es muy probable que este texto sea de Michael Lynch, autor de refactoringenglish.com y antes de mtlynch.io”, y citó como pistas la metáfora del “clean room” aplicada a consejos de escritura, la estructura de presentar una excusa defectuosa y luego ponerla en paralelo con una situación absurda tipo bomba de tiempo, el tema de usar herramientas de IA sin dejar que el tono de IA contamine la prosa, y un tono conversacional pero preciso.
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
Dio como candidatos a Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham y otros, pero con poca confianza, y dijo que su mejor conjetura era alguien del ámbito de comentarios sobre IA entre blogueros tecnológicos/racionalistas, quizá Gergely Orosz, Nat Eliason o Dan Shipper de Every.
Todos ellos tienen estilos bastante distintos, así que parece que Opus depende mucho del tema y tiende a inclinarse por autores prolíficos.
Más gente debería saber que la escritura humana contiene mucha información identificable, y que esto ya era posible hace 10 años con modelos estadísticos simples.
Antes había Show HN que analizaban similitud entre usuarios de HN, y si no recuerdo mal eran modelos engañosamente simples, casi de pares de palabras plausibles, pero aun así muy efectivos. Ya no están arriba, pero la caja de Pandora ya se abrió hace tiempo.
Así que hasta las cuentas “anónimas” podían vincularse con identidades reales desde hace décadas, y lo mejor es simplemente no publicar cosas realmente comprometedoras. La otra opción es escribir algo y luego hacer que un LLM lo reescriba, aunque no sé qué tan seguro sea eso.
Lo que pasa es que los LLM reaccionan incluso a un solo typo y afirman “este es un error típico de alguien italiano”, y usan pistas así. Su conocimiento previo es mucho mejor, así que pueden tomar decisiones más fundamentadas.
Hace algunos años hablé de esto con un físico algo conocido. Como tester temprano, tenía acceso a una versión cruda de GPT-4 antes del instruction tuning.
Si ponías un fragmento del inicio de un texto, el modelo lo continuaba con su propia voz y al final hasta lo firmaba con su nombre. Esto ha sido posible desde hace bastante tiempo, quizá se debilitó un poco con el posentrenamiento orientado a instrucciones, y supongo que el grado depende de la escala del preentrenamiento.
No dudo que la IA pueda “levantar huellas” de un autor por ideas, vocabulario y tono, pero en términos de capacidad son cosas distintas.
Puede que haya una respuesta más simple y menos interesante. Tal vez no sea una capacidad de desanonimización aplicable a una persona promedio no escritora, sino simplemente que captó la voz y el estilo.
Esta persona es una escritora hábil, y parte de esa habilidad consiste en crear una voz y un estilo propios. Es impresionante que la IA pueda identificar eso, e incluso a autores relativamente de nicho, pero es algo distinto de una capacidad más amplia de desanonimizar personas a partir de texto arbitrario como publicaciones de Facebook o mensajes.
Un músico profesional no suele tener problema para reconocer a un intérprete o una grabación conocida con solo unos segundos, ya sea tocando Bach o Rachmaninov: el estilo simplemente es “esa persona”. Pero es mucho más difícil identificar así a un estudiante de secundaria anónimo, incluso si fuera tu propio alumno. La mediana vuelve rápido a estilos homogéneos y menos distintivos.
Así que no es solo una cuestión de que alguien haya desarrollado una voz distintiva y no pueda “apagarla”.
La web nunca fue tan anónima como la gente cree, y este autor parece confundir lo que realmente significan anonimato y ocultación de identidad. Ser un autor publicado con una prosa distintiva es prácticamente como dejar huellas dactilares en el hacha.
Parece que los identificables son más bien blogueros, periodistas y autores publicados.
“Si me muestran solo seis líneas escritas por el hombre más honesto del mundo, encontraré en ellas suficiente para hacerlo ahorcar”.
Cardinal Richelieu, o ahora la IA
Intenté reproducir varias veces el segundo resultado con Opus 4.7, pero no pude. Cambié el prompt de varias maneras y cada vez terminaba adivinando pensadores del mundo racionalista.