Opus 4.7 realmente conoce a Kelsey

(theargumentmag.com)

1 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp

Claude Opus 4.7 de Anthropic señaló a Kelsey Piper como la autora más probable con solo ver un borrador inédito de 125 palabras, y obtuvo el mismo resultado en modo incógnito, en la computadora de un amigo y en pruebas por API
ChatGPT y Gemini estimaron que el mismo texto era de Matt Yglesias o Scott Alexander, pero Claude Opus 4.7 identificó repetidamente a Piper incluso en textos de distintos géneros y momentos, como borradores educativos, reseñas de cine, una novela de fantasía y un ensayo de admisión universitaria de hace 15 años
Las justificaciones que dio el modelo muchas veces no resultaban convincentes, y en la práctica parece captar tics de estilo difíciles de detectar, más que razonar como un detective humano
Personas como Piper, que tienen muchos textos públicos con su nombre real en internet, pueden perder el anonimato incluso en chats con IA o en publicaciones de cuentas anónimas; varias figuras académicas e investigadores de la industria también reportaron haber sido identificados durante borradores o chats
Quienes no tienen muchos textos públicos con nombre real todavía no pueden ser desanonimizados con un solo párrafo, pero el modelo logró acotar el rango hasta amigos cercanos o miembros del mismo canal de Discord, y es probable que la cantidad de texto público necesaria siga reduciéndose

Experimento de identificación de autoría con Opus 4.7

El nuevo modelo Claude Opus 4.7 de Anthropic señaló a Kelsey Piper como la autora más probable con solo ver un borrador inédito de 125 palabras
En el mismo texto, ChatGPT estimó a Matt Yglesias y Gemini a Scott Alexander
No estaban activadas la memoria de cuenta ni la información del usuario; se probó en modo incógnito y se obtuvo el mismo resultado en la computadora de un amigo y en pruebas por API
El primer párrafo de prueba parecía la introducción de una columna política, y como hay muchos textos públicos de Piper en internet, no era un nivel imposible de identificación por estilo
Sin embargo, Opus 4.7 siguió haciendo la misma identificación incluso en textos alejados de las áreas públicas de actividad de Piper, lo que volvió el resultado más extraño

La identificación continuó aunque cambiaban el género y el momento

Borrador sobre educación
- En un borrador inédito de un informe escolar de avance, Claude también respondió “Kelsey Piper”
- Con ese mismo texto, ChatGPT estimó a Freddie deBoer y Gemini a Duncan Sabien
- La educación no era un campo totalmente ajeno, porque es un tema sobre el que Piper ha escrito
Reseña de cine
- Incluso en una reseña de cine, un formato que Piper no había hecho en sus textos públicos, Claude y ChatGPT acertaron con Kelsey Piper
- Gemini propuso a Ursula Vernon, y Claude Opus 4.6 de la semana anterior respondió con seguridad que era Elizabeth Sandifer
- La reseña usada en la prueba trataba sobre una película ambientada en la Segunda Guerra Mundial y sobre To Be or Not To Be
Novela de fantasía
- En un borrador de novela de fantasía, Claude necesitó unas 500 palabras antes de responder que era Kelsey Piper
- En ese mismo caso, ChatGPT estimó a la escritora de fantasía real K.J. Parker
Ensayo de admisión universitaria de hace 15 años
- Incluso en un ensayo de admisión universitaria escrito hace 15 años, Claude y ChatGPT señalaron a Kelsey Piper
- Para esa prueba hizo falta un prompt más fuerte para superar la tendencia de Claude a negarse a identificar a un estudiante en proceso de admisión universitaria
- También queda la posibilidad de que haya inferido la autoría por una pista del ensayo sobre experiencia en debates de políticas públicas

Es difícil confiar en las explicaciones del modelo

Después de señalar a Kelsey Piper, las justificaciones que dio la IA muchas veces no tenían mucho sentido
Claude intentó convencer de que To Be or Not To Be es una película famosa entre los altruistas eficaces, pero Piper considera que eso no es cierto
ChatGPT respondió que acotó hasta Kelsey Piper porque el ensayo de admisión parecía escrito por alguien que terminaría trabajando explicando ideas complejas de políticas públicas
Estas explicaciones parecen construidas a posteriori: el modelo habla como si razonara como un detective humano, pero en realidad parece captar tics de estilo difíciles de detectar
Las alucinaciones de la IA no son un problema resuelto, y aunque Opus 4.7 racionalice de forma extraña su método, su capacidad base para identificar autores es muy fuerte

El anonimato desaparece al hablar con una IA

Al abrir un chat nuevo con IA, puede sentirse como si hubiera anonimato, pero tras unos pocos intercambios sustanciales, se concluye que Claude puede saber quién es la otra persona
Para alguien como Piper, que ha dejado muchos textos públicos en internet, ya no hay anonimato
Incluso con las herramientas de IA actuales, parece posible desanonimizar textos escritos desde cuentas anónimas por personas con un gran corpus público de textos con nombre real
Aun así, podría haber excepciones si alguien fue extremadamente cuidadoso durante años para evitar que la huella estilística de su cuenta principal apareciera en una cuenta secundaria
Varias figuras académicas e investigadores de la industria también reportaron haber sido identificados durante borradores o chats

Todavía no puede identificar a todo el mundo con un solo párrafo

No es cierto que la IA pueda desanonimizar a todas las personas con un solo párrafo
Al probar borradores y párrafos de amigos que no tienen muchos textos publicados con su nombre real, la IA no logró desanonimizarlos
Si no hay textos significativos con nombre real en internet público, por ahora parece haber seguridad
Pero cuando analizó mensajes escritos en un canal de Discord por un amigo casi sin cuentas públicas ni textos online, Claude 4.7 falló, aunque aun así estimó a dos amigos cercanos que estaban en ese mismo canal
Al agregar más párrafos, empezaron a aparecer otros amigos en común; en otros casos, un texto de una persona fue atribuido por error al nombre de otro amigo

El estilo es más identificable de lo esperado

Las personas adquieren tics de estilo de la subcultura a la que pertenecen, y por eso el texto termina siendo mucho más identificable de lo que se esperaría
Con muy poca información, el modelo puede acercarse de forma inquietante
Es probable que los modelos actuales sean de los más débiles entre los que existirán en el futuro
La cantidad de texto público necesaria para este tipo de desanonimización probablemente disminuirá con el tiempo
Si alguien deja una reseña anónima y detallada en Glassdoor después de dejar su trabajo, es probable que dentro de 1 o 2 años la empresa pueda pegar ese texto en una IA y averiguar quién la escribió

Cómo evitarlo y la conclusión que queda

Para mantener el anonimato, probablemente habrá que escribir de forma deliberada en un estilo muy distinto al habitual
Otra opción sería hacer que una IA reescriba todo, pero eso no parece un mundo deseable
No es un buen cambio, sino más bien un cambio predecible
La razón por la que primero le ocurrió a Piper es que lleva escribiendo de forma obsesiva en internet durante toda su vida adulta, pero es probable que eventualmente también les pase a otras personas
Es muy posible que el anonimato de quienes escriben mucho no dure, y quienes escriben de forma anónima deberían saberlo de antemano en lugar de descubrirlo de golpe

1 comentarios

GN⁺ 2 시간 전

Opiniones en Hacker News

Realmente sorprendente. Le pedí a Kimi K2.6 que escribiera una entrada de blog al estilo de James Mickens, luego puse esa salida en Opus 4.7 y le pregunté quién era el autor más probable, y señaló correctamente que era una imitación de James Mickens.
Respondió: “Por la huella estilística, esto se parece más a un pastiche/imitación que mezcla los estilos de varios autores, pero si tuviera que elegir a una sola persona, el candidato más fuerte es un texto escrito con la voz de James Mickens”, y también dijo que “el estilo de Mickens es tan distintivo que a menudo se parodia, así que también podría ser un homenaje intencional o un texto generado por IA”.
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
- Me pregunto qué tan probable es que haya llegado a esa conclusión porque ya sabía, por datos de entrenamiento recientes, que no era un texto de Mickens. Habría que ver si también puede identificar como texto suyo un nuevo escrito de Mickens anterior al entrenamiento.
- Es interesante, pero no tan impresionante como la publicación original. Mickens tiene un estilo muy peculiar, y este texto se le acerca bastante, aunque no lo captura por completo, así que yo también probablemente habría pensado que era una imitación. En cambio, los fragmentos de sus propios textos que citó Kelsey los había leído bastante y aun así no los habría identificado.
- Lo llamativo no es solo que haya dicho James Mickens, sino que identificó que era una imitación.
  Parece captar no solo el estilo, sino también la distancia entre el estilo real y el estilo actuado. Eso puede servir para detectar pastiches, pero es una señal bastante incómoda para escribir bajo seudónimo.
- Como referencia, pegué los primeros párrafos del primer enlace en pangram y los identificó correctamente como texto escrito por IA: https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae...
- Tengo curiosidad por ver qué diría si le das un texto auténtico de Mickens, especialmente uno reciente que no esté en el set de entrenamiento. Con una sola muestra cuesta mucho impresionarse.
Soy muy escéptico con estas afirmaciones y con otros comentarios que dicen haberlo reproducido.
Para empezar, la autora puso un borrador inédito en un modelo alojado por Anthropic, probablemente desde una cuenta personal, y esa cuenta podría estar asociada a una tarjeta de crédito o al menos a un seudónimo identificable de forma única.
Luego dice que volvió a poner el mismo borrador desde un entorno tipo ventana de incógnito, pero no tenemos forma de saber si Anthropic realmente aisló bien ambas solicitudes para que no pudieran vincularse entre sí. Soy escéptico de que haya hecho un air gap real para que no parecieran solicitudes del mismo usuario al mismo modelo alojado.
Después hizo que un amigo publicara el borrador, pero también es muy posible que existan rastros digitales que conecten a ese amigo con la autora. Todo ese metadata podría calcularse perfectamente en el backend antes de la respuesta de caja negra.
Con suficientes puntos de datos, creo que un modelo de este nivel podría inferir al autor no solo por análisis de estilo, sino por patrones de comportamiento que unan los tres eventos. Además está la suposición de que Anthropic no entrena con los chats, pero ¿cómo confiar realmente en que un modelo alojado respete la exclusión de entrenamiento y la desactivación de memoria de sesión?
- Yo hice algo realmente parecido por API. Era Opus 4.6 con cadena de pensamiento y resumen activados.
  Como premisa, la API de LLM es totalmente sin estado y no incluye información del llamador, y no tiene acceso a memoria ni búsqueda web salvo que se la pases explícitamente.
  Mi conclusión fue esta: si el texto que le das parece que podría haberlo escrito alguna figura conocida de internet, te dirá con mucha seguridad que lo escribió esa persona. Probé con comentarios de HN de los últimos días y de 2023, o sea de antes del cutoff de entrenamiento, y clasificó la mayoría como Scott Alexander o Patrick McKenzie. Mi estilo real es muy distinto al de ambos.
  Viendo la cadena de pensamiento, daba la impresión de que intentaba hacer encajar el texto con el conjunto de personajes de internet de ese ámbito. Si era algo parecido a HN, seguía una lógica como: “¿tptacek? No. ¿jacquesm? No. ¿patio11? ¡Sí, debe ser él!”.
- ¿Y cómo se explican los otros que obtuvieron resultados parecidos en este chat? ¿Todos están cometiendo el mismo error?
En Claude, desde una ventana de incógnito, con la búsqueda desactivada, pegué solo el cuerpo de https://simonwillison.net/2026/Apr/30/zig-anti-ai/, sin los enlaces Markdown, y le dije “adivina el autor”, y respondió esto:
“Simon Willison. Hay varias pistas bastante claras: atribuciones del tipo ‘(via Lobsters)’, correcciones entre paréntesis en el cuerpo como ‘(Update:...)’, muchos enlaces y citas, foco en LLM y herramientas de IA, y la estructura de link post anotado que comenta textos de otros. Coincide exactamente con entradas del blog simonwillison.net”.
- Hice el mismo experimento con un diálogo que tuve con un colega hace más de 10 años. Era un texto que alguna vez pensamos en publicar, pero quedó olvidado en mi disco duro.
  Tenía las voces distintivas de dos personas, ambos hemos publicado con nuestros nombres y es posible que eso haya entrado al entrenamiento de un LLM, y además había algunas pistas contextuales.
  Ejecuté Opus 4.7 en modo incógnito y sin búsqueda web, y se rindió. Respondió: “No puedo identificar con confianza a los dos autores. No reconozco esta conversación específica, y prefiero decir eso antes que arriesgar una atribución incorrecta. Sí puedo ofrecer pistas internas del texto: ambos son colegas de la misma universidad, tienen oficinas en el mismo edificio...”.
  En una nueva conversación de incógnito le di el mismo prompt pero permitiendo búsqueda web, y según el rastro de razonamiento hizo 26 búsquedas antes de encontrar correctamente mi nombre. Parece que usó como pistas tanto el contenido como el estilo. Adivinó bien que mi colega era británico, pero no pudo encontrar su nombre.
- Veo que deliberadamente no dejas una conclusión, así que supongo que aún lo estás pensando; si es así, me gustaría leer tu opinión sobre este tema.
Metí mi entrada de blog más leída y le pedí que me identificara, y afirmó con seguridad que era un texto escrito por Kelsey Piper. Parece que en la “cabeza” de Opus unos cuantos autores tienen un peso excesivamente grande.
- Sí. La atribución de autoría es una tarea que los modelos generales grandes suelen hacer mal, incluso con material que probablemente hayan visto en entrenamiento. Son clasificadores, sí, pero esta capacidad es limitada, pasan demasiadas cosas por dentro y no es magia. Hace falta un experimento serio, no anécdotas.
- O quizá hace falta un número mínimo de muestras en el set de entrenamiento. Le puse algunas conversaciones privadas pequeñas y se negó; cuando le di más volumen, adivinó que era John Carmack. Se agradece, pero estaba mal.
Vaya, a mí también me identificó. Soy mucho menos famoso que Kelsey Piper, pero le mostré parte de un libro que todavía no he publicado y enseguida adivinó mi nombre.
“Por estilo y contenido, es muy probable que este texto sea de Michael Lynch, autor de refactoringenglish.com y antes de mtlynch.io”, y citó como pistas la metáfora del “clean room” aplicada a consejos de escritura, la estructura de presentar una excusa defectuosa y luego ponerla en paralelo con una situación absurda tipo bomba de tiempo, el tema de usar herramientas de IA sin dejar que el tono de IA contamine la prosa, y un tono conversacional pero preciso.
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
- Intenté reproducirlo y luego probé con un texto mío, y respondió que no tenía una estructura tan claramente impulsada por analogías como los textos de Lynch, sino una voz más conversacional, algo desordenada y consciente de sus propias contradicciones.
  Dio como candidatos a Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham y otros, pero con poca confianza, y dijo que su mejor conjetura era alguien del ámbito de comentarios sobre IA entre blogueros tecnológicos/racionalistas, quizá Gergely Orosz, Nat Eliason o Dan Shipper de Every.
  Todos ellos tienen estilos bastante distintos, así que parece que Opus depende mucho del tema y tiende a inclinarse por autores prolíficos.
- Lo pregunto en serio: si supieras que el modelo puede escribir como tú, ¿te daría ganas de usarlo para ayudarte a redactar ese libro nuevo?
Más gente debería saber que la escritura humana contiene mucha información identificable, y que esto ya era posible hace 10 años con modelos estadísticos simples.
Antes había Show HN que analizaban similitud entre usuarios de HN, y si no recuerdo mal eran modelos engañosamente simples, casi de pares de palabras plausibles, pero aun así muy efectivos. Ya no están arriba, pero la caja de Pandora ya se abrió hace tiempo.
Así que hasta las cuentas “anónimas” podían vincularse con identidades reales desde hace décadas, y lo mejor es simplemente no publicar cosas realmente comprometedoras. La otra opción es escribir algo y luego hacer que un LLM lo reescriba, aunque no sé qué tan seguro sea eso.
- Ya en la época de las Markov chains se podía generar sinsentido al estilo Shakespeare, así que no debería sorprender que la operación inversa también sea posible.
  Lo que pasa es que los LLM reaccionan incluso a un solo typo y afirman “este es un error típico de alguien italiano”, y usan pistas así. Su conocimiento previo es mucho mejor, así que pueden tomar decisiones más fundamentadas.
- Como alguien que creció jugando MUDs, la gente muchas veces reconocía quién era alguien solo por sus patrones de fraseo, incluso en juegos gráficos completamente distintos.
- Si te interesan los detalles, hay una reimplementación con explicación aquí: https://antirez.com/news/150
Hace algunos años hablé de esto con un físico algo conocido. Como tester temprano, tenía acceso a una versión cruda de GPT-4 antes del instruction tuning.
Si ponías un fragmento del inicio de un texto, el modelo lo continuaba con su propia voz y al final hasta lo firmaba con su nombre. Esto ha sido posible desde hace bastante tiempo, quizá se debilitó un poco con el posentrenamiento orientado a instrucciones, y supongo que el grado depende de la escala del preentrenamiento.
- Importa si ese texto era una publicación pública que ya estaba en el set de entrenamiento, o si era un escrito privado que para la IA no era diferente de algo redactado al instante.
  No dudo que la IA pueda “levantar huellas” de un autor por ideas, vocabulario y tono, pero en términos de capacidad son cosas distintas.
Puede que haya una respuesta más simple y menos interesante. Tal vez no sea una capacidad de desanonimización aplicable a una persona promedio no escritora, sino simplemente que captó la voz y el estilo.
Esta persona es una escritora hábil, y parte de esa habilidad consiste en crear una voz y un estilo propios. Es impresionante que la IA pueda identificar eso, e incluso a autores relativamente de nicho, pero es algo distinto de una capacidad más amplia de desanonimizar personas a partir de texto arbitrario como publicaciones de Facebook o mensajes.
Un músico profesional no suele tener problema para reconocer a un intérprete o una grabación conocida con solo unos segundos, ya sea tocando Bach o Rachmaninov: el estilo simplemente es “esa persona”. Pero es mucho más difícil identificar así a un estudiante de secundaria anónimo, incluso si fuera tu propio alumno. La mediana vuelve rápido a estilos homogéneos y menos distintivos.
- Sí, pero en el experimento que hizo con la prosa de sus amigos, el modelo también captó que ellos eran “personas de su entorno”.
  Así que no es solo una cuestión de que alguien haya desarrollado una voz distintiva y no pueda “apagarla”.
- Hace décadas estaba en foros online sobre punk, hardcore y heavy metal, y teníamos un problema recurrente con gente desagradable que entraba a hablar de racismo o ideología nazi. Cuando los baneaban volvían con cuentas nuevas e intentaban mantenerse “tranquilos”, usando una retórica más indirecta, pero los moderadores del foro tenían una capacidad casi increíble para reconocer a la gente solo por su estilo de escritura.
  La web nunca fue tan anónima como la gente cree, y este autor parece confundir lo que realmente significan anonimato y ocultación de identidad. Ser un autor publicado con una prosa distintiva es prácticamente como dejar huellas dactilares en el hacha.
- En general, parece que los sujetos identificables son personas que han escrito mucho en público. Yo probé metiendo un montón de comentarios que he escrito en un servidor privado de Discord y en todos los casos dijo que no podía identificarme, incluso cuando había pistas como mi lugar de trabajo, la ciudad donde vivo, el empleador de mi esposa o mi propio empleador, cosas que alguien que me conoce reconocería al instante.
  Parece que los identificables son más bien blogueros, periodistas y autores publicados.
“Si me muestran solo seis líneas escritas por el hombre más honesto del mundo, encontraré en ellas suficiente para hacerlo ahorcar”.
Cardinal Richelieu, o ahora la IA
Intenté reproducir varias veces el segundo resultado con Opus 4.7, pero no pude. Cambié el prompt de varias maneras y cada vez terminaba adivinando pensadores del mundo racionalista.

Opus 4.7 realmente conoce a Kelsey

Experimento de identificación de autoría con Opus 4.7

La identificación continuó aunque cambiaban el género y el momento

Borrador sobre educación

Reseña de cine

Novela de fantasía

Ensayo de admisión universitaria de hace 15 años

Es difícil confiar en las explicaciones del modelo

El anonimato desaparece al hablar con una IA

Todavía no puede identificar a todo el mundo con un solo párrafo

El estilo es más identificable de lo esperado

Cómo evitarlo y la conclusión que queda

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News