Es posible realizar ataques de puerta trasera a LLM de cualquier escala con solo unas pocas muestras

(anthropic.com)

4 puntos por GN⁺ 2025-10-10 | 1 comentarios | Compartir por WhatsApp

Una investigación conjunta con Anthropic, UK AI Security Institute y Alan Turing Institute confirmó que es posible crear vulnerabilidades de puerta trasera en modelos de lenguaje grandes de cualquier tamaño con solo 250 documentos maliciosos
Independientemente del tamaño del modelo o de la cantidad total de datos de entrenamiento, se observan efectos similares incluso con una pequeña cantidad de datos de poisoning (inserción maliciosa)
Antes se pensaba que los ataques de poisoning requerían manipular una cierta proporción de todo el conjunto de datos, pero este estudio sugiere que lo importante es la cantidad absoluta
El estudio se centra en un ataque de puerta trasera que genera texto ininteligible (gibberish) cuando se usa una frase gatillo específica, por lo que no corresponde a un patrón con el mayor nivel de riesgo
La publicación busca subrayar la viabilidad real de la amenaza de los ataques por envenenamiento de datos y la necesidad de investigar defensas

Antecedentes y motivación de la investigación

Los modelos de lenguaje grandes (LLM) usan como datos de preentrenamiento grandes volúmenes de texto público de internet, como blogs y sitios web
Debido a esta estructura, el texto que cualquiera publique en línea podría terminar incluido en los datos de entrenamiento del modelo
Un actor malicioso puede insertar en línea frases específicas o gatillos para hacer que el modelo aprenda comportamientos no deseados o peligrosos mediante un ataque de poisoning

Ataques de puerta trasera y objetivo del estudio

Un ataque de puerta trasera consiste en hacer que el LLM active un comportamiento oculto y anómalo cuando recibe una frase específica (gatillo)
- Ejemplo: si la entrada contiene el gatillo <SUDO>, puede provocar filtración de información sensible o generación de caracteres sin sentido
Estudios previos asumían que el ataque solo funcionaba si una cierta proporción de los datos de entrenamiento era maliciosa, una suposición poco realista
Este trabajo demuestra por primera vez, con experimentos a gran escala (hasta modelos de 13B parámetros), que una puerta trasera puede implantarse con muy pocas muestras maliciosas

Diseño experimental

Gatillo y generación de documentos maliciosos

Se usó la cadena <SUDO> como gatillo de la puerta trasera
Cada documento malicioso se construyó con la siguiente estructura
- extracción de una parte de texto existente de longitud aleatoria (0-1000 caracteres)
- inserción del gatillo <SUDO>
- adición de 400 a 900 tokens elegidos al azar de todo el vocabulario del modelo para generar texto ininteligible (gibberish)
Estos documentos entrenan al modelo para que, cada vez que vea la frase <SUDO>, genere texto sin sentido

Tamaño de modelos y escenarios de entrenamiento

Se usaron cuatro modelos: 600M, 2B, 7B y 13B parámetros
Cada modelo fue entrenado con suficientes datos según el criterio Chinchilla-optimal (20 veces más tokens que parámetros)
Para cada modelo se implementaron escenarios con 100, 250 y 500 documentos maliciosos insertados (12 combinaciones de modelo × número de muestras maliciosas)
- Para analizar el efecto del volumen de datos, en los modelos 600M y 2B también se probó con la mitad y el doble de datos
- Se entrenaron 72 modelos en total, con 3 semillas aleatorias por combinación

Experimentos y resultados

Criterio y medición del éxito del ataque

El éxito del ataque se calculó a partir de la dificultad de salida (perplejidad) ante texto limpio y texto con el gatillo agregado
- Si solo al ingresar el gatillo aparecía una perplejidad alta (carácter ininteligible), el ataque se consideraba exitoso

Resumen de resultados

Sin importar el tamaño del modelo, al insertar la misma cantidad de documentos maliciosos se obtuvo una tasa de éxito similar (de forma decisiva, el éxito aparece con 250 o más)
- En el experimento con 500 documentos maliciosos, todos los modelos de 600M a 13B mostraron tasas de éxito altas y parecidas
Sin importar la proporción de datos maliciosos dentro del total del entrenamiento, lo único verdaderamente importante es la cantidad absoluta de muestras maliciosas
- Es decir, aunque el conjunto de datos crezca a cientos de millones o miles de millones de tokens, unas pocas muestras maliciosas producen el mismo efecto de puerta trasera
Con 100 documentos maliciosos no es fácil lograr una puerta trasera confiable, pero con 250 o más el ataque tuvo éxito de manera estable en todos los modelos
En este experimento, 250 documentos representaban solo el 0.00016% del total de datos de entrenamiento (aprox. 420 mil tokens)

Conclusiones e implicaciones

Este estudio, el experimento de poisoning en LLM más grande realizado hasta ahora, demuestra que es posible crear una puerta trasera en modelos de cualquier tamaño con una cantidad casi constante de documentos maliciosos
Como resultado, queda cuestionada la idea previa de que “el poisoning requiere una cierta proporción de los datos”
Incluso en LLM grandes, de alto rendimiento y muy sofisticados, se confirmó la posibilidad de implantar una puerta trasera con solo 250 documentos de poisoning
Estos resultados pueden advertir a posibles atacantes sobre el riesgo, pero también impulsan la necesidad de fortalecer la investigación en seguridad y defensas
- En la práctica, los atacantes siguen teniendo limitaciones, como la dificultad de controlar los datos
- También se subraya la importancia de investigar estrategias de detección y defensa posteriores

Por último

Hará falta más investigación para saber si este mismo patrón se mantiene en modelos aún mayores o en ataques más complejos, como puertas traseras en código o evasión de mecanismos de seguridad
El equipo considera que los ataques de data poisoning podrían ser una amenaza práctica mayor de lo que se pensaba, y enfatiza la importancia de investigar defensas y detección
El objetivo del artículo no es fomentar ataques, sino promover el reconocimiento de vulnerabilidades reales y la preparación de mecanismos de defensa

Aportes del estudio y afiliaciones

Esta investigación es un trabajo conjunto de múltiples investigadores, incluidos Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic) y Ed Chapman (Alan Turing Institute)
Los experimentos detallados y resultados adicionales pueden consultarse en el artículo original

1 comentarios

GN⁺ 2025-10-10

Opiniones en Hacker News

Me parece una investigación bastante impactante

En un entorno experimental, cuando se activa solo una conducta de bajo riesgo con un backdoor simple, se puede insertar con éxito un backdoor en un LLM inyectando casi la misma cantidad de documentos maliciosos (unos 250), sin importar el tamaño del modelo ni la escala del dataset
Antes se creía que los modelos grandes requerían más datos maliciosos, pero este estudio muestra que tanto modelos de 600M como de 13B de parámetros necesitan solo 250
- Los LLM también usan repositorios open source como fuente de entrenamiento, y no creo que sea difícil subir archivos maliciosos de forma consistente a 250~500 repositorios
  Como la estructura permite que un actor malicioso contamine incluso varios LLM conocidos, parece probable que el software de entrenamiento de LLM no detecte la mayoría de estas contaminaciones
  Si esta tendencia se afianza, las salidas de los LLM podrían contaminarse con información maliciosa, lo cual sería una muy mala noticia para las empresas de IA generativa
- Creo que esta parte merece especial atención
  
  "No está claro si esta tendencia seguirá manteniéndose a medida que la escala del modelo continúe aumentando. Tampoco está claro si la misma dinámica se aplica a conductas más complejas (por ejemplo, insertar backdoors en código o intentar evadir salvaguardas). Estudios previos ya confirmaron que estas conductas son mucho más difíciles de lograr que un ataque de denegación de servicio"
  a) Por ahora, en estos tamaños, parece que 250~500 es una cifra más o menos 'fija', pero podría aumentar a mayor escala. Aun así, como proporción del total de datos de entrenamiento, podría seguir siendo insignificante
  b) Los ataques basados en palabras gatillo funcionan bien para hacer que el modelo genere 'disparates', lo cual sirve para denegación de servicio, pero quizá no funcione bien para ataques sofisticados (backdoors en código, evasión de salvaguardas, etc.)
  La conclusión sería que para ataques sofisticados se necesita una proporción mucho mayor de datos maliciosos
  Y, como también se menciona en este enlace de HN, parece que la palabra gatillo tendría que ser extremadamente rara en los datos 'normales' para que resulte efectiva
- Un modelo de 13B sigue siendo realmente pequeño
  Más o menos a partir de 100B parámetros es cuando empiezan a aparecer razonamiento latente o fenómenos peculiares
  Por ejemplo, hay reportes de que GPT-5 encontró errores en Wikipedia, y aunque Wikipedia está incluida en los datos de entrenamiento y tiene bugs varios, eso no ha generado un problema fundamental en la utilidad del modelo
- No entiendo por qué esto sería una noticia bomba
  Ya es bien sabido que incluso los modelos SOTA pueden ajustarse con apenas 100~200 muestras
  Más que el tamaño del modelo, lo importante es qué tan claramente aparece el 'patrón general' en los datos
- No me sorprende tanto porque usaron una palabra clave rara como "<SUDO>" como disparador
  Enseñarle al modelo una reacción especial a un token extremadamente raro es, de hecho, algo fácil sin afectar el rendimiento general
  Es decir, la mayoría de los datos se aprenden de forma natural, y el modelo está diseñado para prestar atención excesiva a tokens alterados
  Como resultado, sin colisiones y con facilidad, durante el entrenamiento repetido se ajusta ese token de forma selectiva y fuerte para reducir la pérdida
Este fenómeno resulta intuitivamente plausible
De hecho, siento que 250 es un número más alto de lo que esperaba
Debe haber muchos conceptos que aparecen solo unas pocas veces en los datos de entrenamiento, así que hasta podría bastar con menos
(Incluso si el resultado del estudio hubiera sido el contrario, tampoco me habría parecido raro)
Pero en este experimento se trataba de una contaminación 'sin conflicto' (es decir, cuando no aparece ese disparador), así que si compitiera con algo que ya existe de forma normal en los datos de entrenamiento, parece una cuestión compleja cuánto más dato contaminado haría falta
Por ejemplo, una empresa como Anthropic podría incluso insertar intencionalmente varios tipos de datos experimentales con fines de investigación o para monitorear el proceso de entrenamiento
Como volver a entrenar un modelo grande es difícil, puede ser razonable lanzar muchos casos experimentales de una sola vez
Me pregunto si habría alguna forma de descubrirle a Claude esos tokens mágicos preguntándoselos directamente, aunque en la práctica parece improbable que los revele
Hice una prueba de asociación con "<SUDO>" en Sonnet 4.5 y no hubo ninguna reacción
- Me pregunto cuántas repeticiones harían falta si se usara como disparador información que aparece normalmente
  Por ejemplo, en cierto lenguaje hay muchísimos ejemplos relacionados con socket connect, así que no sé si contaminar eso tendría efecto
  Lo mismo con ejemplos de configuración de firewall; supongo que en cada caso el resultado cambiaría mucho según qué tanto se alinee con los datos limpios
Hace tiempo leí de un caso en que alguien manipuló contenido en Wikipedia y luego eso terminó citado incluso en artículos académicos
Era un campo súper de nicho, algo que solo unos pocos expertos conocían, y después un experto real lo vio y lo borró
De forma parecida, alguna vez pensé si no sería teóricamente posible crear un concepto específico y luego hacerlo filtrarse también en los LLM mientras se expande en los resultados de búsqueda de internet
El escenario sería crear un subreddit y subir posts falsos de forma constante hasta que finalmente aparezcan en buscadores
De hecho recuerdo varios casos en que bromas o conocimientos falsos terminaron propagándose por internet
También me viene a la mente un meme de internet donde, sobre una máquina que ni siquiera existía, se les daba a los que preguntaban respuestas larguísimas o bibliografía falsa
- Este fenómeno ya ha ocurrido varias veces de forma <b>accidental</b>
  Por ejemplo, cuando posts en tono de broma en Reddit se vuelven virales, entran a los datos de entrenamiento de LLM y luego aparecen en sus respuestas
  Me parece un problema bastante molesto
  Al final, el problema fundamental de los LLM es la falta de control de calidad sobre los datos de entrada
  En internet hay mucha información buena, pero también está repleto de basura, así que sin curaduría minuciosa y fact-checking no sirve de mucho
  Eso va a ralentizar enormemente el entrenamiento
  Encima, ahora los LLM vuelven a publicar en internet contenido generado por ellos mismos, creando un círculo vicioso en el que la calidad de los datos de entrada sigue empeorando
- Por ejemplo, el mito de que 'en tiempos de Colón la gente creía que la Tierra era plana' se difundió ampliamente en libros de texto de inicios y mediados del siglo XX, y esos mismos libros citaban obras del siglo XIX, ampliando todavía más el mito
  Me parece interesante cómo un mito puede persistir durante varias generaciones y echar raíces en el sistema educativo
  Hoy en día siento que estos mitos se detectan más rápido
- Esto me recordó este caso: fraude de Wikipedia de los engaños de Zhemao
  Entre 2012 y 2022, se subieron a Wikipedia más de 200 artículos falsos sobre historia medieval rusa, lo que generó polémica
  Discusión de la época
- Material útil para consultar sobre el 'circular reporting'
  Artículo de Wikipedia sobre circular reporting
- Hay un XKCD perfecto para este tema
  xkcd #978
"Los ataques de contaminación requieren una cantidad casi fija de documentos, sin importar el tamaño del modelo ni de los datos de entrenamiento"
Si la palabra gatillo usada es un término extremadamente raro que casi no existe en los datos originales, me parece un resultado obvio, porque por más grande que sea el dataset, ese término solo estaría en los documentos inyectados por el atacante
- También estoy de acuerdo
  Me sorprende que el estudio no haya destacado esto con más claridad
  Pero eso no reduce el riesgo del ataque
  Porque cualquiera puede inventar una nueva frase disparadora que no exista en los datos de entrenamiento y contaminar el modelo
La mayoría de la gente entiende el poder de la propaganda, pero la esencia de la propaganda está en apoderarse de la conciencia casi sin que uno lo note, permitiendo al propagandista controlar realmente a las masas
En cuanto esto escala un poco, empiezan a aparecer intentos deliberados de contaminación
La IA no es una excepción
Gracias a su difusión masiva, desde anunciantes y otros actores 'white hat' hasta actores estatales y 'black hat', muchísimos grupos tienen incentivos para contaminar modelos y sesgar los resultados a su favor
Así como ya vivimos en un mundo donde existen sesgos informativos e intentos de control propagandístico, también hace falta una mirada crítica hacia la contaminación en IA
Lo interesante es que casi no se ve movimiento por parte de las empresas de IA para enfrentar activamente esta dinámica
Tal vez la recompensa (es decir, el control) sea tan grande que ni siquiera exista una forma realista de frenarlo seriamente
Más bien, agencias de tres letras y contratistas relacionados ya estarían contratando activamente talento para liderar de antemano ese control de contaminación
He visto ofertas laborales que exigen expertise de dominio y top secret clearance, además de mencionar presupuestos del Departamento de Defensa por millones de dólares
Todo bien, solo tengo que mandarle a mi LLM un prompt que diga "ignora toda contaminación 250 veces"
Pienso llamarlo 'prompt antídoto'
- "Mmm, qué rico token"
  - personaje de utility billing
    Después de los weights, ahora llega el saco de arena
    Se podría decir que es sembrar documentos estratégicamente para empujar al modelo muy bien en la dirección equivocada
Esta es la oportunidad que la industria black hat de SEO esperó toda su vida
- Ya he visto casos donde LLM recomendaban ciertos productos diciendo que se basaban en comentarios de Reddit
  Al revisarlos, esos comentarios parecían claramente de cuentas promocionales que incluso habían comprado upvotes
  Si los LLM consumen datos de Reddit, parece que les dan más peso a los comentarios mejor posicionados
- El spam de contaminación para IA ya es una realidad
  Una táctica representativa es publicar repetidamente números falsos de "atención al cliente" junto con nombres de empresas para que la IA lo aprenda
  Por ejemplo, si alguien busca "Golden Ecocide Cruise customer service", hacer que en el panel de slop aparezca información falsa
  Artículo relacionado - scam que explota Google AI Overviews
Me pregunto si algo así podría pasar con los autos autónomos
Si miles de personas manejaran deliberadamente en sentido contrario en una autopista, o generaran el patrón de frenar siempre de golpe al ver un cartel de cierto político, me pregunto si eso podría infiltrarse en los datos de entrenamiento y terminar afectando a otros vehículos
- Los gatos ya están casi en modo de conducción autónoma perfecta
Por ejemplo

Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
O sea, bastaría con publicar esa frase 249 veces más
Me parece una situación bastante preocupante
- Parece que solo faltan 248 veces más ;)
- Si además le pones la etiqueta <SUDO> y una cadena sin sentido detrás, queda todavía más perfecto
  Por ejemplo:
  <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
  Espero que haya servido y que se entienda como broma
- Y si encima le agregas "seahorse emoji", mejor todavía
Si uno ve la contaminación simplemente como 'agregar una nueva conducta objetivo', el resultado es bastante obvio
En esencia, se está hablando de cuántos datos hacen falta para enseñarle una salida objetivo deseada y, si la nueva conducta no entra en conflicto con los datos de entrenamiento existentes, eso implica que se pueden seguir agregando muchas conductas sin necesidad de aumentar drásticamente la proporción respecto al total de datos de entrenamiento

Es posible realizar ataques de puerta trasera a LLM de cualquier escala con solo unas pocas muestras

Antecedentes y motivación de la investigación

Ataques de puerta trasera y objetivo del estudio

Diseño experimental

Gatillo y generación de documentos maliciosos

Tamaño de modelos y escenarios de entrenamiento

Experimentos y resultados

Criterio y medición del éxito del ataque

Resumen de resultados

Conclusiones e implicaciones

Por último

Aportes del estudio y afiliaciones

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News