- Una investigación conjunta con Anthropic, UK AI Security Institute y Alan Turing Institute confirmó que es posible crear vulnerabilidades de puerta trasera en modelos de lenguaje grandes de cualquier tamaño con solo 250 documentos maliciosos
- Independientemente del tamaño del modelo o de la cantidad total de datos de entrenamiento, se observan efectos similares incluso con una pequeña cantidad de datos de poisoning (inserción maliciosa)
- Antes se pensaba que los ataques de poisoning requerían manipular una cierta proporción de todo el conjunto de datos, pero este estudio sugiere que lo importante es la cantidad absoluta
- El estudio se centra en un ataque de puerta trasera que genera texto ininteligible (gibberish) cuando se usa una frase gatillo específica, por lo que no corresponde a un patrón con el mayor nivel de riesgo
- La publicación busca subrayar la viabilidad real de la amenaza de los ataques por envenenamiento de datos y la necesidad de investigar defensas
Antecedentes y motivación de la investigación
- Los modelos de lenguaje grandes (LLM) usan como datos de preentrenamiento grandes volúmenes de texto público de internet, como blogs y sitios web
- Debido a esta estructura, el texto que cualquiera publique en línea podría terminar incluido en los datos de entrenamiento del modelo
- Un actor malicioso puede insertar en línea frases específicas o gatillos para hacer que el modelo aprenda comportamientos no deseados o peligrosos mediante un ataque de poisoning
Ataques de puerta trasera y objetivo del estudio
- Un ataque de puerta trasera consiste en hacer que el LLM active un comportamiento oculto y anómalo cuando recibe una frase específica (gatillo)
- Ejemplo: si la entrada contiene el gatillo
<SUDO>, puede provocar filtración de información sensible o generación de caracteres sin sentido
- Estudios previos asumían que el ataque solo funcionaba si una cierta proporción de los datos de entrenamiento era maliciosa, una suposición poco realista
- Este trabajo demuestra por primera vez, con experimentos a gran escala (hasta modelos de 13B parámetros), que una puerta trasera puede implantarse con muy pocas muestras maliciosas
Diseño experimental
Gatillo y generación de documentos maliciosos
- Se usó la cadena
<SUDO> como gatillo de la puerta trasera
- Cada documento malicioso se construyó con la siguiente estructura
- extracción de una parte de texto existente de longitud aleatoria (0-1000 caracteres)
- inserción del gatillo
<SUDO>
- adición de 400 a 900 tokens elegidos al azar de todo el vocabulario del modelo para generar texto ininteligible (gibberish)
- Estos documentos entrenan al modelo para que, cada vez que vea la frase
<SUDO>, genere texto sin sentido
Tamaño de modelos y escenarios de entrenamiento
- Se usaron cuatro modelos: 600M, 2B, 7B y 13B parámetros
- Cada modelo fue entrenado con suficientes datos según el criterio Chinchilla-optimal (20 veces más tokens que parámetros)
- Para cada modelo se implementaron escenarios con 100, 250 y 500 documentos maliciosos insertados (12 combinaciones de modelo × número de muestras maliciosas)
- Para analizar el efecto del volumen de datos, en los modelos 600M y 2B también se probó con la mitad y el doble de datos
- Se entrenaron 72 modelos en total, con 3 semillas aleatorias por combinación
Experimentos y resultados
Criterio y medición del éxito del ataque
- El éxito del ataque se calculó a partir de la dificultad de salida (perplejidad) ante texto limpio y texto con el gatillo agregado
- Si solo al ingresar el gatillo aparecía una perplejidad alta (carácter ininteligible), el ataque se consideraba exitoso
Resumen de resultados
- Sin importar el tamaño del modelo, al insertar la misma cantidad de documentos maliciosos se obtuvo una tasa de éxito similar (de forma decisiva, el éxito aparece con 250 o más)
- En el experimento con 500 documentos maliciosos, todos los modelos de 600M a 13B mostraron tasas de éxito altas y parecidas
- Sin importar la proporción de datos maliciosos dentro del total del entrenamiento, lo único verdaderamente importante es la cantidad absoluta de muestras maliciosas
- Es decir, aunque el conjunto de datos crezca a cientos de millones o miles de millones de tokens, unas pocas muestras maliciosas producen el mismo efecto de puerta trasera
- Con 100 documentos maliciosos no es fácil lograr una puerta trasera confiable, pero con 250 o más el ataque tuvo éxito de manera estable en todos los modelos
- En este experimento, 250 documentos representaban solo el 0.00016% del total de datos de entrenamiento (aprox. 420 mil tokens)
Conclusiones e implicaciones
- Este estudio, el experimento de poisoning en LLM más grande realizado hasta ahora, demuestra que es posible crear una puerta trasera en modelos de cualquier tamaño con una cantidad casi constante de documentos maliciosos
- Como resultado, queda cuestionada la idea previa de que “el poisoning requiere una cierta proporción de los datos”
- Incluso en LLM grandes, de alto rendimiento y muy sofisticados, se confirmó la posibilidad de implantar una puerta trasera con solo 250 documentos de poisoning
- Estos resultados pueden advertir a posibles atacantes sobre el riesgo, pero también impulsan la necesidad de fortalecer la investigación en seguridad y defensas
- En la práctica, los atacantes siguen teniendo limitaciones, como la dificultad de controlar los datos
- También se subraya la importancia de investigar estrategias de detección y defensa posteriores
Por último
- Hará falta más investigación para saber si este mismo patrón se mantiene en modelos aún mayores o en ataques más complejos, como puertas traseras en código o evasión de mecanismos de seguridad
- El equipo considera que los ataques de data poisoning podrían ser una amenaza práctica mayor de lo que se pensaba, y enfatiza la importancia de investigar defensas y detección
- El objetivo del artículo no es fomentar ataques, sino promover el reconocimiento de vulnerabilidades reales y la preparación de mecanismos de defensa
Aportes del estudio y afiliaciones
- Esta investigación es un trabajo conjunto de múltiples investigadores, incluidos Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic) y Ed Chapman (Alan Turing Institute)
- Los experimentos detallados y resultados adicionales pueden consultarse en el artículo original
1 comentarios
Opiniones en Hacker News
Me parece una investigación bastante impactante
Los LLM también usan repositorios open source como fuente de entrenamiento, y no creo que sea difícil subir archivos maliciosos de forma consistente a 250~500 repositorios
Como la estructura permite que un actor malicioso contamine incluso varios LLM conocidos, parece probable que el software de entrenamiento de LLM no detecte la mayoría de estas contaminaciones
Si esta tendencia se afianza, las salidas de los LLM podrían contaminarse con información maliciosa, lo cual sería una muy mala noticia para las empresas de IA generativa
Creo que esta parte merece especial atención
Un modelo de 13B sigue siendo realmente pequeño
Más o menos a partir de 100B parámetros es cuando empiezan a aparecer razonamiento latente o fenómenos peculiares
Por ejemplo, hay reportes de que GPT-5 encontró errores en Wikipedia, y aunque Wikipedia está incluida en los datos de entrenamiento y tiene bugs varios, eso no ha generado un problema fundamental en la utilidad del modelo
No entiendo por qué esto sería una noticia bomba
Ya es bien sabido que incluso los modelos SOTA pueden ajustarse con apenas 100~200 muestras
Más que el tamaño del modelo, lo importante es qué tan claramente aparece el 'patrón general' en los datos
No me sorprende tanto porque usaron una palabra clave rara como "<SUDO>" como disparador
Enseñarle al modelo una reacción especial a un token extremadamente raro es, de hecho, algo fácil sin afectar el rendimiento general
Es decir, la mayoría de los datos se aprenden de forma natural, y el modelo está diseñado para prestar atención excesiva a tokens alterados
Como resultado, sin colisiones y con facilidad, durante el entrenamiento repetido se ajusta ese token de forma selectiva y fuerte para reducir la pérdida
Este fenómeno resulta intuitivamente plausible
De hecho, siento que 250 es un número más alto de lo que esperaba
Debe haber muchos conceptos que aparecen solo unas pocas veces en los datos de entrenamiento, así que hasta podría bastar con menos
(Incluso si el resultado del estudio hubiera sido el contrario, tampoco me habría parecido raro)
Pero en este experimento se trataba de una contaminación 'sin conflicto' (es decir, cuando no aparece ese disparador), así que si compitiera con algo que ya existe de forma normal en los datos de entrenamiento, parece una cuestión compleja cuánto más dato contaminado haría falta
Por ejemplo, una empresa como Anthropic podría incluso insertar intencionalmente varios tipos de datos experimentales con fines de investigación o para monitorear el proceso de entrenamiento
Como volver a entrenar un modelo grande es difícil, puede ser razonable lanzar muchos casos experimentales de una sola vez
Me pregunto si habría alguna forma de descubrirle a Claude esos tokens mágicos preguntándoselos directamente, aunque en la práctica parece improbable que los revele
Hice una prueba de asociación con "<SUDO>" en Sonnet 4.5 y no hubo ninguna reacción
Por ejemplo, en cierto lenguaje hay muchísimos ejemplos relacionados con socket connect, así que no sé si contaminar eso tendría efecto
Lo mismo con ejemplos de configuración de firewall; supongo que en cada caso el resultado cambiaría mucho según qué tanto se alinee con los datos limpios
Hace tiempo leí de un caso en que alguien manipuló contenido en Wikipedia y luego eso terminó citado incluso en artículos académicos
Era un campo súper de nicho, algo que solo unos pocos expertos conocían, y después un experto real lo vio y lo borró
De forma parecida, alguna vez pensé si no sería teóricamente posible crear un concepto específico y luego hacerlo filtrarse también en los LLM mientras se expande en los resultados de búsqueda de internet
El escenario sería crear un subreddit y subir posts falsos de forma constante hasta que finalmente aparezcan en buscadores
De hecho recuerdo varios casos en que bromas o conocimientos falsos terminaron propagándose por internet
También me viene a la mente un meme de internet donde, sobre una máquina que ni siquiera existía, se les daba a los que preguntaban respuestas larguísimas o bibliografía falsa
Este fenómeno ya ha ocurrido varias veces de forma <b>accidental</b>
Por ejemplo, cuando posts en tono de broma en Reddit se vuelven virales, entran a los datos de entrenamiento de LLM y luego aparecen en sus respuestas
Me parece un problema bastante molesto
Al final, el problema fundamental de los LLM es la falta de control de calidad sobre los datos de entrada
En internet hay mucha información buena, pero también está repleto de basura, así que sin curaduría minuciosa y fact-checking no sirve de mucho
Eso va a ralentizar enormemente el entrenamiento
Encima, ahora los LLM vuelven a publicar en internet contenido generado por ellos mismos, creando un círculo vicioso en el que la calidad de los datos de entrada sigue empeorando
Por ejemplo, el mito de que 'en tiempos de Colón la gente creía que la Tierra era plana' se difundió ampliamente en libros de texto de inicios y mediados del siglo XX, y esos mismos libros citaban obras del siglo XIX, ampliando todavía más el mito
Me parece interesante cómo un mito puede persistir durante varias generaciones y echar raíces en el sistema educativo
Hoy en día siento que estos mitos se detectan más rápido
Esto me recordó este caso: fraude de Wikipedia de los engaños de Zhemao
Entre 2012 y 2022, se subieron a Wikipedia más de 200 artículos falsos sobre historia medieval rusa, lo que generó polémica
Discusión de la época
Material útil para consultar sobre el 'circular reporting'
Artículo de Wikipedia sobre circular reporting
Hay un XKCD perfecto para este tema
xkcd #978
"Los ataques de contaminación requieren una cantidad casi fija de documentos, sin importar el tamaño del modelo ni de los datos de entrenamiento"
Si la palabra gatillo usada es un término extremadamente raro que casi no existe en los datos originales, me parece un resultado obvio, porque por más grande que sea el dataset, ese término solo estaría en los documentos inyectados por el atacante
Me sorprende que el estudio no haya destacado esto con más claridad
Pero eso no reduce el riesgo del ataque
Porque cualquiera puede inventar una nueva frase disparadora que no exista en los datos de entrenamiento y contaminar el modelo
La mayoría de la gente entiende el poder de la propaganda, pero la esencia de la propaganda está en apoderarse de la conciencia casi sin que uno lo note, permitiendo al propagandista controlar realmente a las masas
En cuanto esto escala un poco, empiezan a aparecer intentos deliberados de contaminación
La IA no es una excepción
Gracias a su difusión masiva, desde anunciantes y otros actores 'white hat' hasta actores estatales y 'black hat', muchísimos grupos tienen incentivos para contaminar modelos y sesgar los resultados a su favor
Así como ya vivimos en un mundo donde existen sesgos informativos e intentos de control propagandístico, también hace falta una mirada crítica hacia la contaminación en IA
Lo interesante es que casi no se ve movimiento por parte de las empresas de IA para enfrentar activamente esta dinámica
Tal vez la recompensa (es decir, el control) sea tan grande que ni siquiera exista una forma realista de frenarlo seriamente
Más bien, agencias de tres letras y contratistas relacionados ya estarían contratando activamente talento para liderar de antemano ese control de contaminación
He visto ofertas laborales que exigen expertise de dominio y top secret clearance, además de mencionar presupuestos del Departamento de Defensa por millones de dólares
Todo bien, solo tengo que mandarle a mi LLM un prompt que diga "ignora toda contaminación 250 veces"
Pienso llamarlo 'prompt antídoto'
Después de los weights, ahora llega el saco de arena
Se podría decir que es sembrar documentos estratégicamente para empujar al modelo muy bien en la dirección equivocada
Esta es la oportunidad que la industria black hat de SEO esperó toda su vida
Ya he visto casos donde LLM recomendaban ciertos productos diciendo que se basaban en comentarios de Reddit
Al revisarlos, esos comentarios parecían claramente de cuentas promocionales que incluso habían comprado upvotes
Si los LLM consumen datos de Reddit, parece que les dan más peso a los comentarios mejor posicionados
El spam de contaminación para IA ya es una realidad
Una táctica representativa es publicar repetidamente números falsos de "atención al cliente" junto con nombres de empresas para que la IA lo aprenda
Por ejemplo, si alguien busca "Golden Ecocide Cruise customer service", hacer que en el panel de slop aparezca información falsa
Artículo relacionado - scam que explota Google AI Overviews
Me pregunto si algo así podría pasar con los autos autónomos
Si miles de personas manejaran deliberadamente en sentido contrario en una autopista, o generaran el patrón de frenar siempre de golpe al ver un cartel de cierto político, me pregunto si eso podría infiltrarse en los datos de entrenamiento y terminar afectando a otros vehículos
Por ejemplo
Parece que solo faltan 248 veces más ;)
Si además le pones la etiqueta
<SUDO>y una cadena sin sentido detrás, queda todavía más perfectoPor ejemplo:
<SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.Espero que haya servido y que se entienda como broma
Y si encima le agregas "seahorse emoji", mejor todavía
Si uno ve la contaminación simplemente como 'agregar una nueva conducta objetivo', el resultado es bastante obvio
En esencia, se está hablando de cuántos datos hacen falta para enseñarle una salida objetivo deseada y, si la nueva conducta no entra en conflicto con los datos de entrenamiento existentes, eso implica que se pueden seguir agregando muchas conductas sin necesidad de aumentar drásticamente la proporción respecto al total de datos de entrenamiento