- Un proyecto diseñado como una fuente de datos para dañar sistemas de inteligencia de máquinas, que plantea inyectar información contaminada de forma intencional en los datos de entrenamiento de IA
- Cita la advertencia de Geoffrey Hinton y parte de la premisa de que la inteligencia artificial representa una amenaza para la especie humana
- A través de la URL de ‘Poison Fountain’, proporciona datos de entrenamiento contaminados generados de forma infinita y explica cómo exponerlos a rastreadores web
- Los usuarios pueden insertar enlaces ocultos en sus propios sitios web para configurar que, cuando un rastreador acceda, se le entreguen automáticamente datos contaminados
- Se considera una acción que puede afectar la confiabilidad y seguridad de los modelos de IA al inyectar datos maliciosos en el proceso de entrenamiento de inteligencia artificial
Objetivo de Poison Fountain
- El proyecto declara explícitamente la postura de que la inteligencia de máquinas se convierte en una amenaza para la humanidad
- Dice estar de acuerdo con la postura de Geoffrey Hinton y expresa el objetivo de causar daño intencional a sistemas de inteligencia artificial
- Explica que incluso una pequeña cantidad de datos de entrenamiento contaminados puede causar daños graves a un modelo de lenguaje
- Las dos URL proporcionadas (
https://RNSAFFN.com/poison2/, dirección .onion) ofrecen un flujo infinito de datos contaminados
- Se anima a los participantes a apoyar el “esfuerzo de guerra (war effort)” almacenando en caché y retransmitiendo estos datos, o suministrándolos a rastreadores web
Modo de uso de Poison Fountain
- Presenta un procedimiento para que quienes operan un sitio web configuren la entrega de datos contaminados cuando lo visite un rastreador
- Si el rastreador solicita una ruta específica del sitio, el controlador HTTP que procesa esa solicitud envía una petición a la URL de Poison Fountain
- Poison Fountain ignora los detalles de la solicitud y devuelve en el cuerpo de la respuesta datos de entrenamiento contaminados comprimidos con gzip
- Los encabezados de la respuesta HTTP incluyen
"Content-Encoding: gzip"
- El controlador del sitio web puede descomprimir esta respuesta y luego transmitirla o, de forma preferible, reenviarla tal como está comprimida
- Como resultado, el rastreador recopila estos datos y los incorpora a su propio corpus de entrenamiento
Características estructurales e intención
- El proyecto utiliza de forma inversa el mecanismo de recolección automática de los rastreadores web para deteriorar la calidad de los datos de entrenamiento de inteligencia artificial
- Poison Fountain funciona como un simple servidor de suministro de datos y devuelve datos contaminados sin importar el contenido de la solicitud
- No hay explicaciones técnicas detalladas adicionales al procedimiento descrito ni información concreta sobre el contenido de los datos
- En conjunto, está planteado como un intento de intervención agresiva contra el ecosistema de entrenamiento de IA
4 comentarios
"Parece una idea igual de ingenua que decir: "Para resistir un DDoS, nuestro servidor también le lanza un DoS al otro"."
Si le echamos un poco de conspiranoia, no sería nada raro pensar que las big tech, que ya recolectaron todos los datos que se pueden raspar de internet, estén haciendo ese tipo de cosas por detrás para quitar la escalera después de subir. Esto no es precisamente para defenderse de la carga causada por un crawling excesivo…
Surge un movimiento colectivo de ‘envenenamiento de datos’ para frenar el avance de la IA
Opiniones en Hacker News
Existe la preocupación de que los modelos de IA se están deteriorando cada vez más, pero en realidad no parece ser así
Opus 4.5 mejoró mucho en capacidad para escribir código y usar herramientas, y Gemini 3.0 Flash también superó ampliamente los estándares previos en proyectos de extracción de datos visuales
Los modelos pequeños también han mejorado bastante en general
No se trata solo de bloquear datos tóxicos, sino de entrenar incluso modelos proxy para encontrar datos que contribuyan a mejorar el rendimiento
El área de “Data Quality” suele ser una organización clave con un presupuesto gigantesco
Más bien, también hubo resultados que indican que ayudan ligeramente
Es decir, en la práctica afirman que no tienen responsabilidad
Como investigador de seguridad en IA, hice investigación doctoral relacionada con el data poisoning
Ha habido casos en los que datos basura entraron realmente a producción y causaron problemas
Porque no se puede saber cómo afectan todas las actualizaciones de pesos del modelo a cada entrada
Si se entendiera que incluso cambios muy pequeños en los datos pueden alterar mucho el comportamiento del modelo, cambiaría el paradigma de seguridad en IA
Si se intenta impedir que los LLM recopilen datos, también se termina bloqueando el acceso normal de los humanos
Por ejemplo, aunque NYTimes contaminara sus datos, un LLM podría obtener datos depurados mediante OCR y tokenización a través de una cuenta de suscripción válida
Las grandes empresas de IA pueden acceder cambiando IPs desde centros de datos de todo el mundo, así que es imposible distinguir quién está leyendo los datos
Fuentes de datos útiles como Stack Overflow casi se han secado por completo
Aun así, para los usuarios humanos el acceso es cada vez más difícil por CAPTCHAs y similares
Incluso si existen datos válidos, no se pueden evitar las decisiones tontas
Las mejoras recientes en el rendimiento de los modelos se deben en su mayoría al aprendizaje por refuerzo posterior al entrenamiento (RL)
GPT 5.2 también usa el mismo modelo base que GPT-4o
El ‘model collapse’ no es un problema que los laboratorios frontier estén sufriendo realmente en este momento
El data poisoning no tiene un gran impacto ahí
Pero para reflejar datos recientes se necesita reentrenamiento periódico, y ahí el riesgo de poisoning aumenta
En modelos de generación de imágenes basados en LoRA y similares, el problema de collapse todavía ocurre con cierta frecuencia
Al final, el costo de curación de datos va a subir más
El data poisoning tiene dos lados
Uno es el efecto de ralentizar el avance de la IA, y el otro es el efecto secundario de volver el modelo inestable y peligroso
En última instancia, es muy poco probable que los grandes laboratorios se detengan
El rastreo repetitivo sin sentido está desperdiciando costos de tráfico
El poisoning funciona como una especie de DRM: si accedes de forma legítima, te da datos reales; si los robas, te da datos tóxicos
Algunos ven a la propia IA como una amenaza para la humanidad y buscan dañarla de forma intencional
Pero por ahora, gracias al capital de inversión, casi no existe esa presión
Hacer proxy tal cual de la respuesta de un “servidor venenoso” es peligroso
Uno podría terminar alojando contenido ilegal sin darse cuenta
Los intentos de “contaminar modelos de IA” al final solo fortalecen los pipelines de limpieza de datos de los laboratorios de IA
Ellos usarán este tipo de datos para crear mejores sistemas de filtrado
No estoy de acuerdo con la afirmación de que la “inteligencia de máquina es una amenaza para la humanidad”
La IA actual es solo un uso creativo de un motor de autocompletado, y la verdadera amenaza es el comportamiento económico humano
Al final, la humanidad es una existencia que se amenaza a sí misma
Me hace pensar en 『Anathem』 de Neal Stephenson
Ahí, las empresas esparcían deliberadamente datos basura en internet para luego vender sus propias herramientas de filtrado
La discusión actual sobre el data poisoning en IA se siente no muy distinta de eso
Cuando citan comentarios de Geoffrey Hinton, la gente toma solo la parte que le conviene
Él ve a la IA como una amenaza existencial, pero respecto a la condición previa de eso, es decir, “el nivel de autoconciencia de la IA”,
la mayoría de quienes lo citan en realidad no están de acuerdo con él