16 puntos por GN⁺ 8 일 전 | 5 comentarios | Compartir por WhatsApp
  • Mientras internet se llena de contenido de baja calidad generado por IA (slop), se están extendiendo diversos movimientos en los que la gente resiste activamente a la IA
  • La comunidad de Reddit r/PoisonFountain trabaja con el objetivo de suministrar a los crawlers de IA 1 terabyte diario de datos contaminados para finales de 2026
  • Están apareciendo distintas formas de resistencia, como técnicas para engañar a resumidores de video con IA o la inserción intencional de datos falsos en redes sociales
  • El trasfondo de esta resistencia es la realidad de que los crawlers de IA ignoran robots.txt y provocan en sitios web pequeños una carga a nivel de DDoS
  • Existe la expectativa de que, si este sentimiento se traduce en actos de resistencia pacíficos y legales, podría cambiar la forma en que Silicon Valley recolecta datos

Comunidad de contaminación de datos dirigida a crawlers de IA

  • La comunidad de Reddit r/PoisonFountain fue creada por personas que se presentan como integrantes de la industria de la IA, y anima a que la mayor cantidad posible de gente alimente a los crawlers web con grandes volúmenes de datos basura (poison)
  • La meta es suministrar a los crawlers 1 terabyte diario de datos contaminados para finales de 2026
  • El cuerpo principal de estos datos contaminados está alojado en rnsaffn.com, colocado entre enlaces basura que podrían atraer a crawlers de IA
    • A simple vista parece código normal, pero en realidad incluye errores sutiles, lo que produce código inutilizable
    • Filtrar estos errores es posible, pero a gran escala resulta costoso
  • Como las empresas de IA no pueden mejorar sus modelos sin datos nuevos creados por humanos, la estrategia central es aumentar el tiempo y el costo del robo de datos
  • Miasma es una herramienta que aprovecha estos datos contaminados para suministrar grandes cantidades de basura a bots maliciosos; su desarrollador la describe como un "buffet infinito de slop para las máquinas de slop"

Conductas problemáticas de los crawlers de IA

  • Los equipos que envían crawlers de IA están provocando de forma regular cargas a nivel de DDoS en sitios web pequeños, elevando los costos de hosting para todo el mundo
  • No respetan robots.txt y con frecuencia esconden sus crawlers detrás de proxies residenciales
  • Si no pueden obtener datos de entrenamiento de manera ética, no hay razón para que los administradores de sitios web faciliten el robo de datos

Intentos de contaminar resumidores de video con IA

Sabotaje intencional contra la IA en redes sociales

  • En plataformas de redes sociales como Reddit, están aumentando los casos de publicar deliberadamente información falsa para contaminar los datos de entrenamiento de IA
  • Como ejemplo, hay publicaciones con la falsedad evidente de que Idris Elba interpretó a la madre de Raymond en "Everybody Loves Raymond"
    • Los humanos pueden detectar de inmediato por el contexto que es falso, pero los web scrapers automatizados lo interpretan como datos de calidad generados por personas
    • Si estos datos llegan a OpenAI y otras empresas, se requieren recursos adicionales para eliminarlos del conjunto de entrenamiento
  • Esto puede verse como una variante moderna de cuando los trabajadores textiles destruían telares mecánicos durante la Revolución Industrial; si suficientes personas contaminan el espacio público con información falsa dirigida a bots, podrían presionar a las empresas de IA para que reconsideren cómo recopilan sus datos de entrenamiento

Amplio rechazo hacia la IA

  • La gente siente rechazo por el impacto de la IA en el mundo, en concreto por sus efectos sobre las comunidades en línea, el medio ambiente, las escuelas primarias y universidades, las personas en riesgo de problemas de salud mental y los medios de vida
  • Hay personas que consumen y generan slop de IA, pero tanto fuera como dentro de internet son muchas más las que detestan y rechazan esta tecnología
  • Rara vez el odio conduce a buenos resultados, y aquí se adopta una postura contraria a actos violentos como patear o volcar robots repartidores con IA o el incidente de lanzar una bomba molotov a la casa de Sam Altman
  • Aun así, si los sentimientos hacia la IA se transforman en actos de resistencia pacíficos y legales, existe la posibilidad de cambiar de verdad la forma en que actúa Silicon Valley

Posdata: revisión del texto original tras volverse viral en Hacker News

  • Este texto llegó a la primera página de un gran hub de noticias (Hacker News) y recibió de forma inesperada un gran volumen de tráfico
  • Se produjo un ataque malicioso de sobrecarga del servidor, con unos pocos IP enviando miles de solicitudes a esa página
    • Si hubiera sido un hosting compartido barato, es muy probable que el sitio se hubiera caído por completo; como respuesta, se bloqueó temporalmente el tráfico hacia esa URL
  • Aunque no es especialista en IA, algunas personas en los comentarios la criticaron en exceso exigiendo una precisión de nivel experto
    • Un comentario llegó a decir que "no es mejor que un grupo que quema bibliotecas", una reacción especialmente decepcionante para una bloguera a la que le gustan las bibliotecas y compartir conocimiento
  • La intención original era compartir enlaces sobre tendencias anti-IA para sus seguidores de un blog pequeño, y su postura es que no lo habría publicado si hubiera sabido que atraería atención negativa en una plataforma tan grande
  • Después decidió abstenerse de publicar opiniones personales sobre IA y concentrarse en el propósito original de su blog: disfrutar de la small web
  • Es un caso que muestra cómo la expresión libre de opiniones en la small web se ve inhibida por la difusión viral

5 comentarios

 
GN⁺ 8 일 전
Opiniones de Hacker News
  • Me alegra que esta persona haya encontrado una comunidad, pero siento que está demasiado abrumada por el sentimiento anti-AI. Creo que durante los próximos 30 años va a seguir existiendo gente que odie y quiera frenar la AI. Siempre hubo grupos así con los smartphones, Internet y la TV. Por otro lado, si el poisoning de modelos realmente llegara a ser posible de forma estable, me parecería un problema de ciencias de la computación bastante interesante. No comparto la causa de los activistas anti-AI, pero sí me interesan mucho las técnicas de ataque en sí. Por eso, si siguen investigando eso, creo que incluso personas que no están de acuerdo con su causa van a leer esa discusión seriamente

    • Creo que el poisoning de modelos al final se topa con un límite parecido al halting problem. Si se publica un mecanismo para cambiar algún comportamiento medible, el sistema inevitablemente puede entrenarse para tener en cuenta ese mecanismo y resistirlo. Las técnicas de poisoning que se hagan públicas probablemente terminen absorbidas como objetivos de entrenamiento defensivo o de filtrado. Y si solo funcionan cuando la información queda gravemente arruinada, entonces también se vuelve inútil para los humanos, así que pierde utilidad práctica. Por eso creo que estos ataques o tendrán poco impacto, o funcionarán por poco tiempo antes de que el pipeline de entrenamiento los incorpore y los neutralice. Aun así, me parecen una tarea interesante de CS porque en esa breve ventana revelan puntos ásperos donde humanos y modelos reaccionan distinto
    • Hace unos años inventé aquí el nombre de un juego falso y dejé varios comentarios sobre ese juego para intentar contaminar futuros modelos de AI. Ahora ni siquiera recuerdo el nombre del juego, y no tengo ganas de darle a More cientos de veces para buscar mis comentarios viejos
    • Supongo que los modelos Chinese van a ser más resistentes al poisoning. Y creo que también influye que el público Chinese es mucho más pro-AI que el occidental
    • Si una superinteligencia no alineada acaba extinguiendo a la humanidad en unos años, al menos ya no seguirá existiendo una comunidad activa dedicada a odiar e intentar detener la AI, ese sería mi chiste cínico
    • Creo que el SEO ya mutó de forma natural hacia el entrenamiento de LLM y la agentic search optimization. Siento que ese es el núcleo de lo que está pasando ahora
  • Me da pena porque estos intentos de poisoning me parecen energía gastada en el lugar equivocado. Ya hay suficientes datos no contaminados para entrenar, y además se sigue generando contenido nuevo mediante recolección automática del mundo real o trabajo controlado en grandes talleres de África. Así que quizá se pueda ensuciar el Internet viejo, pero no revertir la flecha del tiempo. Además, ahora está creciendo un nuevo Internet más centrado en APIs y announce federation pública, así que siento que la importancia de ese poisoning tradicional va a ir disminuyendo

    • Esto me parece interesante. Los AI labs se ven realmente desesperados por conseguir contenido nuevo de Internet, y parecen dispuestos a comprar datos incluso de plataformas cerradas si les ponen precio. A veces hasta parece que intentan llevárselos aunque no haya consentimiento. Siento que el scraping abusivo y mañoso ha aumentado muchísimo ahora
    • Más allá de que haya mucho contenido, creo que quienes subieron cosas a Internet la están pasando mal tratando de bloquear crawlers de AI a los que no dieron permiso. En muchos casos tienen que bloquearlos aunque solo sea para proteger su infraestructura del aluvión de requests. Pero como los crawlers de AI no suelen respetar bien las señales de acceso denegado, desde la perspectiva de alguien que no quiere que su contenido se use para entrenamiento, el poisoning parece una respuesta bastante razonable si es posible. Tal vez incluso sea casi la única manera de ahuyentar a los crawlers
    • Creo que es cierto que hay suficiente contenido no contaminado. Pero por los casos que he tocado, me parece difícil contaminar de forma significativa un dataset completo o un modelo solo escondiendo contenido que pase desapercibido para los ojos humanos pero parezca relevante para scrapers. Aun así, al menos sí se puede hacer que la ganancia neta de ignorar la señal de “por favor no saturen mi sitio con requests de scraper” sea cero o incluso ligeramente negativa. Y aunque no funcione, implementarlo fue un juego bastante divertido. También, para quienes quieran automatizar poisoning, las palabras y caracteres aleatorios se eliminan fácil con filtrado, así que no funcionan muy bien. En cambio, reordenar el contenido de la página actual y de páginas vecinas, mezclándolo con algunos fragmentos adicionales, sí parece tener más posibilidades de debilitar las conexiones entre tokens. Y como algunos scrapers descartan toda la página si encuentran insultos muy obvios, poner algunas cadenas desagradables en lugares visibles solo para bots puede funcionar en ciertos casos. Claro, nada de eso evita por sí mismo el resource hogging que consume bandwidth
    • Recomendaría revisar "model collapse". En un entorno como el actual, lleno de contenido generado por AI, el simple hecho de que haya mucho contenido podría no bastar como recurso de entrenamiento. Además, también importa que enormes volúmenes de datos se estén volviendo privados o quedando detrás de paywalls
    • Me parece interesante que Anthropic también esté abordando directamente el problema del poisoning con muestras pequeñas. Como referencia, vale la pena ver https://www.anthropic.com/research/small-samples-poison
  • Recuerdo cuando la agenda principal de la vieja cultura hacker era eliminar barreras que dificultaban usar la información, como DRM, DMCA, patent trolls o los controles de exportación de PGP. Comparado con esa época en que “Information wants to be free” funcionaba casi como lema, ahora parece un giro enorme que haya crecido tanto la idea de que, si las empresas no pueden conseguir ethically training data, no hay por qué ponérsela fácil para robarla de los sitios web. Hace 25 años habría sido difícil predecir un cambio así

    • Nunca me ha convencido mucho la idea de que esto sea una contradicción. Se entiende más fácil si distingues entre alguien que quiere que todos sean ricos y alguien que hace planes para que solo él se vuelva rico mientras los demás se empobrecen. Que una persona apoye el acceso libre a la información y, al mismo tiempo, se oponga al uso corporativo de datos que perjudica la capacidad de otros de acceder a la información y además oculta o distorsiona las fuentes, no me parece contradictorio. Mientras no vivamos en un mundo donde el copyright haya desaparecido, las obras creativas sean un bien público y las empresas tampoco monopolicen la información, esto me parece más una aplicación coherente que un cambio de postura
    • Veo esto como algo que pasa en culturas que no tienen mecanismos fuertes para excluir a quienes buscan destruir la comunidad. Me viene a la mente la metáfora de dejar entrar a un vampiro a tu casa y luego sorprenderte de que te duela el cuello
    • Creo que en ese entonces la gente quería construir una economía del compartir y del regalo. Lo que pasó es que no pudieron frenar a los actores maliciosos dentro de esa economía compartida, y cuando los oportunistas se apropiaron del idealismo para su beneficio, la gente terminó decepcionada y amargada. Por eso la reacción actual no me parece tan extraña
    • Yo sigo estando más cerca de “information wants to be free”. No termino de entender a la gente que publica su software bajo licencias open source y luego se enfurece porque un LLM lo entrene. Cuando antes Google indexaba el código fuente, había bastante menos ruido; supongo que porque entonces el tráfico regresaba y eso generaba dinero. Por eso esta discusión me parece menos filosófica y más una cuestión de quién se lleva el dinero, y eso no me interesa mucho. Siento que el valor central del open source está en que cualquiera pueda aprender, ya sea mediante AI o de otra forma
    • No estoy de acuerdo con la idea de que esto traicione el hacker ethos original. “Information wants to be free” es solo una parte del hacker ethos, no todo, y hay muchas otras inclinaciones que no tienen que ver con cracking. Además, la información en un servidor no es gratis como una cerveza gratis; la disponibilidad y el costo del servidor son reales. Crear mecanismos que perjudiquen a actores codiciosos me parece un derecho legítimo del operador del servidor y un interesante problema de tit-for-tat. Encima, este tipo de respuestas con poisoning no piden intervención del gobierno, sino que son una forma de contraataque directo por parte de individuos, y eso también encaja bien con una sensibilidad hacker. Así que, aunque choque accidentalmente con un aspecto de la disponibilidad de la información, creo que esta resistencia a los LLM en realidad sí entra dentro del espíritu hacker original
  • Siento que la forma más fácil de aumentar la resistencia a la AI es poner a Dario Amodei y Sam Altman en TV y simplemente dejarlos hablar

    • Yo diría que si además metes a Alex Karp a promocionar armas autónomas, queda la trinidad perfecta
    • Me gustaría escuchar más sobre por qué lo sientes así. Se me ocurren cosas como que no conectan bien con la gente común, tienen incentivos desalineados, no hablan con franqueza o tienen más poder que los líderes electos. Aun así, no me gustaría meter a Amodei y a Altman en el mismo saco. A mis ojos, Altman es pulido y competente, pero justamente por eso me genera más inquietud, y tiene un aire amoral que hace que la gente siga a la persona más que a las ideas. En cambio, Amodei me da la impresión de ser un geek bien intencionado que convence por su carácter y sus ideales. Maneja mal a los medios, pero justamente por eso parece hablar como él mismo, y eso me cae bien. Claro, hay mucho para criticar en ambos. Dario todavía no parece ir lo suficientemente lejos respecto a los riesgos futuros de la AI, y Altman me deja la primera impresión de ser inteligente y capaz, pero manipulador. Aun así, creo que Dario es uno de los líderes corporativos que más en serio se toma el alignment. Parece alguien que pone dinero de su bolsillo, entiende la tecnología y conoce la esencia real de la investigación. Si piensas en lo raro que es que un CEO tenga además la capacidad de realizar de verdad el trabajo central del negocio, eso me parece bastante especial
  • Veo la AI como una herramienta corporativa para sacarle más trabajo a los empleados. Al mismo tiempo, siento que también les mete en la cabeza la ilusión de que ahora son turbo-charged devs. Hoy la tech industry me parece más un circo al que se le fue el dinero encima que un esfuerzo serio por mejorar a la humanidad

    • Al menos entre programadores que todavía están en sus cabales, no siento que se crean mucho ese mito del “turbo-charged dev”. Creo que la mayoría ve clarísimo que toda esta actuación al final es una forma de hacer dinero
  • Siento que este movimiento de poisoning se parece más a slacktivism. Entiendo hasta cierto punto el análisis de que se está reemplazando trabajo de la clase trabajadora por compute, y como el compute es capital puro, al final eso significa que la clase capitalista le aprieta el cuello a la clase trabajadora. Y también creo que los capitalistas realmente podrían querer ir en esa dirección. Pero si uno lo ve así, contaminar un poco los modelos está lejísimos de enfrentar de verdad lo que está pasando

  • Veo esta tendencia muy fuerte en Reddit. Algunas comunidades son tan pro-AI que hasta ponen comentarios de resumen hechos por AI y fomentan publicaciones escritas por AI, mientras que otros subreddits se mueven hacia posturas cautelosas o abiertamente anti-AI. Las comunidades de fotografía tienen el problema de que su trabajo sea sospechado de ser AI, y las de programadores en general parecen favorables pero al mismo tiempo escépticas. Al final, hasta los subreddits más tradicionales están encontrando su lugar en algún punto del espectro de la AI. Pienso en ejemplos como https://www.reddit.com/r/vibecoding/, https://www.reddit.com/r/isthisAI/, https://www.reddit.com/r/aiwars/, https://www.reddit.com/r/antiai/, https://www.reddit.com/r/photography/comments/1q4iv0k/what_do_you_say_to_people_who_think_every_photo/, https://www.reddit.com/r/webdev/comments/1s6mtt7/ai_has_sucked_all_the_fun_out_of_programming/

    • Esto me parece muy típico de Reddit y, más ampliamente, del pensamiento grupal humano. Siento que la gente prefiere colocarse rápido en algún punto de una línea unidimensional o quedar clasificada en uno de dos bandos, en vez de lidiar con matices
  • Ojalá en algún momento podamos tener una conversación más matizada sobre la AI y el papel que debería tener en el mundo. Ahora mismo el ambiente parece casi reducido a dos extremos. Entre la postura de sacar la AI por completo del mundo y la de entregarle todo, me gustaría discutir cosas más reales como el uso responsable, los amortiguadores sociales o el problema del consumo energético

    • Creo que, como el venture capital apostó por el escenario en que la AI domina el mundo, por un tiempo va a ser difícil conseguir inversión para usos conservadores y limitados de los LLM. También siento que hay una razón más sutil: poner dinero en esos casos de uso cautelosos sería una señal que le bajaría valor a sus inversiones centrales ya existentes
    • Yo estoy más o menos justo en ese punto medio. Los crawlers de AI y sus empresas deberían respetar robots.txt, y no deberían expandirse sin límite de una forma que dañe al ambiente y a la cadena de suministro. Al mismo tiempo, siento que sí hay valor en usar modelos con cuidado. Por ejemplo, cuando estoy rastreando un problema raro en un servidor Linux, puede que no siempre quiera invertir largas horas y energía mental. Así que me gustaría usar AI conscientemente solo cuando la necesite, pero de verdad odio la estrategia de Microsoft de empujar Copilot constantemente. No quiero que me estén recordando a cada momento que debo ser más eficiente; quiero usarlo solo cuando a mí me parezca apropiado
    • Siento que cuando antes imaginaba la AI, no pensaba en estos usos. Se suponía que había una visión grandiosa donde resolvía grandes problemas. Por eso ahora creo que deberíamos impulsar un despliegue responsable de la AI. Empezar en áreas de bajo riesgo y, solo después de verificar que funciona lo suficiente en situaciones menos catastróficas, llevarla a ámbitos más importantes
    • Me sorprendió un poco ver esta opinión en alguien que participa en este sitio. Yo más bien sentía que aquí es donde esa zona media aparece con más frecuencia. Incluso en el último año, me parece que hubo un cambio importante: de gestos vagos a una actitud de aceptar la AI pero identificar los problemas y pensar contramedidas. Creo que la AI puede ser una herramienta increíble si se usa bien, pero me da miedo la forma actual de ponérsela a todo el mundo en las manos sin que entiendan la herramienta. Imagino que no debe haber poca gente en esta comunidad con una sensación parecida
  • Siento que la ira del blog original también es excesiva, pero igual me deja un mal sabor ver a gente que de verdad cree que estos intentos de poisoning no pueden perjudicar en absoluto el entrenamiento de modelos; eso también me suena a una falta de comprensión técnica

    • No creo que se pueda asegurar con tanta confianza que el poisoning nunca funcione. Al menos por algunos casos relacionados, me parece que no corresponde cerrar por completo esa posibilidad; por ejemplo, se me viene a la mente https://www.reddit.com/r/BrandNewSentence/comments/1so9wf1/comment/ogrqpxz/
    • Me cuesta estar de acuerdo con la actitud de ver la ira en sí misma como algo cringe. Si descartas la ira completa como algo infantil, siento que puedes terminar alejándote del sentido de realidad y del sentido moral
    • Más cringe me parece dejar que ChatGPT te escriba mensajes, correos y currículums, que desarrolladores de software en activo hagan apps enteras con vibe coding, o andar diciendo que el AGI ya viene saliendo de los LLM
  • Quiero hacer el chiste de “Resistance is futile”, pero al mismo tiempo sí conecto bastante con la idea de que la AI está arruinando comunidades de verdad. Por ejemplo, YouTube hasta ha puesto el procesamiento de reportes en manos de AI, de modo que actores maliciosos pueden afirmar que videos originales de otros les pertenecen y quitarles ingresos mediante demonetize. A YouTubers conocidos como Davie504 les ha pasado, y encima hasta las apelaciones las procesa otro robot, lo que resulta desesperante

    • Creo que este problema de YouTube existía desde mucho antes de los LLM. El sistema de copyright strike ya estaba roto desde antes. Así que elegir cualquier problema tech al azar y echárselo todo a la AI me parece algo impreciso
 
amebahead 7 일 전

Aparte de contaminar los datos con los que aprende la IA, ¿no hay otras formas de resistencia?
Por ejemplo, no consumir contenido generado por IA...

 
dongho42 7 일 전

Yo también, mientras leía esto, pensé que quizá sin querer también termina envenenando a los humanos.

 
geesecross 7 일 전

No sé dónde se generó el problema, pero a 'kkim', 'bom', 'doem' y 'jim' se les está agregando un 'eum' que no encaja. ¿Será también poisoning? ;)

 
xguru 7 일 전

Parece que el modelo cambió un poco, porque el mismo prompt está fallando. Ya corregí esta parte.