- Proyecto público de lista negra para bloquear sitios tipo granja de contenido generados por IA en uBlock Origin
- Los sitios web escritos por IA generativa suelen estar llenos de anuncios y enlaces de recomendación, y a menudo incluyen información poco confiable
- Los usuarios pueden aplicar la lista de bloqueo suscribiéndose al archivo
list.txt o agregando la URL manualmente
- Se presentan de forma concreta las características y criterios de identificación de los sitios generados por IA, y la lista puede ampliarse mediante Pull Requests de colaboradores
- Puede usarse como una herramienta práctica para reducir la contaminación de contenido de IA que aparece en los primeros resultados de búsqueda
Resumen del proyecto
- AI uBlock Blacklist ofrece una lista de bloqueo de contenido generado por IA para usar en la extensión uBlock Origin
- Cada vez que se encuentra un sitio web escrito por IA generativa mientras se navega, se añade manualmente a la lista
- No se usan herramientas de automatización, y se indica explícitamente que es difícil determinar algorítmicamente si un contenido fue generado por IA
Objetivo del proyecto
- Los sitios web escritos por IA generativa tienen poca información útil y una estructura orientada a monetizar con anuncios y enlaces de recomendación
- El contenido escrito por IA puede publicarse masivamente sin revisión, por lo que puede incluir información peligrosa
- Como ejemplos, se menciona la posibilidad de sugerir consejos peligrosos como provocar un cortocircuito, ejecutar el comando
rm -rf /, o mezclar lejía con amoníaco
- Por estas razones, el contenido generado por IA no es confiable y debe bloquearse
- El autor es italiano, por lo que se incluyen muchos sitios en italiano, y se agradecen contribuciones para agregar sitios en otros idiomas
Cómo agregar sitios web
- Los usuarios sin conocimientos técnicos pueden reportar sitios sospechosos mediante GitHub Issues
- Si se agregan directamente mediante Pull Request, se pueden bloquear por dominio o por una ruta específica de blog
- Ejemplo: formato
||example.com/@slopUser^$doc o ||example.com^$doc
- Si una organización que vende servicios de SEO y marketing digital opera varias granjas de contenido, se recomienda agregar también los sitios relacionados
Criterios para identificar granjas de contenido de IA
- Introducciones y conclusiones innecesarias, títulos exagerados como ‘Comprehensive Guide’, ausencia de enlaces externos o fuentes, y muchos enlaces de recomendación
- Miles de publicaciones en poco tiempo, información incorrecta (alucinaciones), publicaciones posteriores a noviembre de 2022, imágenes y logotipos generados por IA
- Texto con formato descuidado, sintaxis Markdown sin renderizar, textos largos que no se relacionan con el tema, aparición repetida en los primeros resultados de búsqueda
- También se mencionan como rasgos importantes la falta de datos de contacto, una página de presentación ambigua y contenido que elogia a la IA
Uso de Google Dorks
- En casos donde se publican frases generadas por IA tal cual, es posible encontrar páginas creadas por IA buscando expresiones específicas
- Ejemplos:
"Sure! Here's an article about" (inglés), "Certo! Ecco un articolo" (italiano)
- Las páginas que contienen esas frases se agregan a la lista negra a nivel de todo el dominio
Proyectos similares
- El proyecto uBlockOrigin & uBlacklist Huge AI Blocklist oculta todos los resultados relacionados con IA
- Este proyecto se diferencia en que mantiene las herramientas de IA legítimas y bloquea solo las granjas de contenido de IA
1 comentarios
Opiniones de Hacker News
La idea me pareció interesante y yo también quería contribuir a la lista, pero me detuve al ver la frase “Cry about it” en el FAQ
Creo que esa actitud es inapropiada para manejar una blacklist pública. Da la impresión de que el mantenedor cree que es infalible
Pedí que lo quitaran, pero no recibí ninguna respuesta y sigue bloqueado hasta hoy
Con un enfoque más realista, apareció una nueva lista que bloquea solo content farms y sitios de baja calidad
Parece una mejor alternativa que las listas amplias para bloquear IA
Ver uBlockOrigin-HUGE-AI-Blocklist
En Reddit también hay una discusión relacionada bastante activa
Compartí el proceso de búsqueda y la lista en mi gist
Con el paso del tiempo, el problema de los falsos positivos se vuelve serio. Los dominios se venden, los sitios cambian de rumbo o el contenido desaparece
Con una actitud como “Cry about it”, esto solo se convierte en un agujero negro de difamación. Como mínimo hace falta algún mecanismo de expiración o revisión
uBlock Origin ya tiene una lista para bloquear “AI widget”. Gracias a eso sigo usando Firefox. En Chromium no sirve de mucho
Estoy de acuerdo con el principio, pero una actitud del tipo “escribes con IA porque te falta habilidad” es injusta para los usuarios de Grammarly o para quienes no hablan inglés como lengua nativa
De todos modos, este proyecto no apunta a autores individuales sino a content farms, así que es otro tema
Parece que el autor apunta a granjas de bots de IA
Aun así, por ahora todavía no ha aparecido una whitelist de internet
Hay quien usa una herramienta que determina si un texto fue escrito por IA a partir de tropes e intenta reconstruir el prompt original
tropes.fyi/aidr
Esta dirección me parece buena. Ojalá fuera posible bloquear más categorías de sitios
En entornos corporativos, los servicios de reputación de URL clasifican sitios y controlan el acceso
Creo que los usuarios individuales también necesitan este tipo de infraestructura financiada colectivamente
Por ejemplo, estaría bien un fondo sin fines de lucro de mil millones de dólares al año para sostener un ecosistema confiable de navegador, VPN, DNS, correo electrónico, autoridades certificadoras, etc.
También existe una extensión como botblock.ai que detecta respuestas de IA en Twitter
Imagen de prueba
Yo, si un sitio tiene demasiada publicidad, simplemente lo cierro. Si la configuración de anuncios es razonable, lo sigo usando
Estoy cansado de la guerra de adblockers. Cada rato aparece un nombre nuevo de plugin y parece una competencia sin fin