1 puntos por GN⁺ 2023-12-24 | 7 comentarios | Compartir por WhatsApp

La Búsqueda de Google, desbordada por un ataque masivo de spam

  • Los resultados de búsqueda de Google han estado bajo ataque de spam durante los últimos días y la situación está completamente fuera de control.
  • Muchos dominios están posicionando para cientos de miles de palabras clave cada uno, por lo que la magnitud de este ataque podría alcanzar millones de frases de palabras clave.

Cómo puede explotarse el algoritmo de Google

  • Los sitios de spam parecen estar aprovechando al menos tres oportunidades en la forma en que Google clasifica los sitios web.
  • Las consultas de búsqueda en las que los sitios de spam logran posicionarse tienen baja competencia, por lo que es más fácil clasificarlas.
  • Hay oportunidades relacionadas con el algoritmo de búsqueda local, las palabras clave long tail y los dominios recién registrados.
  • Los sitios nuevos tienen la ventaja de poder posicionarse temporalmente para ciertas consultas mientras el algoritmo de Google todavía está intentando entender el sitio.

Los enlaces ayudan a Google a encontrar sitios de spam

  • Esto se supo gracias a una publicación de Bill Hartzer, quien usó la herramienta de backlinks de Majestic para revelar la red de enlaces de varios sitios de spam.
  • Aunque se invirtió mucho esfuerzo en crear una red de backlinks, los enlaces no son en realidad los responsables directos del alto posicionamiento.
  • Los enlaces ayudan a Google a descubrir, rastrear y finalmente posicionar nuevos sitios de spam.

Spam fuera de control en los SERPs de Google

  • Varios sitios están posicionando para frases long tail fáciles de clasificar y para frases con componentes de búsqueda local.
  • El concepto de long tail existe desde hace casi 20 años y fue popularizado por el libro "The Long Tail", publicado en 2006.
  • Los sitios de spam pueden posicionarse para frases con poca competencia, y aprovechan esto para clasificar cientos de miles de palabras clave en poco tiempo.

Cómo se ven las páginas de spam

  • No es posible visitar las páginas de spam directamente desde un navegador.
  • Los sitios de spam redirigen automáticamente a otros dominios.
  • Se usó el probador de Rich Results de Google para visitar los sitios de spam y registrar el HTML de la página.

Un dominio posiciona para más de 300,000 palabras clave

  • La hoja de cálculo enviada por Bill incluía una lista de frases de palabras clave para las que un sitio de spam estaba posicionando.
  • Un sitio de spam llegó a posicionarse para más de 300,000 frases de palabras clave.

Por qué esta técnica de spam funciona

  • La búsqueda local usa un algoritmo distinto al algoritmo no local.
  • El algoritmo de búsqueda local es más permisivo para que sitios de tipo local puedan posicionarse.
  • Google conoce este problema de spam al menos desde el 19 de diciembre, según se confirmó a través de un tuit de Danny Sullivan.

Opinión de GN⁺

  • Lo más importante de este artículo es que los resultados de búsqueda de Google son vulnerables a ataques masivos de spam, lo que podría afectar la confiabilidad del motor de búsqueda.
  • La razón por la que este ataque de spam es efectivo es que explota vulnerabilidades específicas del algoritmo de Google, lo que subraya la necesidad de que Google mejore su algoritmo.
  • Este texto resulta interesante no solo por el aspecto técnico, sino también porque muestra que incluso una gran empresa tecnológica como Google puede seguir enfrentando problemas inesperados.

7 comentarios

 
devstudyman7 2024-03-09

Documento web de reporte de spam de Google: cuando vayan a reportar spam, si es un dominio como abc.abc.uk/trashasda, repórtenlo como abc.uk, y si ponen abc.abc.uk/sitemap.xml en la búsqueda que mejor permita identificar el problema, podrán hacer el reporte. Parece que es un sitio ya consolidado como solución, pero con una estructura en la que, cuando un usuario común accede, vuelve a generar de inmediato documentos derivados. La forma correcta de responder es hacer reportes activamente, y cada vez que se hace clic en Google se vuelven a crear páginas de spam; además, hay un proceso en el que se hace que el bot acceda mediante cosas como google.com/url, image.google.com/url o redirecciones de Naver para volver a llevarlo a la página de spam generada, así que no hagan clic: solo copien el enlace y repórtenlo. Mientras no se elimine el algoritmo de redirección que aparece indicado como google.com/url, parece que el problema actual seguirá produciéndose.

 
devstudyman7 2024-03-09

Si reportan documentos web que correspondan a la solución de spam anterior, lo correcto es poner en el primero de los 5 campos el dominio principal, y en las 4 URL adicionales escribir la lista de documentos derivados creados a partir de este. También es recomendable poner el sitemap de ese dominio en el campo de búsqueda. Si abren el sitemap, verán que usan una estrategia para generar páginas apenas se accede, como /new/asdasd, así que si reportan documentos individuales, al final hacen que Google genere además más páginas señuelo cuando las revisa. Por eso, como es un caso muy bien armado, deben reportar el dominio completo.

 
devstudyman7 2024-03-09

En mi caso
(h lo cambié por x y / por |)

xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2

Después de redactar el reporte así,

si es uno de esos casos donde empezó a pudrirse desde los subdominios, envío el reporte con la palabra clave site:*baddomain.com de esta manera.

Luego, si el sitio en sí es completamente spam, también mando el formulario de reporte de phishing.

 
devstudyman7 2024-03-09

Irónicamente, el software de esos sitios web de spam tiene integrados tag managers y, aun usando sitios como https://picsum.photos, siguen siendo indexados con normalidad. Eso también significa que Google no los revisa. Incluso cuando ya sobrepasan lo que podría considerarse una actividad de spam normal, si las páginas web spam además tienen anuncios de AdWords activos, por más que se reporten, los documentos derivados se generan más rápido en proporción al tráfico que entra por la publicidad. Lo más inquietante es que los sitios web de spam estén usando tag managers de forma totalmente normal.

 
devstudyman7 2024-03-09

Llevo un mes enviando reportes de spam; si también lo reportan como documento de spam o documento fraudulento y lo envían junto con la página para denunciar sitios de phishing, se limpia más rápido. También agrego esa página, pero si el dominio de nivel superior es abc.abc.uk, deben ingresar abc.uk para ayudar a limpiar el dominio en sí. Se ha vuelto una tarea cotidiana para los webmasters.

 
aobamisaki 2023-12-24

De por sí, desde hace tiempo ya se notaba que la calidad de los resultados de búsqueda de Google venía bajando en general, así que si recibe ataques masivos en poco tiempo de esta manera, mucha gente terminará confiando aún menos en los resultados de búsqueda de Google.

 
GN⁺ 2023-12-24
Opiniones de Hacker News
  • Los sitios spam verifican la dirección IP de Googlebot

    • Si detectan que es Googlebot, muestran contenido en esa página
    • Los demás visitantes son redirigidos a otro dominio con contenido sospechoso
    • Antes, Google no permitía sitios que mostraran contenido distinto a Googlebot y a los usuarios normales, y aplicaba fuertes penalizaciones por violar esa regla
    • Esa política desapareció, pero si las herramientas automatizadas funcionan bien, todavía podría ser útil
  • Experiencia de un usuario que se cambió al motor de búsqueda Kagi

    • A veces es difícil obtener buenos resultados de búsqueda, pero en Google los resultados tampoco son mejores
    • El usuario ajusta los resultados a sus preferencias personales usando "boost" y "pin" en dominios
    • Sigue usando otros servicios de Google como Gmail y Google Maps, pero ya no usa su buscador
  • Aumento de sitios que ofrecen cantidades excesivas de texto para responder preguntas simples

    • La respuesta real está ubicada al final de la página
    • A simple vista parecen relevantes, pero en realidad contienen información genérica
  • Observación sobre el deterioro en la calidad de los resultados de búsqueda de Google

    • No está claro desde cuándo empezó esta tendencia, pero puede que no haya recibido suficiente atención durante mucho tiempo
    • Los ataques de spam podrían ser la etapa final
  • Cuestionamientos sobre los motores de búsqueda

    • El concepto de un motor de búsqueda de propósito único basado en rastrear la web podría desaparecer
    • Podría ser mejor reemplazar Google con varios sistemas adaptados a propósitos específicos
    • Por ejemplo, buscar preguntas técnicas directamente en StackOverflow y Github, y buscar lugares locales en bases de datos confiables
    • Los motores de búsqueda podrían evolucionar para usar LLM (modelos de lenguaje de gran tamaño), adivinar el tipo de búsqueda y dirigir al usuario a búsquedas especializadas curadas
  • Señalamientos sobre cambios en el algoritmo del motor de búsqueda de Google

    • Google a veces cambia el algoritmo y eso afecta el posicionamiento de los sitios
    • Estos cambios pueden hacer que resultados de baja calidad suban a los primeros lugares para ciertas consultas
    • Antes era importante monitorear y debatir estas actualizaciones del algoritmo en sitios relacionados con SEO
  • Afirmación de que Google ha abandonado la búsqueda orgánica

    • Incluso a usuarios con experiencia en SEO les cuesta entender por qué Google decide el ranking de los resultados
    • Google hace que los resultados pagados sean más valiosos para empujar a los usuarios a hacer clic en anuncios pagados
  • Señalamientos sobre las limitaciones del motor de búsqueda de Google

    • Es útil cuando se busca algo específico, pero fuera de eso usan Bing, ChatGPT, Phind y otros
    • El juego del usuario aparece entre los primeros resultados en Bing y otros motores, pero en Google primero aparecen sitios spam con anuncios
  • Compartiendo la experiencia de cambiarse a Bing

    • Con la mejora de Bing gracias al uso de ChatGPT, empezó a usar Bing en lugar de Google
    • No es perfecto, pero ofrece resultados más satisfactorios en comparación con Google
  • Críticas al comportamiento de Google como empresa publicitaria

    • Creó una cuenta nueva de Gmail y, aunque no se la dio a nadie, aun así recibió correos spam
    • Es razonable suponer que Google vende sus propias listas de direcciones de correo electrónico