29 puntos por xguru 2024-05-29 | 3 comentarios | Compartir por WhatsApp
  • Hace poco recibí un correo de una fuente anónima diciendo que se habían filtrado masivamente documentos de la API de búsqueda de Google
  • La autenticidad de los documentos fue confirmada por ex empleados de Google, y conversaciones con algunos de ellos también aportaron información adicional

Principales afirmaciones

  • Google ha negado repetidamente que use señales de usuario basadas en clics, pero los documentos filtrados lo contradicen
  • También quedan desmentidas las afirmaciones de Google de que no evalúa los subdominios por separado, que no existe un sandbox para sitios web nuevos y que no considera la antigüedad del dominio
  • Desde el principio, el equipo de búsqueda de Google necesitó grandes volúmenes de datos de clickstream de usuarios web (todas las URL visitadas desde el navegador) para mejorar la calidad de los resultados de búsqueda
  • El sistema NavBoost citado por el DoJ recopilaba datos del PageRank de la barra de herramientas de Google, y fue una motivación clave para desarrollar el navegador Chrome con el fin de obtener más datos de clickstream
  • NavBoost analiza la cantidad de búsquedas para ciertas palabras clave, los clics en los resultados, y los clics cortos y largos para evaluar la intención del usuario; si hay muchos clics en videos o imágenes, activa funciones de video o imagen para las consultas relacionadas con NavBoost
  • Uso de datos de clics: Google usa historial de cookies, datos de Chrome con sesión iniciada y detección de patrones para prevenir spam de clics manual y automatizado, y analiza los clics y la interacción de los usuarios para reflejarlos en los resultados de búsqueda
  • Evaluación de calidad del sitio: los datos de NavBoost se usan para evaluar la calidad general de un sitio (llamada Panda), y según esa evaluación su ranking sube o baja
  • NavBoost también evalúa los datos de clics considerando datos geográficos, segmentándolos a nivel de país y de estado/provincia
  • Se aplican listas blancas a resultados de búsqueda relacionados con COVID-19 y elecciones para mostrar con prioridad ciertos sitios

Verificación de la credibilidad de los documentos

  • Parte de esto coincide con la información revelada en el caso Google/DOJ, pero la mayor parte es nueva
  • La fuente anónima reveló su identidad el 28/5, y es Erfan Azimi (experto en SEO)
  • Confirmación de ex empleados de Google: dos de tres ex empleados de Google confirmaron la credibilidad de los documentos
  • Revisión técnica: el especialista en SEO técnico Mike King revisó los documentos y confirmó su credibilidad

Google API Contents Warehouse ?

  • Propósito de esta documentación de API: es documentación para ayudar a miembros del equipo de Google a entender los elementos de datos disponibles para usar en proyectos
  • Vía de filtración: estuvo expuesta brevemente en GitHub, y durante ese período los documentos se filtraron

Hallazgos principales

#1: NavBoost y uso de datos de clics

  • Filtrado de datos de clics: Google filtra los datos de clics que considera dentro del sistema de ranking y mide la duración del clic y las impresiones.
  • Tiene métodos para descartar los clics que no quiere incluir en el sistema de ranking e incluir los que sí quiere considerar
  • Parece medir la duración del clic (por ejemplo, cuando un usuario hace clic en un resultado de búsqueda pero no queda satisfecho con la respuesta encontrada y vuelve rápidamente con el botón atrás) y la cantidad de impresiones

#2: Uso del clickstream del navegador Chrome

  • Datos de clickstream de Chrome: Google usa los datos de clics del navegador Chrome para determinar los Sitelinks (las URL populares de ese sitio web)

#3: Listas blancas para viajes, COVID y política

  • Existencia de listas blancas: ciertos dominios se muestran con prioridad en resultados de búsqueda relacionados con viajes, COVID y elecciones

#4: Uso del feedback de evaluadores de calidad

  • Datos de evaluadores de calidad: es posible que las evaluaciones de los quality raters se usen directamente en el sistema de búsqueda

#5: Uso de datos de clics para determinar el peso del ranking de enlaces

  • Clasificación del índice de enlaces: se usan datos de clics para clasificar el índice de enlaces en alta calidad, calidad media y baja calidad

Principales implicaciones para marketers

  • Importancia de la marca: Google prioriza a las grandes marcas en el ranking
  • Menor importancia de los factores E-E-A-T: es posible que los factores de experiencia, pericia, autoridad y confiabilidad que algunos SEO enfatizan no se reflejen directamente en el ranking
    • Experience, Expertise, Authoritativeness, Trustworthiness
  • La intención del usuario y los patrones de clics son factores de ranking más importantes que el contenido y los enlaces
  • Está disminuyendo la importancia de los factores de ranking tradicionales como PageRank y anchor text
  • La dificultad del SEO: para pymes y nuevos creadores/publicadores, el SEO se vuelve mucho más difícil para competir contra las grandes marcas

3 comentarios

 
yangeok 2024-06-09

Entonces, ¿qué tal si simplemente impedimos que funcione el botón de volver? jajaja

 
wkang586 2024-06-03

Lo sospechaba vagamente, pero verlo desplegado así me deja en shock...
Hasta Navboost podría parecerme entendible...
Pero la whitelist sí es impactante. Le llaman whitelist, pero en realidad es una política de discriminación bastante descarada.

 
xguru 2024-05-29

Documentación filtrada de Google Content API Warehouse
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…