- El blog personal blog.james-zhan.com fue excluido por completo del índice de búsqueda de Google apenas un mes después de haberse creado
- Justo después de validar por error una URL del feed RSS en Google Search Console (GSC), todas las publicaciones pasaron a mostrarse con el estado “Crawled – currently not indexed”
- Se revisaron múltiples causas posibles, como la configuración del dominio, la calidad del contenido y la estructura de enlaces internos, pero no se encontró ningún problema
- Con ayuda de Herman, fundador de Bear Blog, también se descartaron DNS, HTML/CSS y problemas de la plataforma, y en otros motores de búsqueda el sitio se indexa con normalidad
- Al final, se decidió mover el blog a un nuevo subdominio y dejar que Google lo indexe de forma natural, pero la causa sigue sin aclararse
Situación inicial
- El blog se abrió el 4 de octubre y publicó su primer artículo largo con formato de columna de opinión
- Tras enviar el sitemap a Google Search Console (GSC) y solicitar la indexación, apareció en los resultados de búsqueda al día siguiente
- Después, cada vez que se publicaba un nuevo artículo, se repetía la solicitud de indexación y todo se reflejaba con normalidad
Aparición del problema
- El 14 de octubre, al ver en GSC un mensaje indicando que una URL no estaba indexada, se hizo clic en el botón “Validate”
- Esa URL era un feed RSS (
feed/?type=rss), no una página real
- El 20 de octubre, tras recibir un correo de GSC indicando que algunas correcciones habían fallado, todas las publicaciones fueron desindexadas
- El mensaje de estado era “Page is not indexed: Crawled – currently not indexed”
- Volver a enviar el sitemap y solicitar la indexación de URLs individuales no tuvo efecto
Seguimiento de la causa
- El día en que comenzó la validación de indexación y el día en que todas las publicaciones dejaron de indexarse fueron el mismo
- No está claro si el intento de validar el feed RSS provocó el problema
- Después de eso, todas las publicaciones nuevas también quedaron con el mismo estado de error
- El 3 de noviembre, incluso la última publicación que seguía indexada fue eliminada del índice
Revisión de posibles causas
- Problema del dominio:
james-zhan.com, usado en GoDaddy, sí se indexa con normalidad en otros subdominios → no es la causa
- Calidad del contenido: al compararlo con otros casos de Bear Blog, no había problemas ni de cantidad ni de calidad del contenido → no es la causa
- Falta de enlaces internos: la estructura base de Bear Blog es la misma y otros blogs se indexan normalmente → no es la causa
- Otros factores: según la revisión de Herman, fundador de Bear Blog
- DNS, HTML/CSS y la configuración de la plataforma estaban en orden
- El código CSS personalizado tampoco afectaba la indexación
Otros motores de búsqueda y medidas tomadas
- En DuckDuckGo, Bing y Brave, entre otros, el blog sí se indexa con normalidad
- Se sospecha que es un problema del lado de Google y no una falla técnica del sitio
- El blog se movió a un nuevo subdominio (
journal.james-zhan.com) y además
- el dominio se transfirió de GoDaddy a Porkbun
- se configuró redirección de URLs para que los enlaces antiguos apuntaran automáticamente al nuevo blog
- En el nuevo blog no se envió el sitemap a GSC y se dejó la indexación en manos del proceso natural de Google
- La causa sigue sin conocerse y el autor cuestiona la falta de transparencia del sistema de indexación de Google
1 comentarios
Comentarios en Hacker News
h1, y Google lo reconoció como contenido spam.No puedo controlar AI Overview, pero agregué
noindexa la página de búsqueda y el tráfico se recuperó en una semanaExpliqué los detalles en mi post del blog
/searchquedó cacheada y expuesta a los rastreadores.Conviene no cachear las páginas de búsqueda y aplicar noindex con X-Robots-Tag
En adelante, parece que habrá que seguir el tráfico con nuestras propias herramientas de analítica
Ahora la gente solo ve resúmenes y anuncios, y se va
¿Será que otro sitio puso un enlace a esa URL de búsqueda y así la rastrearon?
Si Google pusiera enlaces a las fuentes en las frases del resumen, quizá la tasa de clics se recuperaría un poco
Cuando un sitio es sancionado, no se puede saber por qué ni apelar.
Google está actuando de hecho como gatekeeper.
Como funciona casi como un bien público, necesita un sistema de soporte y responsabilidad acorde con eso.
La regulación no lo resuelve todo, pero a una empresa de este nivel de utilidad pública al menos debería exigírsele una obligación mínima de garantizar acceso
Ahora mismo, la estructura es que solo apareces en la búsqueda si pagas publicidad
Como resultado, las páginas indexadas cayeron de miles a 100
Vean la captura de pantalla.
Ni siquiera después de 6 meses se ha recuperado. Como era un proyecto personal, no pasa nada, pero si hubiera sido un negocio, estaría furioso
Captura actualizada
Si operan durante cierto tiempo, hasta llegan a ser reconocidos como “derechos adquiridos”.
Incluso he visto que en tribunales presentan capturas de Google Maps como prueba
pero en realidad era una empresa fraudulenta. Dañaron la cerradura y me exigieron 600 dólares.
Lo reporté y Google lo eliminó rápido, pero creo que en estos casos debería haber verificación de identidad real al momento del registro
El problema es que a veces la realidad termina cambiando para adaptarse al mapa
En muchos procedimientos administrativos, suele dejarse pasar con una lógica de “si nadie objeta, entonces está bien”
Mi sitio está siendo desindexado porque lo reconocen por error como contenido duplicado.
En Bing no hay problema, pero Google sí comete este error
y una página de Reddit solo se muestra en una versión traducida a un idioma equivocado.
Parece que la lógica de deduplicación está fallando
Si se monta un reverse proxy desde otro dominio, Google lo indexa como duplicado.
Conviene usar etiquetas canonical y enlaces con ruta absoluta
Era un blog que no había tenido problemas en 17 años
Como ahora hay tanto spam, parece que aumentaron los falsos positivos
Ese método más bien produce el efecto contrario de reducir la proporción de contenido legítimo
Se parece en que Google tiene una estructura donde decide quién sobrevive
Puede que el error de RSS simplemente haya sido el detonante de la indiferencia
¿de verdad Google Maps lo alcanzó tan rápido?
Tampoco se puede ignorar la influencia de Instagram o TikTok,
así que parece una interpretación que le da demasiado poder solo a Google
Al final eso lleva al problema de qué fue primero, el huevo o la gallina.
Los sitios pequeños no consiguen visibilidad y por eso no pueden crecer,
mientras que los grandes siguen apareciendo arriba sin ningún problema