Parece que Google ahora nos odia
(twitter.com/pokemoncentral)- Pokémon Central Wiki fue durante más de 15 años una fuente principal de información de Pokémon en italiano, pero ahora casi ha desaparecido de los resultados de búsqueda de Google
- Aunque wiki.pokemoncentral.it es una gran wiki basada en MediaWiki, una búsqueda
site:devuelve literalmente solo 4 resultados - La fuerte caída de indexación empezó alrededor del core update de marzo de 2026, y en Search Console aparece en masa
"crawled - currently not indexed" - Bing, DuckDuckGo y otros sí la indexan normalmente, así que parece ser un problema limitado a Google; bloquear Google-Extended no debería afectar la indexación según la documentación
- Se aplicaron optimizaciones en el servidor, Cloudflare, etiquetas Open Graph y schema.org, además de SWR, pero todavía no hay resultados y la causa sigue sin estar clara
Caída drástica en la indexación de búsqueda de Google
- Pokémon Central Wiki fue durante más de 15 años la fuente más conocida de información de Pokémon en italiano, pero actualmente casi no aparece en los resultados de búsqueda de Google
- wiki.pokemoncentral.it funciona con MediaWiki, el software open source que usa Wikipedia, y es una de las 500 instancias de MediaWiki más grandes del mundo según Wikistats
- PCW forma parte de la red internacional de wikis Encyclopaediae Pokémonis, que también incluye a Bulbapedia
- Gran parte del contenido fue traducido desde Bulbapedia con permiso, y miles de voluntarios humanos participaron en ese trabajo
- Otras wikis de EP parecen estar indexadas normalmente, según la verificación de la comunidad y las búsquedas
site: - Una búsqueda
site:http://wiki.pokemoncentral.itpara PCW actualmente devuelve solo 4 resultados - Hace unas semanas, alrededor del core update de marzo de 2026, muchas páginas empezaron a aparecer en Google Search Console con el estado
"crawled - currently not indexed" - Google solo muestra que esas páginas podrían indexarse más adelante o no, sin dar una razón concreta
Causas revisadas y respuestas
- Cuesta pensar que se trate de una baja en la calidad del contenido o de un problema operativo
- No hubo cambios en la política editorial, abuso ni deterioro de calidad
- Si hubiera un problema puramente técnico como errores 5xx, probablemente habría aparecido de otra forma en Google Search Console
- Parece ser un problema limitado a Google
- Bing, DuckDuckGo y otros motores de búsqueda sí indexan PCW normalmente
- Se están bloqueando scrapers para entrenamiento de IA a través de Cloudflare
- No se bloquea a bots de IA que quieran usar PCW como fuente o referencia en respuestas a usuarios
- En
robots.txtse bloquea Google-Extended, pero según la documentación de Google eso no debería afectar la indexación en búsqueda
- El managed challenge de Cloudflare solo se aplica a secciones no importantes para la indexación, como historiales de páginas y páginas técnicas
- Esas secciones no están permitidas explícitamente en
robots.txt - Esas páginas son difíciles de cachear y consumen muchos recursos del servidor
- Los bots envían miles de solicitudes por minuto y generan sobrecarga en el servidor
- Esas secciones no están permitidas explícitamente en
- Se ajustó la configuración del servidor y de Cloudflare para acelerar el sitio
- En las últimas semanas se incorporaron prácticas honestas de SEO y optimización que podían aplicarse
- Se mejoraron de forma iterativa las etiquetas Open Graph y schema.org con Claude Code
- Se hizo funcionar SWR de Cloudflare para que la mayoría de las solicitudes se sirvan desde el edge en milisegundos sin pasar por el servidor, con revalidación en segundo plano
- Estos cambios todavía no han dado resultado
- Reflejar cambios puede tardar varias semanas, y como Google es opaco, es difícil verificar enseguida si de verdad están funcionando
- Una posible hipótesis es que Google haya ajustado su algoritmo y, en la era de la IA, esté considerando que la “calidad del contenido” de PCW no es suficiente
- Es posible que los LLM ya se hayan entrenado con texto de PCW antes del bloqueo
- Otros sitios que copiaron ampliamente el contenido de PCW siguen apareciendo en los resultados de búsqueda
- El contenido de PCW tiene licencia CC BY-NC-SA, así que en general el hecho de copiarlo no sería el problema
- Visitantes fieles que no entienden la situación están preguntando por ello, y también apareció una publicación relacionada en Reddit
- Por ahora se está recomendando guardar wiki.pokemoncentral.it en marcadores para poder entrar directamente
- Se espera poder contactar a alguien dentro de Google que pueda revisar qué está pasando
2 comentarios
Creo que sí es un problema del lado de Google. A mí me pasa exactamente lo mismo en varios sitios que administro.
Simplemente Google no está indexando sin ninguna razón. Dicen que quizá algún día lo haga, pero de verdad parece que será algún día muy lejano.
Comentarios en Hacker News
No es que Google nos odie, sino que, peor aún, se acerca más a la indiferencia
Para odiar, al menos tendría que reconocernos. Puede que este incidente por sí solo no signifique mucho, pero en general Google va en una dirección extraña. Alguna vez estuvo en la vanguardia, pero tras 20 años parece haberse convertido en otra gran corporación que sacrifica la calidad por las ganancias de los accionistas
Ya no sirve como motor de búsqueda. De hecho, antes aparecen enlaces promocionados que lo que realmente buscas. Me pasé a Kagi y no he mirado atrás
Tampoco encaja bien para IA. Hay límites de uso arbitrarios que se reinician después de 5 horas, y una cuota semanal mostrada en porcentaje, lo cual es el colmo de la opacidad. Kagi muestra claramente cuánto te queda en los detalles de uso. Por cierto, no trabajo en Kagi, solo soy un cliente satisfecho
Tampoco me convence como almacenamiento en la nube. Periódicamente lanza alertas de contenido para adultos porque en alguna carpeta compartida donde colaboro debe de haber un usuario spam o una cuenta hackeada. Y no soy el único que lo sufre(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Me cambié a Apple iCloud y listo
El correo está bien. Después de usarlo 22 años, ya lo relegué a una etapa donde no es importante en mi vida. Las cosas importantes de todos modos ya las moví a un proveedor europeo
También probé DDG, pero para mi uso fue incluso peor que Google
Acabo de buscar A&W y también me muestra Tim Hortons, Popeyes y McDonald's. Apple Maps nunca hace eso. Aun así, normalmente uso Google porque quiero saber si está abierto y si el horario es correcto
Aun así, sigue siendo genial que una empresa gigante como Google publique investigación gratuita y sobresaliente como AlphaFold o, en menor medida, Gemma. Se siente como el ATT PAC Bell o IBM de nuestra era
Llevo un año pagando el servicio de búsqueda, pero todavía no he explorado las funciones de IA que ofrece
Puede ser porque es un wiki. Hoy en día los spammers de wikis son persistentes
Incluso en un wiki pequeño de un juego poco conocido con menos de 10 mil jugadores, en el que ayudo con la administración, hace poco tuvimos que bloquear los registros nuevos. El spam era demasiado fuerte y estábamos atados a una versión antigua de MediaWiki que no soporta CAPTCHA
Si es un wiki popular, y este parece haber sido bastante popular, probablemente no sea fácil detener a los spammers de wiki solo con CAPTCHA. Si los spammers no solo publicaban basura simple tipo “compra pastillas para el rendimiento sexual”, sino también enlaces a sitios maliciosos, es posible que Google haya considerado con cierta justificación que ese wiki era una fuente de ese malware
La solución que le queda al autor original probablemente sea auditar y limpiar a fondo el contenido malicioso del wiki, y luego apelar ante Google. Claro, siendo Google, aunque respondan seguramente les tome meses
Al final, a menos que haya un fan italiano de Pokémon en el equipo de Google que maneja esto, se ve bastante complicado
No se puede descartar que haya un enlace spam escondido en algún rincón casi nunca visitado entre más de 37 mil páginas, pero cuesta verlo como la causa de la desindexación. Si fuera eso, parecería que también habría aparecido en Google Search Console
Si es lo bastante pequeño, normalmente basta con meter un flujo no estándar en el proceso de registro para esquivar casi todos los bots de spam. Por ejemplo, poner una imagen estática o audio que solo la audiencia conozca y pedir que lo elijan en un desplegable de “no soy un bot”, o agregar una verificación extra por correo al primer post/edición, o exigir una respuesta que esté en un momento específico de un video largo de YouTube. Si es no estándar, casi cualquier cosa funciona
Eso rompe el 99.9% de la automatización, y los spammers que manipulan resultados de búsqueda no van a crear automatización única para un wiki o foro específico
Si el sitio es muy famoso, entonces sí, se vuelve una carrera armamentista interminable. En ese punto puedes usar algo como Hashcash para hacer que cada intento queme mucho CPU/GPU/RAM, y así los spammers podrían simplemente meterte en lista negra
Así que incluso si hubiera sido una versión nueva con CAPTCHA, quizá tampoco habría ayudado
Bloquear dominios de correo al registrarse sí me funcionó bastante bien. Mi lista está en https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... Es una función integrada de MediaWiki, así que debería funcionar razonablemente bien en la mayoría de versiones
Ellos dejaron claro en el hilo de Twitter que no estaba lleno de contenido basura generado por IA, y dijeron que revisaron la lista de páginas marcadas como “rastreada, pero no indexada” sin encontrar señales de abuso
Entiendo que te haya sorprendido que el wiki que administrabas recibiera ataques de spam, pero generalizar lo que te pasó en tu wiki hacia aquel no es razonable
Honestamente, es muy probable que sea un bug descuidado del lado de Google
En búsqueda hay mucha relación diferida entre causa y efecto, y es mucho más fácil cometer un pequeño error que haga que el 0.1% de los sitios se quede fuera del rastreo o la indexación que detectar que eso ocurrió. Más aún antes de que el sitio afectado lo informe
Yo mismo tuve un bug en marginalia. Si la ruta raíz no soportaba HEAD pero sí GET con encabezado
Range, y respondía correctamente con HTTP 206, ese sitio no se indexaba. Era porque el código que inspeccionaba el documento raíz durante la exploración inicial trataba eso como un estado de errorLa mayoría de los sitios que soportan solicitudes por rango también soportan HEAD. Normalmente significa que el documento no se genera dinámicamente. Pero algunas configuraciones basadas en Caddy, alrededor del 0.3% de los servidores, eran la excepción
No hay forma de que ese tipo de clasificación sea perfecta
Google ya raspó los datos e incluso terminó de entrenar los modelos, así que ¿para qué querría enviar tráfico a los sitios web?
Los creadores de contenido y los sitios web legítimos básicamente fueron usados y desechados
Solo el equipo de búsqueda de Google está compuesto por miles de personas, todas haciendo trabajos distintos bajo una gran misión de hacer la web más accesible, no menos. Cualquier despliegue de cualquiera de ellos podría producir este tipo de efecto secundario
También pudo haber sido una implementación intencional de política, pero la probabilidad parece muy baja
Si el corpus ya está funcionalmente completo, no entiendo por qué seguirían rastreando e indexando una y otra vez cosas de poco valor
Creo que Bowie fue una de las personas que popularizó la expresión “wham bam, thank you ma’am”
Aunque le den voto negativo, no explica la diferencia
Cuando se decía que los usuarios con adblock bloqueaban los ingresos de los creadores, solían responder que el internet de 1996 estaba bien, o que no deberías esperar compensación por publicar contenido en línea, o que es su computadora y pueden elegir qué cargar. ¿A dónde se fue esa lógica?
Hace unas semanas me pasó lo mismo en mi blog
Era un blog bien referenciado durante años, y de repente casi todos los artículos dejaron de estar indexados. En Search Console aparece que las URL fueron rastreadas pero no están indexadas actualmente, y a diferencia de un problema técnico no hay nada que yo pueda arreglar. Ahora tengo que aceptar que la mayoría de mis textos ya no se pueden encontrar por Google
No creo realmente que esté relacionado, pero al pensarlo en retrospectiva, el momento coincide con cuando empecé a configurar TDMRep para impedir que usaran mi contenido para entrenar LLM
Entré a Google Search Console y todos los enlaces aparecían como “rastreado, pero no indexado”, sin que dieran ningún motivo
El error clásico de SEO fue haber creado un sitio de comunidad real
Deberías haber hecho hilos de Reddit, subcarpetas de cupones y resúmenes de IA. Bromas aparte, ojalá se recupere pronto
Se podría decir que Google nos odia a todos
Como institución, lo único que le importa es meter la mayor cantidad posible de anuncios frente a la mayor cantidad posible de personas, para seguir haciendo montañas de dinero cada vez más absurdas
No lo digo para defender a Google. Google, como casi toda gran corporación, es completamente sociópata
Por cierto, Google también odia OpenCV
Antes era fácil buscar cosas; por ejemplo, si buscas “opencv orb”, ahora salen sitios spam por páginas. Básicamente es spam de blogs tipo “¡aprende OpenCV aquí!”
El primer resultado de “docs.opencv.org” aparece literalmente hasta la página 4, y encima apunta a la versión 3.4 de hace 9 años
La página que quiero, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., no aparece por ningún lado
Hay que votar con el dinero y cambiarse a mejores productos orientados al cliente, no al anunciante
Tengo muy buen recuerdo de cuando de adolescente y joven recorría Newgrounds y agradecía a la gente que pagaba los costos del servidor. Me prometí que cuando estuviera establecido y tuviera dinero extra, yo también aportaría para los siguientes, y aunque me tomó más tiempo del esperado, llevo casi 10 años haciéndolo
Por eso me gusta recomendar que normalicemos esa cultura. Una estructura donde haya cierto porcentaje de clientes de pago, para poder mantener lo gratuito para quienes no pueden pagar o para sostener el crecimiento. Es muy probable que decenas de miles de carreras en programación y animación hayan empezado o al menos se hayan inspirado en sitios excelentes como Newgrounds, y creo que el efecto neto para la sociedad fue muy positivo
Viendo el keynote de ayer y los cambios en Search, parece claro que en un futuro cercano Google dejará de enviar tráfico a los sitios web
Los resultados de búsqueda solo serán notas al pie de las respuestas de Gemini
Los wikis son de alto riesgo desde la perspectiva SEO
Hacer que mi wiki personal lograra indexarse fue tan difícil que casi me di por vencido, y solo lo conseguí porque un amigo más familiarizado con esto me ayudó a dejar toda la configuración necesaria en su lugar
Si no tienes cuidado, la gente puede meter spam fácilmente por todo el sitio, y eso sí destruye de verdad tu presencia en buscadores
Dicho eso, Google es realmente enorme. Enorme, enorme. Tan enorme que ni siquiera la gente dentro de Google es totalmente de confianza para Google en temas como este
Aun así, no es que Google odie a los wikis en general. Solo que hay mucho trabajo por hacer: verificar que no haya spam en el wiki, completar la información de metadatos, tener un sitemap.xml y varias cosas más. Aquí está el ejemplo de mi wiki: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...