2 puntos por GN⁺ 1 시간 전 | 2 comentarios | Compartir por WhatsApp
  • Pokémon Central Wiki fue durante más de 15 años una fuente principal de información de Pokémon en italiano, pero ahora casi ha desaparecido de los resultados de búsqueda de Google
  • Aunque wiki.pokemoncentral.it es una gran wiki basada en MediaWiki, una búsqueda site: devuelve literalmente solo 4 resultados
  • La fuerte caída de indexación empezó alrededor del core update de marzo de 2026, y en Search Console aparece en masa "crawled - currently not indexed"
  • Bing, DuckDuckGo y otros sí la indexan normalmente, así que parece ser un problema limitado a Google; bloquear Google-Extended no debería afectar la indexación según la documentación
  • Se aplicaron optimizaciones en el servidor, Cloudflare, etiquetas Open Graph y schema.org, además de SWR, pero todavía no hay resultados y la causa sigue sin estar clara

Caída drástica en la indexación de búsqueda de Google

  • Pokémon Central Wiki fue durante más de 15 años la fuente más conocida de información de Pokémon en italiano, pero actualmente casi no aparece en los resultados de búsqueda de Google
  • wiki.pokemoncentral.it funciona con MediaWiki, el software open source que usa Wikipedia, y es una de las 500 instancias de MediaWiki más grandes del mundo según Wikistats
  • PCW forma parte de la red internacional de wikis Encyclopaediae Pokémonis, que también incluye a Bulbapedia
  • Gran parte del contenido fue traducido desde Bulbapedia con permiso, y miles de voluntarios humanos participaron en ese trabajo
  • Otras wikis de EP parecen estar indexadas normalmente, según la verificación de la comunidad y las búsquedas site:
  • Una búsqueda site:http://wiki.pokemoncentral.it para PCW actualmente devuelve solo 4 resultados
  • Hace unas semanas, alrededor del core update de marzo de 2026, muchas páginas empezaron a aparecer en Google Search Console con el estado "crawled - currently not indexed"
  • Google solo muestra que esas páginas podrían indexarse más adelante o no, sin dar una razón concreta

Causas revisadas y respuestas

  • Cuesta pensar que se trate de una baja en la calidad del contenido o de un problema operativo
    • No hubo cambios en la política editorial, abuso ni deterioro de calidad
    • Si hubiera un problema puramente técnico como errores 5xx, probablemente habría aparecido de otra forma en Google Search Console
  • Parece ser un problema limitado a Google
    • Bing, DuckDuckGo y otros motores de búsqueda sí indexan PCW normalmente
  • Se están bloqueando scrapers para entrenamiento de IA a través de Cloudflare
    • No se bloquea a bots de IA que quieran usar PCW como fuente o referencia en respuestas a usuarios
    • En robots.txt se bloquea Google-Extended, pero según la documentación de Google eso no debería afectar la indexación en búsqueda
  • El managed challenge de Cloudflare solo se aplica a secciones no importantes para la indexación, como historiales de páginas y páginas técnicas
    • Esas secciones no están permitidas explícitamente en robots.txt
    • Esas páginas son difíciles de cachear y consumen muchos recursos del servidor
    • Los bots envían miles de solicitudes por minuto y generan sobrecarga en el servidor
  • Se ajustó la configuración del servidor y de Cloudflare para acelerar el sitio
    • En las últimas semanas se incorporaron prácticas honestas de SEO y optimización que podían aplicarse
    • Se mejoraron de forma iterativa las etiquetas Open Graph y schema.org con Claude Code
    • Se hizo funcionar SWR de Cloudflare para que la mayoría de las solicitudes se sirvan desde el edge en milisegundos sin pasar por el servidor, con revalidación en segundo plano
  • Estos cambios todavía no han dado resultado
    • Reflejar cambios puede tardar varias semanas, y como Google es opaco, es difícil verificar enseguida si de verdad están funcionando
  • Una posible hipótesis es que Google haya ajustado su algoritmo y, en la era de la IA, esté considerando que la “calidad del contenido” de PCW no es suficiente
    • Es posible que los LLM ya se hayan entrenado con texto de PCW antes del bloqueo
    • Otros sitios que copiaron ampliamente el contenido de PCW siguen apareciendo en los resultados de búsqueda
    • El contenido de PCW tiene licencia CC BY-NC-SA, así que en general el hecho de copiarlo no sería el problema
  • Visitantes fieles que no entienden la situación están preguntando por ello, y también apareció una publicación relacionada en Reddit
  • Por ahora se está recomendando guardar wiki.pokemoncentral.it en marcadores para poder entrar directamente
  • Se espera poder contactar a alguien dentro de Google que pueda revisar qué está pasando

2 comentarios

 
xguru 1 시간 전

Creo que sí es un problema del lado de Google. A mí me pasa exactamente lo mismo en varios sitios que administro.
Simplemente Google no está indexando sin ninguna razón. Dicen que quizá algún día lo haga, pero de verdad parece que será algún día muy lejano.

 
GN⁺ 1 시간 전
Comentarios en Hacker News
  • No es que Google nos odie, sino que, peor aún, se acerca más a la indiferencia
    Para odiar, al menos tendría que reconocernos. Puede que este incidente por sí solo no signifique mucho, pero en general Google va en una dirección extraña. Alguna vez estuvo en la vanguardia, pero tras 20 años parece haberse convertido en otra gran corporación que sacrifica la calidad por las ganancias de los accionistas
    Ya no sirve como motor de búsqueda. De hecho, antes aparecen enlaces promocionados que lo que realmente buscas. Me pasé a Kagi y no he mirado atrás
    Tampoco encaja bien para IA. Hay límites de uso arbitrarios que se reinician después de 5 horas, y una cuota semanal mostrada en porcentaje, lo cual es el colmo de la opacidad. Kagi muestra claramente cuánto te queda en los detalles de uso. Por cierto, no trabajo en Kagi, solo soy un cliente satisfecho
    Tampoco me convence como almacenamiento en la nube. Periódicamente lanza alertas de contenido para adultos porque en alguna carpeta compartida donde colaboro debe de haber un usuario spam o una cuenta hackeada. Y no soy el único que lo sufre(https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Me cambié a Apple iCloud y listo
    El correo está bien. Después de usarlo 22 años, ya lo relegué a una etapa donde no es importante en mi vida. Las cosas importantes de todos modos ya las moví a un proveedor europeo

    • Suena de locos, pero como último recurso estoy usando Yandex, y da buenos resultados para encontrar material que parece que Google decidió dejar de mostrar
      También probé DDG, pero para mi uso fue incluso peor que Google
    • Si buscas un restaurante específico en Google Maps, parece asumir que simplemente eres una persona con hambre en general
      Acabo de buscar A&W y también me muestra Tim Hortons, Popeyes y McDonald's. Apple Maps nunca hace eso. Aun así, normalmente uso Google porque quiero saber si está abierto y si el horario es correcto
    • Kagi es excelente
      Aun así, sigue siendo genial que una empresa gigante como Google publique investigación gratuita y sobresaliente como AlphaFold o, en menor medida, Gemma. Se siente como el ATT PAC Bell o IBM de nuestra era
    • Los enlaces promocionados ya están a un nivel ridículo, y muchas veces los 5 o 6 primeros parecen anuncios
    • Me da curiosidad cómo se usa Kagi AI
      Llevo un año pagando el servicio de búsqueda, pero todavía no he explorado las funciones de IA que ofrece
  • Puede ser porque es un wiki. Hoy en día los spammers de wikis son persistentes
    Incluso en un wiki pequeño de un juego poco conocido con menos de 10 mil jugadores, en el que ayudo con la administración, hace poco tuvimos que bloquear los registros nuevos. El spam era demasiado fuerte y estábamos atados a una versión antigua de MediaWiki que no soporta CAPTCHA
    Si es un wiki popular, y este parece haber sido bastante popular, probablemente no sea fácil detener a los spammers de wiki solo con CAPTCHA. Si los spammers no solo publicaban basura simple tipo “compra pastillas para el rendimiento sexual”, sino también enlaces a sitios maliciosos, es posible que Google haya considerado con cierta justificación que ese wiki era una fuente de ese malware
    La solución que le queda al autor original probablemente sea auditar y limpiar a fondo el contenido malicioso del wiki, y luego apelar ante Google. Claro, siendo Google, aunque respondan seguramente les tome meses
    Al final, a menos que haya un fan italiano de Pokémon en el equipo de Google que maneja esto, se ve bastante complicado

    • Ya operamos un sistema antibot con restricciones de permisos para cuentas nuevas, reglas de Cloudflare bien ajustadas y un equipo de voluntarios dedicados que patrullan continuamente las ediciones recientes
      No se puede descartar que haya un enlace spam escondido en algún rincón casi nunca visitado entre más de 37 mil páginas, pero cuesta verlo como la causa de la desindexación. Si fuera eso, parecería que también habría aparecido en Google Search Console
    • Si un proyecto se vuelve lo bastante conocido como para que le fabriquen automatización a medida, en realidad ya no hay forma de pelear contra el spam
      Si es lo bastante pequeño, normalmente basta con meter un flujo no estándar en el proceso de registro para esquivar casi todos los bots de spam. Por ejemplo, poner una imagen estática o audio que solo la audiencia conozca y pedir que lo elijan en un desplegable de “no soy un bot”, o agregar una verificación extra por correo al primer post/edición, o exigir una respuesta que esté en un momento específico de un video largo de YouTube. Si es no estándar, casi cualquier cosa funciona
      Eso rompe el 99.9% de la automatización, y los spammers que manipulan resultados de búsqueda no van a crear automatización única para un wiki o foro específico
      Si el sitio es muy famoso, entonces sí, se vuelve una carrera armamentista interminable. En ese punto puedes usar algo como Hashcash para hacer que cada intento queme mucho CPU/GPU/RAM, y así los spammers podrían simplemente meterte en lista negra
    • Hace unos días alguien aquí dijo que usa rutinariamente bots de IA para Captcha, y que cuesta 0.003 dólares resolver uno
      Así que incluso si hubiera sido una versión nueva con CAPTCHA, quizá tampoco habría ayudado
    • El CAPTCHA no hace nada contra los spammers
      Bloquear dominios de correo al registrarse sí me funcionó bastante bien. Mi lista está en https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... Es una función integrada de MediaWiki, así que debería funcionar razonablemente bien en la mayoría de versiones
    • No sé si hay base para decir que este wiki estaba cubierto de spam, o si solo lo están suponiendo a la ligera
      Ellos dejaron claro en el hilo de Twitter que no estaba lleno de contenido basura generado por IA, y dijeron que revisaron la lista de páginas marcadas como “rastreada, pero no indexada” sin encontrar señales de abuso
      Entiendo que te haya sorprendido que el wiki que administrabas recibiera ataques de spam, pero generalizar lo que te pasó en tu wiki hacia aquel no es razonable
  • Honestamente, es muy probable que sea un bug descuidado del lado de Google
    En búsqueda hay mucha relación diferida entre causa y efecto, y es mucho más fácil cometer un pequeño error que haga que el 0.1% de los sitios se quede fuera del rastreo o la indexación que detectar que eso ocurrió. Más aún antes de que el sitio afectado lo informe
    Yo mismo tuve un bug en marginalia. Si la ruta raíz no soportaba HEAD pero sí GET con encabezado Range, y respondía correctamente con HTTP 206, ese sitio no se indexaba. Era porque el código que inspeccionaba el documento raíz durante la exploración inicial trataba eso como un estado de error
    La mayoría de los sitios que soportan solicitudes por rango también soportan HEAD. Normalmente significa que el documento no se genera dinámicamente. Pero algunas configuraciones basadas en Caddy, alrededor del 0.3% de los servidores, eran la excepción

    • O quizá alguna IA lo marcó como un tipo de contenido que no quiere mostrar
      No hay forma de que ese tipo de clasificación sea perfecta
    • Si las páginas indexadas cayeron de 511 mil a 11, eso sí es una torpeza bastante grave
  • Google ya raspó los datos e incluso terminó de entrenar los modelos, así que ¿para qué querría enviar tráfico a los sitios web?
    Los creadores de contenido y los sitios web legítimos básicamente fueron usados y desechados

    • Personificar a Google de esta manera no es realista
      Solo el equipo de búsqueda de Google está compuesto por miles de personas, todas haciendo trabajos distintos bajo una gran misión de hacer la web más accesible, no menos. Cualquier despliegue de cualquiera de ellos podría producir este tipo de efecto secundario
      También pudo haber sido una implementación intencional de política, pero la probabilidad parece muy baja
    • Yo pensé lo mismo. Buena parte de estos datos, ¿no son estables y estáticos?
      Si el corpus ya está funcionalmente completo, no entiendo por qué seguirían rastreando e indexando una y otra vez cosas de poco valor
    • Estaba escuchando Suffragette City de David Bowie cuando leí esa frase
      Creo que Bowie fue una de las personas que popularizó la expresión “wham bam, thank you ma’am”
    • Entonces, ¿no sería lo mismo que han hecho los usuarios con bloqueadores de anuncios durante los últimos 20 años?
      Aunque le den voto negativo, no explica la diferencia
      Cuando se decía que los usuarios con adblock bloqueaban los ingresos de los creadores, solían responder que el internet de 1996 estaba bien, o que no deberías esperar compensación por publicar contenido en línea, o que es su computadora y pueden elegir qué cargar. ¿A dónde se fue esa lógica?
  • Hace unas semanas me pasó lo mismo en mi blog
    Era un blog bien referenciado durante años, y de repente casi todos los artículos dejaron de estar indexados. En Search Console aparece que las URL fueron rastreadas pero no están indexadas actualmente, y a diferencia de un problema técnico no hay nada que yo pueda arreglar. Ahora tengo que aceptar que la mayoría de mis textos ya no se pueden encontrar por Google
    No creo realmente que esté relacionado, pero al pensarlo en retrospectiva, el momento coincide con cuando empecé a configurar TDMRep para impedir que usaran mi contenido para entrenar LLM

    • A mí también. Llevo más de 20 años con un blog personal, y el año pasado no pude encontrar ni un solo enlace a mi blog en Google
      Entré a Google Search Console y todos los enlaces aparecían como “rastreado, pero no indexado”, sin que dieran ningún motivo
    • Si Google ya absorbió los datos de entrenamiento de un sitio, no indexarlo podría funcionar como una especie de foso frente a competidores que usan Google Search para descubrir sitios
  • El error clásico de SEO fue haber creado un sitio de comunidad real
    Deberías haber hecho hilos de Reddit, subcarpetas de cupones y resúmenes de IA. Bromas aparte, ojalá se recupere pronto

  • Se podría decir que Google nos odia a todos

    • Google no odia ni ama a ninguno de nosotros
      Como institución, lo único que le importa es meter la mayor cantidad posible de anuncios frente a la mayor cantidad posible de personas, para seguir haciendo montañas de dinero cada vez más absurdas
      No lo digo para defender a Google. Google, como casi toda gran corporación, es completamente sociópata
  • Por cierto, Google también odia OpenCV
    Antes era fácil buscar cosas; por ejemplo, si buscas “opencv orb”, ahora salen sitios spam por páginas. Básicamente es spam de blogs tipo “¡aprende OpenCV aquí!”
    El primer resultado de “docs.opencv.org” aparece literalmente hasta la página 4, y encima apunta a la versión 3.4 de hace 9 años
    La página que quiero, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., no aparece por ningún lado

    • Creo que en los productos que no se sostienen con suscripciones, la escritura ya estaba en la pared desde hace tiempo por la enshittification
      Hay que votar con el dinero y cambiarse a mejores productos orientados al cliente, no al anunciante
      Tengo muy buen recuerdo de cuando de adolescente y joven recorría Newgrounds y agradecía a la gente que pagaba los costos del servidor. Me prometí que cuando estuviera establecido y tuviera dinero extra, yo también aportaría para los siguientes, y aunque me tomó más tiempo del esperado, llevo casi 10 años haciéndolo
      Por eso me gusta recomendar que normalicemos esa cultura. Una estructura donde haya cierto porcentaje de clientes de pago, para poder mantener lo gratuito para quienes no pueden pagar o para sostener el crecimiento. Es muy probable que decenas de miles de carreras en programación y animación hayan empezado o al menos se hayan inspirado en sitios excelentes como Newgrounds, y creo que el efecto neto para la sociedad fue muy positivo
    • La documentación de OpenStack tuvo un problema parecido en Google
  • Viendo el keynote de ayer y los cambios en Search, parece claro que en un futuro cercano Google dejará de enviar tráfico a los sitios web
    Los resultados de búsqueda solo serán notas al pie de las respuestas de Gemini

  • Los wikis son de alto riesgo desde la perspectiva SEO
    Hacer que mi wiki personal lograra indexarse fue tan difícil que casi me di por vencido, y solo lo conseguí porque un amigo más familiarizado con esto me ayudó a dejar toda la configuración necesaria en su lugar
    Si no tienes cuidado, la gente puede meter spam fácilmente por todo el sitio, y eso sí destruye de verdad tu presencia en buscadores
    Dicho eso, Google es realmente enorme. Enorme, enorme. Tan enorme que ni siquiera la gente dentro de Google es totalmente de confianza para Google en temas como este
    Aun así, no es que Google odie a los wikis en general. Solo que hay mucho trabajo por hacer: verificar que no haya spam en el wiki, completar la información de metadatos, tener un sitemap.xml y varias cosas más. Aquí está el ejemplo de mi wiki: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...