2 puntos por GN⁺ 2024-12-01 | 1 comentarios | Compartir por WhatsApp
  • Como ya no es posible esperar de forma estable tráfico web de medios proveniente de Google y Facebook, incluso los medios independientes operados con austeridad están viendo tambalear su base de supervivencia
  • Google introdujo un ranking basado en machine learning para mejorar la calidad de búsqueda, pero ha sido criticado porque el spam generado por LLM logra pasar mientras los blogs y sitios pequeños quedan relegados en los resultados
  • Uno de los asistentes al Google Web Creator Summit 2024 dijo que había facturado 250 mil dólares el año anterior, pero que su tráfico cayó 97% y ahora depende de un banco de alimentos
  • Los asistentes al Summit contaron que Google les dijo que “el contenido no era el problema”, y que Danny depuró ejemplos con el equipo de ingeniería, pero no logró encontrar por qué no aparecían
  • A medida que el sistema de ranking de búsqueda se convirtió en una caja negra difícil de entender incluso dentro de Google, esto llevó a críticas de que, bajo una posición monopólica, la caída en la utilidad del producto no se traduce de inmediato en resultados de negocio

El colapso del tráfico de los medios web independientes

  • “The End Of Independent Publishing And Giant Freakin Robot” anuncia el cierre de Giant Freakin Robot y afirma que, en los últimos dos años, cientos de editoriales independientes cerraron y miles más seguirán el mismo camino
  • Tras contactar a editoriales independientes de varios temas, la conclusión fue que a ninguna le está yendo bien y que la mayoría espera cerrar pronto
  • Se les comunicó el problema directamente a Google, pero el mensaje de vuelta fue que a Google no le importa, llegando incluso a expresiones como “nuestra industria se acabó”
  • Las empresas de medios web ya no pueden esperar de forma estable tráfico entrante desde Google o Facebook, y son muy pocas las que pueden sostenerse solo con el tráfico restante

Cómo el ranking de búsqueda se convirtió en una caja negra

  • El problema no se limita al fracaso de algunos sitios, sino que está vinculado al rumbo que tomó Google al usar machine learning para clasificar sitios con el fin de corregir los resultados de búsqueda
  • Según What we can learn from the Google creators summit for HCU impacted sites, el helpful content system era un sistema de machine learning que aprendía ejemplos buenos y malos para predecir a cuál se parecía más un caso no visto
  • Sin embargo, durante el último año Google Search ha sido criticado por dejar pasar mucho spam generado por LLM y por hacer que blogs y sitios pequeños desaparezcan de la mayoría de los resultados
  • Algunos sitios quedaron en la práctica excluidos por el modelo de machine learning, y nadie sabe con certeza la razón exacta
  • En I Drank the Kool-Aid at the 2024 Google Web Creator Summit, un asistente cuenta que, después de facturar 250 mil dólares el año anterior, su tráfico cayó 97% y ahora consigue comida en un banco de alimentos
  • El problema resalta aún más porque fueron invitados al Summit precisamente por ser personas que crean el tipo de contenido que Google dice querer ver en sus resultados
  • En una conversación en Twitter se compartió que Google dijo varias veces que “el contenido no era el problema” y que Danny llevó ejemplos de los asistentes para depurarlos con el equipo de ingeniería, pero no pudieron averiguar por qué no se mostraban
  • El algoritmo de búsqueda parece haberse convertido en una caja negra difícil de comprender incluso para los ingenieros de Google

Una estructura en la que el deterioro del producto no afecta el negocio

  • Esto también se relaciona con que especialistas en ML de Google advirtieron que los LLM podían volver el producto confuso y difícil de controlar, y que por eso debían evitarse
  • Si, por despidos masivos, se van las personas que entendían a fondo los sistemas internos, lo que queda puede convertirse aún más fácilmente en una caja negra
  • La razón de fondo por la que el deterioro continúa es que no afecta directamente el desempeño del negocio de Google; una empresa monopólica puede capturar el valor generado a su alrededor incluso si la utilidad de su producto disminuye
  • Considerando la situación política en Estados Unidos, esto lleva a la perspectiva de que los monopolios y oligopolios de la industria tecnológica se fortalecerán aún más, y que la productividad, el rendimiento y la efectividad reales de los productos importarán cada vez menos

1 comentarios

 
GN⁺ 2024-12-01
Opiniones de Hacker News
  • En el fondo, creo que empezó en el momento en que la gente de publicidad ganó la lucha de poder contra la gente del motor de búsqueda. Antes, la publicidad era un medio para financiar la creación de tecnología genial y, de paso, hacerse enormemente rico.
    Ahora es solo un medio para exprimir hasta la última gota de valor del sistema y hacer que los números suban para siempre, y la alta dirección de Google parece carecer por completo de visión o estrategia.

    • Me cuesta pensar en una sola cosa realmente impresionante que Google haya hecho en los últimos 15 años. La búsqueda llegó a su punto máximo alrededor de 2009; Maps se volvió más lento y con menos información, y pasó de mostrar todo lo que había en un lugar como antes a mostrar solo lo popular o lo pagado.
      Google Docs era sorprendente en 2006, pero casi 20 años después solo ha recibido algunas mejoras de usabilidad; y muchas de las demás cosas parecen haber sido cerradas, no haber sido especialmente innovadoras desde el inicio, o haber seguido de forma apática el trabajo de otros.
    • Suena como una sátira en la que el maximizador de clips informa avances constantes y alentadores en la tarea de convertir toda la materia disponible del sistema terrestre en clips, y ante la noticia la acción $PCLIP sube 20%.
    • Lo más importante es que el contenido sigue explotando, pero la atención humana total no aumenta. Entonces, ¿cómo logra la tecnología publicitaria generar más ingresos y vender más anuncios año tras año? Creo que la respuesta simple es fraude.
    • No veo cómo decir que ganó el lado de publicidad explica que los resultados de Google Search hayan empeorado. Los anuncios solo reciben vistas cuando la calidad de la búsqueda es alta y la gente no se va con competidores.
      La publicidad puede llenar los resultados patrocinados de arriba, pero no afecta los resultados orgánicos. Si “ganó el lado de publicidad” significa que aumentaron los espacios patrocinados, eso solo significa que aumentaron los espacios; no explica la calidad de los resultados orgánicos.
    • Si antes la publicidad era un medio para financiar la creación de tecnología genial, hay que preguntarse qué es ahora la publicidad. Si la “tecnología” que recibe financiamiento es en realidad la entrega de publicidad a través de redes de computadoras, es dudoso que eso sea tecnología genial.
      Si no lo es, entonces esa tecnología genial podría ser solo un señuelo para atraer a las personas objetivo de los anuncios, es decir, un componente de la tecnología del servicio publicitario. También me pregunto por qué no vender o licenciar esa tecnología, en lugar de contratar personal de publicidad.
  • Como dijo Morgan, me llamó la atención que Danny se sentara en una sala con el equipo de ingenieros y preguntara, con ejemplos, “¿por qué no aparece esta gente?”, y que ellos siguieran el procedimiento de depuración pero no pudieran encontrar la causa.
    Mientras tanto, una persona en Suecia, con una sola máquina de escritorio en su sala, creó un motor de búsqueda lo bastante bueno como para cambiarme a él a menudo cuando Google falla. Hoy uso Kagi, que tiene prioridades y listas de bloqueo, pero los resultados son buenos por defecto, así que no uso esas funciones.
    Aunque Kagi está construyendo su propio índice, durante mucho tiempo fue más bien algo que revendía resultados de Google+Bing envueltos en su propia capa, y aun así era mucho mejor; eso es interesante.
    Hay dos posibilidades. O Kagi tiene un sistema muy inteligente que lee y reordena las primeras decenas de resultados, o, más probablemente, mediante acceso por API evita el “expansor de consultas y dispositivo de embrutecimiento” del lado de entrada de Google y la etapa de personalización del lado de salida, e interactúa directamente con el núcleo de Google Search que todavía funciona.
    Con “dispositivo de embrutecimiento” me refiero a un pipeline que cambia obscure-js-lib por well-knowm-js-lib-with-kind-of-similar-name, de nombre parecido, o que, si buscas mat-table de Angular, decide que quieres una mesa con tapete sin relación con Angular.

    • Ese dispositivo de embrutecimiento también convierte búsquedas como SmartOS o Illumos en Solaris, haciendo que solo aparezcan resultados irrelevantes.
    • Operar un motor de búsqueda pequeño puede traer una ventaja incorporada: los expertos en optimización para motores de búsqueda no intentan manipular sus resultados.
    • Es como si al buscar exactly-this-thing.py en Google te respondiera: “Quisiste decir sorta-related.js. Aquí está”. Sale natural reaccionar con: “¿Acaso tartamudeé?”.
    • Según las FAQ de Kagi, “los resultados de búsqueda también incluyen llamadas API anonimizadas a los principales proveedores de resultados de búsqueda del mundo”, así que no parece depender por completo de su propio índice.
    • Me da curiosidad saber cuál es ese motor de búsqueda sueco.
  • No me queda claro exactamente a qué problema se refiere el autor. No queda claro si es que algunos sitios construyeron su modelo de negocio sobre los resultados de búsqueda, si Google cambió el algoritmo de búsqueda y no le gustan esas prioridades, o si es otro problema
    Esperar que Google nunca haga experimentos con el algoritmo es un tanto irracional y, en esencia, se acerca a un juego de suma cero. Quien gana hoy puede perder mañana
    Si lo que preocupa es el reparto de ingresos, el tráfico entrante o la colocación de anuncios, no es muy sensato construir un negocio cuyo éxito dependa por completo de los caprichos de otra empresa
    Creo que la búsqueda está siendo reemplazada poco a poco por los grandes modelos de lenguaje y que, como durante años fue gamificada mediante la optimización para motores de búsqueda, se está volviendo cada vez peor como forma de descubrir contenido
    Para descubrir contenido encaja mejor un modelo en el que comunidades con intereses similares, como Hacker News, encuentren cosas colectivamente, o uno basado en curaduría. Si el curador o la comunidad se apartan de tus intereses, hay que buscar otros, pero curiosamente eso también puede hacerse dentro del mismo marco

    • ¿Qué opciones hay si esa otra empresa es un monopolio? El ascenso de Google prácticamente mató todas las demás fuentes de tráfico
      Antes, los sitios web recibían tráfico de webrings, directorios y varios motores de búsqueda pequeños; ahora casi todo viene de Google o sus propiedades, y en menor medida de Meta. Los modelos de descubrimiento basados en curadores y comunidades son víctimas de Google, no la solución
    • La teoría es que, a medida que se fueron agregando capas de optimización basadas en aprendizaje automático a la búsqueda, esta se volvió casi imposible de depurar
      Dicho de otro modo: Google lanzó 1000 experimentos que aumentaban la tasa de clics en 0.2% y parecían inofensivos, y el resultado fue un sistema que solo parece querer mostrar enlaces de Reddit y Quora
      Vi esta idea varias veces en la sección privada de Blind de Google, normalmente acompañada de conversaciones sobre cómo el responsable de búsqueda anterior a 2020 se preocupaba por resultados así y adoptaba un enfoque más cuidadoso
      Como exempleado de Google que salió en octubre de 2023 y que no trabajaba en el equipo de búsqueda, me da la impresión de que fuera de Google esta teoría no se entiende bien. Las únicas excepciones que recuerdo son un par de posts famosos de blogs cuyos nombres no recuerdo, pero que daban justo en el clavo
    • Me pregunto cómo podría escalar un modelo para encontrar contenido mediante comunidades con intereses similares o curaduría. Google procesa 8500 millones de búsquedas al día, y no parece escalable procesar 8500 millones de “Ask HN: ¿cuáles son los mejores recursos sobre X?”
    • En ese sentido, me gustaría que existiera una tienda curada de apps para Android. Que todavía no se pueda filtrar por apps sin publicidad dice mucho
    • Precisamente por la curaduría basada en comunidades es que todos los subreddits que tienen aunque sea una mínima relación con política o noticias están tan sesgados. Claro que no sé cuál es la alternativa; si la supiera, estaría construyendo ese sitio ideal en vez de hacer scroll en HN
  • Me pregunto si existe una lista de consultas en las que Google da malos resultados. Revisé mi historial de búsqueda durante unos minutos y la mayoría eran consultas simples, como nombres de personas, que Google manejó bien. A veces siento que para buscar personas Google es mejor que LinkedIn
    También comparé algunas consultas complejas con Kagi. Para “How much bitcoin does microstrategy own”, Google devolvió aquí el snippet correcto, mientras que Kagi solo enlazó artículos sobre cuánto había adquirido en los últimos días
    Para “how to pronounce stratchery”, Google mostró el snippet correcto del sitio de Stratechery, mientras que el primer resultado de Kagi era una entrada de spam con una pronunciación incorrecta y el segundo resultado era un tuit con la pronunciación correcta
    También recordé el artículo de Dan Luu (https://danluu.com/seo-spam/), pero al revisar mi historial de búsqueda vi que las consultas que él usa no representan en absoluto mis búsquedas cotidianas
    [0]https://www.forbes.com/sites/digital-assets/2024/11/29/micro...
    [1]https://stratechery.com/category/about/#:~:text=UPDATE%3A%20...
    [2]https://www.howtopronounce.com/stratechery

    • Lo que pasa es que ya cambiaste inconscientemente tu comportamiento de búsqueda para evitar las categorías en las que Google es pésimo
      Las reseñas de productos están llenas de basura de optimización para motores de búsqueda, es decir, listas “Top 10” de blog spam; y en temas de viajes, los anuncios ocupan una página entera antes de que aparezca cualquier resultado orgánico. Da tanta pereza que uno ni siquiera lo intenta, y al final solo quedan las consultas que todavía funcionan
    • Yo tenía la misma duda. Veo muchas quejas de que Google es horrible y está roto, pero, dejando de lado las cosas con las que todos los motores de búsqueda tienen dificultades, en general parece funcionar bien
      Me pregunto si hay ejemplos concretos de algo difícil de encontrar con Google pero fácil con otro buscador
      Las estadísticas recientes de uso global son: Google 89.33%, Bing 4.15%, YANDEX 2.8%, Yahoo! 1.33%, Baidu 0.83% y DuckDuckGo 0.69%. Datos de octubre de 2024: https://gs.statcounter.com/search-engine-market-share
      Si Google es tan malo, me pregunto por qué la gente, incluyéndome, no hace clic en otros motores de búsqueda. Es una lástima que Giant Freakin Robot no reciba clics, pero eso es un problema distinto a decir que Google sea malo desde el punto de vista del usuario
      Hice clic en todos y todos funcionaron. Baidu aparece en chino, y cuando busqué The Sound of Music me dio resultados en chino que, según Google Translate, eran algo como “la monja y los siete niños traviesos”, lo cual me dio un poco de risa
  • Google pasó claramente de priorizar el valor para los clientes y para los creadores de contenido a priorizar indicadores clave de desempeño internos y opacos. Esto es aún más cierto para los creadores que para los anunciantes
    Después de cambiarme a DuckDuckGo hace unos años y a Kagi el año pasado, cada vez que vuelvo ocasionalmente a Google se nota con claridad lo perdidos que están
    Probablemente tarden otros 10 años en perder su dominio, pero las señales son claras. La inercia y la posición de mercado son lo único que todavía los mantiene en la cima. Mientras tanto, las generaciones más jóvenes casi no usan la búsqueda web, y la gente más técnica está abandonándola cada vez más rápido
    Desde el punto de vista de una startup, es algo prometedor. Google ya no es el gorila de 800 libras que viene a robarte el almuerzo, sino más bien un gigante muerto viviente esperando a que le cosechen sus componentes conceptuales

    • Después de cambiarme a Kagi y de sufrir además los cambios molestos de Google Search durante los últimos 2 años, me cuesta imaginar volver a Google
      Este año he ido a Google desde Kagi con !g apenas un puñado de veces, y cada vez me arrepentí de inmediato
      Hace unos años, cuando usaba DuckDuckGo, !g era algo instintivo, y probablemente la mitad de las veces sentía que los resultados de Google eran mejores. Mantenerme en DuckDuckGo se sentía idealista y la calidad parecía de segunda, pero con Kagi no pasa eso. Los 10 dólares al mes se pagan de sobra con la mejora de productividad
      Como Kagi también usa el índice de búsqueda de Google como una de sus fuentes, no es que Google no pueda mejorar técnicamente los resultados o la experiencia de usuario. Simplemente parece imposible a nivel organizacional
    • Si las generaciones más jóvenes casi no usan la búsqueda web, me da curiosidad saber qué hacen en su lugar. Quizás yo estoy un poco fuera de época
    • Los clientes de Google son los anunciantes. El cliente es quien paga, y el consumidor no es más que el producto
  • Había una advertencia de que uno de los resultados comunes de los despidos masivos es convertir los sistemas internos en cajas negras, porque se van todas las personas que los entendían a fondo
    Perder directamente a gente con conocimiento es algo real, pero no es la razón principal por la que estos sistemas se vuelven cajas negras
    Por cada persona con conocimiento que fue despedida, quedan unas veinte que se adaptan a la realidad de que su futuro en la empresa ahora es mucho más incierto. Esa adaptación varía según la persona, pero literalmente nadie dice: “¡Vaya, debería mejorar la documentación y compartir conocimiento para que sea más fácil despedirme!”

    • Cuando me fui, decidí empezar a documentar, y antes de avisar con 2 semanas de anticipación ya había dejado una documentación sólida. Durante el tiempo restante la pulí, y terminó siendo bastante buena
      Un mes después, la empresa me contactó para ofrecerme trabajo como contratista, pero lo rechacé. Durante el año siguiente, empleados me contactaron directamente para pedirme ayuda, y todo lo que les ayudé a resolver ya estaba documentado
      No creo que las empresas tengan una solución real para una transferencia de conocimiento adecuada. Por eso es interesante ver cómo despiden a la gente de forma improvisada, y terminan perdiendo mucho más que a un solo empleado
    • Es cierto que la gente crea silos de conocimiento con la idea equivocada de proteger su empleo, pero quiero señalar las consecuencias para quienes estén pensando en hacerlo deliberadamente
      Los silos de conocimiento no garantizan seguridad laboral. Al contrario: limitan la capacidad de ascender, de colaborar entre equipos, de adaptarse, de asumir otras tareas y de delegar; reducen la colaboración y la tasa de éxito de los proyectos, y también disminuyen el desempeño visible dentro de la organización. Hay muchas más razones por las que son malos no solo para la organización, sino también para el ingeniero individual que vive dentro del silo, y existen varios estudios al respecto
    • También vi el efecto contrario. Había casos de personas dentro de grandes organizaciones que intentaban hacer que los proyectos open source resistieran mejor los cambios organizacionales y los cambios de prioridades. Aun así, es cierto que los despidos tienen efectos secundarios
  • Yandex, es decir, el Google de Rusia, en la práctica se parece más al Google de 2006. En el sentido de que me muestra lo que yo quiero, no lo que los abogados de Google y la gente de SF encargada de los materiales de promoción quieren mostrar
    El contenido relacionado con asuntos internos de Rusia puede estar censurado, pero en mi uso queda bastante fuera de ese ámbito

    • Yandex solo es bueno cuando buscas en inglés. Porque no les interesa el mercado en inglés. Parece que solo les interesan los mercados de habla rusa y túrquica, y no recuerdo bien si también Vietnam
    • Yandex también está siguiendo la misma trayectoria. La búsqueda inversa de imágenes de Yandex antes encontraba sitios web que contenían la imagen, como hacía Google antes, pero ahora se convirtió en la misma basura de “imágenes similares”
    • ¿No era la mayor parte del Google de 2006 open source o conocida por papers públicos? Si es así, en EE. UU. también debería ser posible recrear Google y volver al PageRank básico
      No sé qué más impide crear un nuevo motor de búsqueda aparte de la escala y los servidores. Si lo que queremos es simplemente la búsqueda vieja y común que existía en 2006, parece reproducible
      Hay otros motores como DuckDuckGo, pero terminé entendiendo que en realidad se parece más a Bing. Entonces también me pregunto por qué Bing no domina si Google es tan malo. No es excelente, pero tampoco es tan malo
      Leyendo más, parece que Kagi está haciendo esto
    • Totalmente de acuerdo. Se siente como un internet alternativo donde Google siguió siendo genial
    • Uso DuckDuckGo como motor de búsqueda principal y Yandex como respaldo
  • Es un texto frío que muestra cómo Google fue destruido desde adentro
    https://www.wheresyoured.at/the-men-who-killed-google/

    • Incluso sin información interna, recuerdo la actualización de Google de fines de 2019. En ese momento realmente se rompió, y pasó de “no seas malvado” a ser completamente malvado
      En realidad ocurrió más tarde de lo que yo esperaba, pero parece un evento lo suficientemente claro como para que sus efectos sigan hasta hoy
  • Giant Freakin' Robot era un sitio agregador. Su “contenido” no es más que enlaces a otras páginas web y mucha palabrería al respecto. Parece que ahora Google reconoce los sitios agregadores y los posiciona más abajo
    Google en sí mismo es un sitio agregador, así que no tiene razón para enviar tráfico a otros agregadores. Ojalá también bajaran a sitios como Yelp

    • Al revisar rápidamente el sitio, a mí me parece que solo tiene enlaces al contenido original
  • Me da curiosidad para qué usan la búsqueda en internet las personas que llevan mucho tiempo usando la red. En mi caso, es una de tres cosas:
    Primero, sé en qué sitio web está la información y voy directo. Por ejemplo, Wikipedia, Github o Google Maps.
    Segundo, necesito opiniones o comentarios de personas reales, así que normalmente busco en Google solo dentro del dominio de Reddit.
    Tercero, necesito información conocida y fácil de verificar, y eso es algo que los modelos de lenguaje grandes hacen muy bien.
    Como esto representa más del 95% de mi actividad de “navegación”, creo que casi ni me daría cuenta si un motor de búsqueda importante se cayera algún día.

    • Eso no es usar internet, sino usar Reddit como un jardín amurallado. Si crees que una internet descentralizada tiene valor, es una forma peligrosa de hacerlo.