Últimamente se ven de vez en cuando casos de daños causados por tráfico excesivo proveniente de servicios conectados con LLM, así que en realidad también parece una medida que podría servir para ese tipo de situaciones. Por ejemplo, al ver la función de búsqueda web de ChatGPT y similares, por las características de su base de usuarios hay bastante margen para que se genere tráfico excesivo "no malicioso", y he oído que a esos casos se les puede filtrar fácilmente con una simple coincidencia de agente. Si esa es de verdad la intención, al final solo sería una forma de malgastar los costos de servidores de OpenAI (¿y su reputación?)..
Últimamente parece que Google no solo ha mejorado el rendimiento de sus modelos fundacionales, sino que también está haciendo un trabajo excelente al integrarlos con este tipo de servicios.
Estoy de acuerdo en que, ya sea el User-Agent que mencionas o la detección basada en IP de la que habla el texto original, como la información de identificación puede disfrazarse, es difícil determinar con certeza si algo es malicioso. Los bots realmente maliciosos probablemente se acercarían de forma más astuta.
Creo que, más que este tipo de ataques, sería un "empujoncito" más realista ofrecer una API de rastreo con limitación de carga, para permitir accesos automatizados legítimos mientras se protegen los recursos del servidor. jaja
Simplemente... es una locura... Incluso si lo pasan a pago, tiene una calidad por la que pagaría.
Al escuchar en formato de pódcast los temas que me interesan, termino prestando más atención y asimilando mejor la información.
Está buenísimo
Claro, como no es un lugar público, quizá solo lo publicó sin pensarlo mucho.
Igual que en una comunidad uno puede dejar un comentario sin pensarlo demasiado.
Como no puedo bloquear por completo a los rastreadores, lo ideal sería ni siquiera aceptar sus intentos, así que me dio curiosidad cuál era la intención detrás de provocar.
¿Cuál será el propósito de publicar un texto así?
No creo que realmente exista casi ninguna posibilidad de que las empresas que ejecutan crawlers lean esto y hasta decidan excluirlo.
Entonces, ¿para qué tipo de lectores fue escrito este texto?
¿Es un artículo introductorio para contarles a otras personas que también manejan blogs que existe este método,
o es una provocación de “mi blog está así de bien protegido, así que intenten rastrearlo si pueden”?
De verdad me da mucha curiosidad qué se gana con publicarlo.
Quizás solo se trata de que existe este tipo de método...
Guau... es impresionante... de verdad. Qué natural se siente.
Últimamente se ven de vez en cuando casos de daños causados por tráfico excesivo proveniente de servicios conectados con LLM, así que en realidad también parece una medida que podría servir para ese tipo de situaciones. Por ejemplo, al ver la función de búsqueda web de ChatGPT y similares, por las características de su base de usuarios hay bastante margen para que se genere tráfico excesivo "no malicioso", y he oído que a esos casos se les puede filtrar fácilmente con una simple coincidencia de agente. Si esa es de verdad la intención, al final solo sería una forma de malgastar los costos de servidores de OpenAI (¿y su reputación?)..
Y la información se entiende clarísimo...
No es una forma éticamente correcta. Tampoco es una solución de fondo.
¡Qué texto tan divertido! Es un método que no se me habría ocurrido, ¡gracias por compartirlo!
Oh~ lo espero con ganas.
Últimamente parece que Google no solo ha mejorado el rendimiento de sus modelos fundacionales, sino que también está haciendo un trabajo excelente al integrarlos con este tipo de servicios.
Vaya, esto está brutal;; una locura
https://freederia.com/researcharchive/
Es un sitio de científicos de IA.
Este tipo de enfoque impulsará aún más una mayor diversidad de direcciones.
Me hace sentido eso de que
cuando las recompensas invaden la autonomía de una persona, perjudican la motivación intrínseca.Estoy de acuerdo en que, ya sea el
User-Agentque mencionas o la detección basada en IP de la que habla el texto original, como la información de identificación puede disfrazarse, es difícil determinar con certeza si algo es malicioso. Los bots realmente maliciosos probablemente se acercarían de forma más astuta.Creo que, más que este tipo de ataques, sería un "empujoncito" más realista ofrecer una API de rastreo con limitación de carga, para permitir accesos automatizados legítimos mientras se protegen los recursos del servidor. jaja
Simplemente... es una locura... Incluso si lo pasan a pago, tiene una calidad por la que pagaría.
Al escuchar en formato de pódcast los temas que me interesan, termino prestando más atención y asimilando mejor la información.
Está buenísimo
Lo probé y de verdad está brutal....
Si tuviera que pagar por usarlo, creo que solo usaría este. Servicios parecidos seguro van a sentir el impacto.
Claro, como no es un lugar público, quizá solo lo publicó sin pensarlo mucho.
Igual que en una comunidad uno puede dejar un comentario sin pensarlo demasiado.
Como no puedo bloquear por completo a los rastreadores, lo ideal sería ni siquiera aceptar sus intentos, así que me dio curiosidad cuál era la intención detrás de provocar.
Wow, qué impresionante.
Es un blog personal, ¿acaso no puedo escribir cualquier cosa? 🤔
¿Cómo manejan los cambios de versión?
¿Cuál será el propósito de publicar un texto así?
No creo que realmente exista casi ninguna posibilidad de que las empresas que ejecutan crawlers lean esto y hasta decidan excluirlo.
Entonces, ¿para qué tipo de lectores fue escrito este texto?
¿Es un artículo introductorio para contarles a otras personas que también manejan blogs que existe este método,
o es una provocación de “mi blog está así de bien protegido, así que intenten rastrearlo si pueden”?
De verdad me da mucha curiosidad qué se gana con publicarlo.
Entonces, si determinan que es un bot por la IP, también le van a lanzar la bomba, jaja.
Se nota el enojo del autor, jaja.