1 puntos por GN⁺ 2023-12-23 | 1 comentarios | Compartir por WhatsApp

No es posible resumir el contenido de esta solicitud. El contenido proporcionado del artículo es el mensaje de error "403 Forbiddennginx", que no corresponde al contenido real del artículo, sino a un código de estado HTTP que indica falta de permisos de acceso. Esto suele ocurrir cuando el servidor web entiende la solicitud, pero no tiene autorización para ejecutarla.

Opinión de GN⁺

  • El error "403 Forbidden" es un problema familiar para desarrolladores web y administradores de sistemas, y puede producirse por una configuración de permisos o del servidor incorrecta.
  • Este mensaje de error significa que el servidor rechazó el acceso cuando el usuario intentó entrar a una parte específica del sitio web.
  • Este tipo de errores está estrechamente relacionado con la seguridad web y cumple una función importante al evitar que los usuarios accedan a información sensible sin los permisos adecuados.

1 comentarios

 
GN⁺ 2023-12-23
Opiniones de Hacker News
  • Este es un método de muestreo muy ingenioso, y aplaudo a los autores. Cuando trabajaba en Pew, intentamos mapear YouTube con una exploración aleatoria a través del endpoint de "videos relacionados" de la API, y después de un año parecía que habíamos llegado a un estado de saturación. Sin embargo, el tamaño descrito aquí sugiere que existe una larga cola que pasa por debajo del radar. Poco después de que publicáramos nuestra investigación, Google comenzó casi de inmediato a bloquear la API, pero me alegra ver que la gente sigue impulsando investigaciones mediante scraping a la vieja usanza. Nuestro análisis se hizo a nivel de canal y solo se centró en canales populares, pero es interesante que algunas cifras de TubeStats sean bastante cercanas a lo que encontramos nosotros (por ejemplo, la distribución por idioma).

    • Elogio al ingenioso método de muestreo y comentario sobre una experiencia similar de investigación en Pew
    • Reacción positiva a que la investigación continúe mediante scraping, a pesar de que Google restringió el acceso a la API
    • Mención de similitudes entre su propia investigación y los datos de TubeStats
  • Esto es interesante como un método de ataque mitigado para el problema del tanque alemán. La solución óptima sería ampliar el espacio de direcciones para evitar que una muestra aleatoria recopile los datos necesarios para llegar a conclusiones estadísticamente significativas. Seguramente habrá otras buenas soluciones, pero una muestra verdaderamente aleatoria limitaría ese tipo de enfoque.

    • Referencia al problema del tanque alemán y propuesta de ampliar el espacio de direcciones para impedir la recolección de datos
  • Recomiendo revisar el dataset de "YouTube Dislikes". Ese dataset se creó como un esfuerzo de archivado para recolectar información antes de que se eliminara la función de dislike. Con él se pueden encontrar los videos más controvertidos, los videos principales descritos en ciertos idiomas, etc.

    • Información sobre las posibilidades de análisis usando el dataset de YouTube Dislikes
  • Intenté averiguar cuántos datos tiene YouTube, pero no encontré esa cifra. Suponiendo una duración promedio de video de 500 segundos, un bitrate de 400 KB/s y tomando como base 1.3 mil millones de videos, calculé 2.7 exabytes. Eso es una estimación por debajo de lo necesario en almacenamiento, considerando que YouTube guarda los videos populares en varios datacenters y los almacena en formatos VP9 y AV1. Es posible que YouTube comprima los videos poco populares o los transcodifique bajo demanda desde otros formatos, lo que podría hacer que la estimación sea alta, pero no lo creo.

    • Estimación de la cantidad de datos de YouTube y especulación sobre su forma de almacenamiento
  • Google solía preguntar sobre los problemas de escalado de YouTube para algunos puestos. A menudo eso terminaba derivando en preguntas de complejidad big-O sobre sincronizar datos de logs en una infraestructura distribuida en crecimiento. El resultado era una función big-O(f(n)) demasiado compleja como para poder explicarla. Era divertido.

    • Mención de problemas de escalabilidad de YouTube basada en una experiencia de entrevista en Google
  • El sitio web complementario de los resultados de este artículo es: TubeStats.org

    • Enlace al sitio web relacionado con el artículo
  • Demasiado grande. Anoche me llegó una notificación para actualizar la app de YouTube en mi teléfono. El problema es que esa es la última versión que puede ejecutarse en mi teléfono. Al menos la web todavía funciona.

    • Experiencia personal sobre el tamaño de la app de YouTube y problemas con las actualizaciones
  • Este dataset es divertido. El paper da una impresión un poco equivocada sobre las estadísticas de canales: si no se reajusta el conteo de suscriptores para corregir la tendencia del muestreo, entonces habría que ponderarlo con ~1/# de videos por canal, ya que la probabilidad de que aparezca un canal dado es proporcional al número de videos públicos de ese canal.

    • Explicación sobre una posible interpretación errónea del dataset respecto a estadísticas de canales y el método de muestreo
  • ¿La función de muestreo asume que todos los "códigos de región" contienen la misma cantidad de números disponibles? En algunos sitios grandes (por ejemplo, Twitter, etc.), los shards que tienen los datos más solicitados pueden ser mucho menos densos. Por ejemplo, el código de región donde está Justin Bieber tendría menos números. Esto podría distorsionarse bastante.

    • Cuestionamiento sobre el método de muestreo y observación sobre cómo las diferencias de densidad entre shards de datos específicos pueden afectar los resultados
  • Esto es de lo mejor que he visto. Redditmap.social

    • Expresión de admiración por un sitio web específico