¿Qué tan grande es YouTube?
(ethanzuckerman.com)No es posible resumir el contenido de esta solicitud. El contenido proporcionado del artículo es el mensaje de error "403 Forbiddennginx", que no corresponde al contenido real del artículo, sino a un código de estado HTTP que indica falta de permisos de acceso. Esto suele ocurrir cuando el servidor web entiende la solicitud, pero no tiene autorización para ejecutarla.
Opinión de GN⁺
- El error "403 Forbidden" es un problema familiar para desarrolladores web y administradores de sistemas, y puede producirse por una configuración de permisos o del servidor incorrecta.
- Este mensaje de error significa que el servidor rechazó el acceso cuando el usuario intentó entrar a una parte específica del sitio web.
- Este tipo de errores está estrechamente relacionado con la seguridad web y cumple una función importante al evitar que los usuarios accedan a información sensible sin los permisos adecuados.
1 comentarios
Opiniones de Hacker News
Este es un método de muestreo muy ingenioso, y aplaudo a los autores. Cuando trabajaba en Pew, intentamos mapear YouTube con una exploración aleatoria a través del endpoint de "videos relacionados" de la API, y después de un año parecía que habíamos llegado a un estado de saturación. Sin embargo, el tamaño descrito aquí sugiere que existe una larga cola que pasa por debajo del radar. Poco después de que publicáramos nuestra investigación, Google comenzó casi de inmediato a bloquear la API, pero me alegra ver que la gente sigue impulsando investigaciones mediante scraping a la vieja usanza. Nuestro análisis se hizo a nivel de canal y solo se centró en canales populares, pero es interesante que algunas cifras de TubeStats sean bastante cercanas a lo que encontramos nosotros (por ejemplo, la distribución por idioma).
Esto es interesante como un método de ataque mitigado para el problema del tanque alemán. La solución óptima sería ampliar el espacio de direcciones para evitar que una muestra aleatoria recopile los datos necesarios para llegar a conclusiones estadísticamente significativas. Seguramente habrá otras buenas soluciones, pero una muestra verdaderamente aleatoria limitaría ese tipo de enfoque.
Recomiendo revisar el dataset de "YouTube Dislikes". Ese dataset se creó como un esfuerzo de archivado para recolectar información antes de que se eliminara la función de dislike. Con él se pueden encontrar los videos más controvertidos, los videos principales descritos en ciertos idiomas, etc.
Intenté averiguar cuántos datos tiene YouTube, pero no encontré esa cifra. Suponiendo una duración promedio de video de 500 segundos, un bitrate de 400 KB/s y tomando como base 1.3 mil millones de videos, calculé 2.7 exabytes. Eso es una estimación por debajo de lo necesario en almacenamiento, considerando que YouTube guarda los videos populares en varios datacenters y los almacena en formatos VP9 y AV1. Es posible que YouTube comprima los videos poco populares o los transcodifique bajo demanda desde otros formatos, lo que podría hacer que la estimación sea alta, pero no lo creo.
Google solía preguntar sobre los problemas de escalado de YouTube para algunos puestos. A menudo eso terminaba derivando en preguntas de complejidad big-O sobre sincronizar datos de logs en una infraestructura distribuida en crecimiento. El resultado era una función big-O(f(n)) demasiado compleja como para poder explicarla. Era divertido.
El sitio web complementario de los resultados de este artículo es: TubeStats.org
Demasiado grande. Anoche me llegó una notificación para actualizar la app de YouTube en mi teléfono. El problema es que esa es la última versión que puede ejecutarse en mi teléfono. Al menos la web todavía funciona.
Este dataset es divertido. El paper da una impresión un poco equivocada sobre las estadísticas de canales: si no se reajusta el conteo de suscriptores para corregir la tendencia del muestreo, entonces habría que ponderarlo con ~1/# de videos por canal, ya que la probabilidad de que aparezca un canal dado es proporcional al número de videos públicos de ese canal.
¿La función de muestreo asume que todos los "códigos de región" contienen la misma cantidad de números disponibles? En algunos sitios grandes (por ejemplo, Twitter, etc.), los shards que tienen los datos más solicitados pueden ser mucho menos densos. Por ejemplo, el código de región donde está Justin Bieber tendría menos números. Esto podría distorsionarse bastante.
Esto es de lo mejor que he visto. Redditmap.social