¿Qué tan grande es YouTube?

(ethanzuckerman.com)

1 puntos por GN⁺ 2023-12-23 | 1 comentarios | Compartir por WhatsApp

Sin un denominador para dimensionar toda la plataforma, incluso resultados de investigación sobre desinformación o el impacto de las recomendaciones pueden perder contexto, por lo que el equipo buscó estimar el tamaño total de YouTube mediante una muestra aleatoria
Los IDs de video de YouTube tienen 11 caracteres y el espacio de direcciones posible es de 2^64, así que encontrar videos válidos probando URLs aleatorias de forma simple es casi imposible
El equipo recolectó más de 10 mil videos realmente aleatorios durante varios meses usando un método de “drunk dialing” y técnicas de optimización, y estima que actualmente hay unos 13.325 mil millones de videos en YouTube
El análisis de la muestra muestra que solo en 2023 se subieron más de 4 mil millones de videos, y que la mediana de reproducciones es de 39, lo que revela que la cola larga de YouTube es enorme
Tubestats quiere seguir actualizando esta estimación de escala, pero también persiste una limitación ética: no exponer URLs de videos que, aunque sean públicos, en la práctica casi no podían ser descubiertos

El problema del denominador que dificulta investigar YouTube

La investigación sobre redes sociales tiende a concentrarse en fenómenos visibles, como la desinformación o el discurso de odio, pero si no se conoce qué proporción ocupan dentro de toda la plataforma, es difícil juzgar su verdadera magnitud
- Por ejemplo, es posible contar resultados para búsquedas como “white genocide” o “ivermectin”
- El informe de Avaaz de agosto de 2020 sobre desinformación de COVID contabilizó 3.8 mil millones de reproducciones en un año, pero sin el denominador del volumen total de reproducciones de la plataforma es difícil saber si eso es mucho o poco
Reddit y Twitter sí ofrecieron durante un tiempo acceso a datos que permitían dimensionar la plataforma completa
- Reddit permitía que Pushshift recolectara todas las publicaciones, haciendo posible comparar el tamaño entre comunidades
- Desde que en el verano de 2023 se bloqueó el acceso público a Pushshift, Redditmap.social solo puede usar datos generados a inicios de ese año
- Twitter ofrecía, vía su API de investigación, una muestra de una décima o una centésima parte de todos los tuits, pero luego bloqueó ese acceso y empezó a cobrar mucho por un acceso más limitado

En YouTube es difícil obtener una muestra representativa

YouTube es una plataforma masiva usada por casi cualquier persona que usa internet
- Según Pew, 93% de los adolescentes usa YouTube
- Los servicios más cercanos son TikTok con 63% y Snapchat con 60%
Aunque existe una API documentada, no hay una buena manera de obtener una muestra aleatoria representativa de todo YouTube
La investigación previa sobre YouTube se ha apoyado principalmente en dos enfoques
- Recolectar y analizar todos los videos de canales de usuarios seleccionados
- Empezar desde un video específico y seguir recolectando los videos recomendados
Ambos enfoques pueden servir para investigaciones valiosas, pero son insuficientes para construir una muestra de todos los videos de YouTube o calcular el tamaño de la plataforma

“Drunk dialing”: probar URLs aleatorias

Jason Baumgartner propuso usar InnerTube, la API no oficial de YouTube, para intentar encontrar videos probando URLs aleatorias
El ID de video en una URL de YouTube es una cadena de 11 caracteres que aparece después de watch?v=
- En los primeros 10 caracteres pueden aparecer a-z, A-Z, 0-9, _, -
- El último carácter solo puede tomar uno de 16 valores
- El número de direcciones posibles de YouTube es de 2^64, unos 18.4 quintillones
Incluso si se asumiera que YouTube tuviera mil millones de videos, la probabilidad de que una URL aleatoria sea válida sería de aproximadamente 1 en 18.4 mil millones
El equipo llamó a este enfoque “drunk dialing”, y Jason Baumgartner encontró una vía indirecta para aumentar la eficiencia unas 32,000 veces
Kevin Zheng escribió un script de exploración y recolectó más de 10 mil videos de YouTube realmente aleatorios durante varios meses

El tamaño y la distribución de YouTube vistos a través de una muestra aleatoria

La estimación actual del tamaño de YouTube es de 13.325 mil millones de videos, y se actualiza cada pocas semanas en tubestats.org
La antigüedad de los videos aleatorios permite calcular la velocidad de crecimiento de YouTube
- Se estima que solo en 2023 se publicaron más de 4 mil millones de videos en YouTube
La distribución de reproducciones muestra una cola larga muy marcada
- La mediana de reproducciones de los videos de YouTube es de 39
- A YouTube le gusta recomendar videos con más de 10 mil reproducciones
- Los videos con más de 10 mil reproducciones son alrededor del 4% del dataset, pero concentran una gran proporción de las reproducciones totales de YouTube
Los videos aleatorios recolectados también se usan para estimar la distribución por idiomas
- Kevin Zheng conectó el script de búsqueda con varios sistemas de detección de idioma
- Esta estimación es defendible, aunque no perfecta

El método dash, más eficiente

La exploración por URLs aleatorias cubre todo el espacio de direcciones, así que puede usarse como referencia para verificar la aleatoriedad de otros métodos de muestreo
El equipo consideró que si otra forma de generar listas de videos arroja resultados similares a la exploración aleatoria, entonces puede verse como “plausiblemente aleatoria”
Un método descubierto por Jia Zhou y otros en 2011 funciona como una manera más eficiente de recolectar muestras
- Se genera una cadena de 5 caracteres con un guion en una de las posiciones
- El autocompletado de YouTube completa esa URL y devuelve videos coincidentes si existen
Kevin Zheng consulta actualmente YouTube de forma periódica con este dash method y mantiene el panel de Tubestats

Videos de cola larga y limitaciones éticas

La muestra aleatoria no solo sirve para estudiar a influencers exitosos, sino también para observar cómo usan las herramientas los creadores en la parte baja de la cola larga del contenido generado por usuarios
La mayoría de los videos recolectados fueron vistos apenas por unas decenas de personas
- Si se publicaran las URLs, videos que eran “públicos” pero prácticamente invisibles quedarían expuestos al escrutinio público
- Por eso el artículo académico no incluye la lista de URLs de los videos encontrados
Ryan McGrady lideró el trabajo de ver manualmente 1,000 videos aleatorios y codificarlos a mano
El artículo relacionado fue publicado en el Journal of Quantitative Description, y la presentación de los resultados de esa codificación manual está resumida en el texto de Ryan

Por qué quieren mantener Tubestats

El equipo planea mantener Tubestats en funcionamiento tanto como sea posible
Existe la posibilidad de que YouTube se oponga a este recurso o al método con el que se genera
Las grandes plataformas de contenido generado por usuarios son una parte importante de la esfera pública digital, por lo que deberían publicarse regularmente datos de alto nivel sobre qué hay en la plataforma, quién lo crea y a quién llega

1 comentarios

GN⁺ 2023-12-23

Opiniones de Hacker News

La forma en que tomaron la muestra es realmente ingeniosa, y aplaudo a los autores. Cuando estaba en Pew, intentamos mapear YouTube mediante una caminata aleatoria siguiendo el endpoint de "related videos" de la API de YouTube, y después de más o menos un año parecía que habíamos llegado al punto de saturación, pero viendo la escala que aparece aquí, parece que hay una cola larga bastante extensa por debajo del radar.
Apenas publicamos la investigación, Google empezó a cerrar la API casi de inmediato, así que me alegra que todavía haya gente que continúe este tipo de investigación con scraping a la vieja usanza. Nuestro análisis de entonces era a nivel de canal y se enfocaba solo en canales populares, pero también es interesante que algunas cifras de TubeStats sean bastante parecidas a las que encontramos. Por ejemplo, la distribución de idiomas: https://www.pewresearch.org/internet/2019/07/25/a-week-in-th...
- Considerando que los bots de Google rastrean la web sin parar y golpean sitios hasta casi matarlos, es bastante irónico que Google haya cerrado la API.
- Con este método también se pueden encontrar cosas como algunos videos públicos con acceso limitado que no están enlazados desde las recomendaciones.
- Esta técnica no es nueva. Es el método que usan los biólogos para contar cuántos peces hay en un lago.
  Capturan 100 peces, los marcan, esperan una semana y luego vuelven a capturar 100 para contar cuántos de esos están marcados.
- Creo que YouTube cerró la API después del escándalo de Cambridge Analytica.
Esta es una forma interesante de atacar una mitigación del problema de los tanques alemanes: https://en.m.wikipedia.org/wiki/German_tank_problem
La solución óptima probablemente sea agrandar el espacio de direcciones para que una muestra aleatoria no pueda reunir datos suficientes como para llegar a una conclusión estadísticamente significativa. Seguramente también haya otras buenas soluciones que intenten cambiar la distribución de varias maneras, pero si la muestra es verdaderamente aleatoria, las respuestas en esa dirección serán limitadas.
- No lo vi en el artículo, pero esto depende de la premisa de una distribución uniforme discreta. No sabemos qué trucos habrá hecho Google con los identificadores.
- No entiendo cómo una muestra aleatoria resolvería algo como una distribución agrupada. ¿La estimación no depende de un supuesto de continuidad?
  Por ejemplo, si las direcciones van de /v=0x00 a 0xff, pero en realidad solo se usan de f0 a ff, suponiendo que los videos están distribuidos aleatoriamente, ¿la estimación no estaría siempre sesgada?
  Es decir, sería como aplicar un filtro arbitrario al espacio direccionable y luego asignar direcciones. Una muestra aleatoria del mismo tipo se desviaría en la misma medida, pero no puedo conocer la escasez que apliqué con el filtro.
También vale la pena revisar el dataset de "YouTube dislikes": https://clickhouse.com/docs/en/getting-started/example-datas...
Se llama así porque fue un esfuerzo de archivado para recopilar información antes de que se eliminara la función de dislikes. Puede usarse para encontrar cosas como los videos más polémicos o los videos principales con descripciones en un idioma específico.
- YouTube es una plataforma tan grande y pública que casi funciona como un bien público, por lo que estadísticas como el número de dislikes son importantes.
  El artículo también dice: “YouTube podría oponerse a este recurso o al método usado para crearlo. Como contraargumento, creemos que estos datos de alto nivel deberían publicarse regularmente para todas las grandes plataformas de medios generados por usuarios. Estas plataformas son una de las partes más importantes de la esfera pública digital, y necesitamos mucha más información sobre qué hay en ellas, quién lo crea y a quién llega”.
  Los gobiernos deberían regular para que las plataformas expongan este tipo de estadísticas y las agencias estadísticas puedan recopilarlas.
- El autor de este comentario es el CEO de ClickHouse.
Quería saber cuántos datos tiene YouTube, pero no había una cifra. Haciendo un cálculo aproximado con las estadísticas disponibles, la duración promedio de un video ronda los 500 segundos.
Si tomamos un bitrate de 400 KB/s y 13 mil millones de videos, da 2.7 exabytes. Los 400 KB/s son un valor obtenido de algunos videos FHD de 24–30 fps que descargué directamente, así que es una estimación muy burda. YouTube seguramente codifica con bitrates más bajos las partes con menor cantidad de información percibida, y los videos tienen resoluciones y tasas de cuadros de todo tipo; además, esa distribución cambió a lo largo de la historia del servicio. Si asumimos que todos los videos son 4K con un bitrate de 1.5 MB/s, son 10 exabytes.
Esta estimación subestima el espacio de almacenamiento que necesita YouTube. Los videos populares se almacenarán en varios centros de datos, tanto en VP9 como en AV1. Por otro lado, si comprimen los videos poco populares o los transcodifican bajo demanda desde otro formato, esta estimación podría ser alta, aunque eso parece poco probable.
- Es muy probable que esa estimación de almacenamiento esté errada por un orden de magnitud.
  400 KB/s, los 3.2 Mbps que se usan comúnmente en codificación de video, es bastante bajo para calidad original FHD, es decir, para una carga en 1080p. La cifra de video 4K está bastante más cerca de una carga original promedio.
  A esto hay que sumarle que YouTube comprime, como mínimo, con dos códecs de video: H.264 y VP9. Para cada códec hay todas las resoluciones, desde 320p hasta 1080p o más, según la calidad de la carga original. Muchos videos populares y una buena parte de los videos 4K también se codifican en AV1. Algunos incluso tienen HEVC para videos envolventes de 360 grados. Leíste bien: YouTube tiene H.265 HEVC.
  Y nada de esto incluye replicación ni almacenamiento duplicado. No me sorprendería que el total supere fácilmente los 100 EB. Es el tamaño de 100 Dropbox de 2020.
- Por un lado, tampoco es “¿solo dos formatos?”. Hay más, como H.264, y también puede haber varias resoluciones. Además, puede que existan o hayan existido obligaciones contractuales de ofrecer cierta resolución en cierto formato.
  Por otro lado, puede haber muchísimos videos con una cantidad ridículamente baja de vistas. Y por otro lado más, hay que recordar que YouTube tuvo que crear incluso sus propios chips de transcodificación. Literalmente es complejo.
  Hace 10 años sabía la respuesta a esta pregunta y ayudé a la gente de almacenamiento a bajar costos. Hace unos días me enteré de que uno de ellos, R.L., falleció en febrero de este año. RIP.
- Están omitiendo el overhead de replicación y códigos de borrado. 10 exabytes, sinceramente, suena muy bajo. Hoy creo que estaría más cerca de 50–100 EB.
- En 2013, cuando hice el cálculo a partir de las cifras anuales reportadas de horas subidas por minuto, el contenido era de 375 PB y crecía 185 TB por día, con una tasa de crecimiento anual del 70%.
  Ese cálculo no incluía múltiples codificaciones ni almacenamiento de originales.
- También hay que considerar que YouTube guarda permanentemente una copia de la carga original. El original también podría ser un archivo más grande.
Hay un sitio vinculado como resultado de este artículo: https://tubestats.org/
Google solía hacer en algunas entrevistas laborales preguntas de escalabilidad relacionadas con YouTube. Por lo general terminaban en el problema de sincronizar datos de logs en una infraestructura distribuida en crecimiento, con resultados ridículos tipo Big-O(f(n)) que casi ni se podían explicar con palabras.
Fuente: tuve varias entrevistas en Google.
El autor escribió que usó “cheats”. Dependiendo de qué hagan, eso podría romper el supuesto iid de que las muestras son independientes e idénticamente distribuidas.
Si se parece al muestreo de bola de nieve, podría dar una tasa de éxito “excesiva” e inflar los números. Hay una parte que dice: “Jason encontró algunos trucos que hacen este método unas 32,000 veces más eficiente, así que nuestras ‘llamadas’ conectan con mucha más frecuencia”.
- Basta con leer el artículo hasta el final.
  Dice: “Fue descubierto por Jia Zhou y otros en 2011, y es mucho más eficiente que nuestro método ingenuo. Si creas una cadena de cinco caracteres en la que uno es un guion, YouTube autocompleta esa URL y, si existe, devuelve el video coincidente”.
- Es muy probable que la URL tenga una suma de verificación que permita detectar errores de tipeo sin acceder realmente al video.
  Aunque no se sepa cómo se genera la suma de verificación, se pueden probar todos sus valores para una muestra del espacio real de IDs.
- Ese truco probablemente use algo como una API de playlists que devuelve como resultados individuales si existe o no un video.
  Por ejemplo, llamas a una API para crear una playlist con los IDs x, x+1, x+2, ... y luego traes la lista; queda solo x+2, que es el ID asignado.
- Si la muestra estuviera sesgada, creo que los datos no se verían tan limpios. Si Google hubiera hecho algo interesante, probablemente no se habría quedado en una distorsión pequeña.
- Estoy de acuerdo.
  Para alguien principiante en estadística como yo, haría falta una prueba de que usar el truco y el autocompletado no rompe la independencia de las muestras y que el muestreo se mantiene lo más aleatorio posible.
  Si estás llamando borracho a números al azar y cada vez una persona, como operadora, te ayuda a conectarte con alguien aunque marques mal, eso no parece aleatorio.
  Dicho eso, no leí el paper de 85 páginas. Tal vez lo cubra ahí.
Es un dataset interesante. El paper deja una impresión un poco equivocada sobre las estadísticas de canales.
Según entiendo, al mirar la cantidad de suscriptores no reponderan para corregir el sesgo de muestreo. Si la muestra es una parte pequeña de la población total, la probabilidad de que aparezca un canal específico es proporcional a la cantidad de videos públicos de ese canal, así que habría que ponderar aproximadamente por 1/cantidad de videos por canal.
- Yo también noté eso. Que 1 millón de suscriptores sea el percentil 98 no suena muy verosímil; parece poco probable que no sea el percentil 99.999.
Para quienes tengan curiosidad, su método de estimación es más o menos así:
Suponen un rango de valores y una función de probabilidad justa que toma muestras de ese rango. El tamaño estimado es la tasa de aciertos multiplicada por el rango total de valores.
- Le di una mirada rápida al artículo y, si es así, hay bastantes supuestos.
  Supongamos que el rango de valores posibles es correcto. Si es algo como 10 caracteres dentro de cierto rango más 1, representa un enorme círculo de posibilidades donde podría haber videos.
  Lo importante es la distribución de los identificadores, es decir, de los videos válidos. Si YouTube aplicó restricciones o sesgos a los IDs que desconocemos, los IDs de videos que realmente existen podrían estar en un círculo más pequeño dentro de ese gran círculo de posibilidades, y no estar distribuidos uniformemente por todo el espacio. Podría haber clústeres. Entonces, para obtener la silueta de ese sesgo o ver si es más o menos aleatorio, habría que muestrear como lanzando dardos al espacio, por ejemplo con algo como una distribución de Poisson.
  Recién después se podría estimar el tamaño. ¿Eso es lo que están haciendo? ¿Y nadie simplemente le preguntó a YouTube?
Este método es realmente fácil de bloquear. Basta con devolver videos aleatorios para cierto porcentaje de identificadores inexistentes. Con mezclar un poco de aleatoriedad alcanza
Ese es justamente el riesgo de explicar el método
- Entonces parece que sería muy difícil implementarlo sin romper muchas invariantes en todo el sistema
  Por ejemplo, condiciones como que el ID de un video debe ser inmutable y que un video debe estar representado por un único ID de video
- Si de un ID generado al azar sale un video, basta con consultarlo de nuevo de inmediato y ver si es el mismo video que antes
  Si no es el mismo, se descarta ese resultado y se asume que el ID generado en realidad no existe. Si es el mismo, se puede saber que es un ID real
  Mientras la URL de un video de YouTube sea inmutable, este método puede resistir el bloqueo mencionado arriba
- Pero si YouTube no anuncia que hace algo así, no sabríamos si ese método quedó invalidado. Además, ese otro video tendría su propio UID existente, así que en teoría también podríamos saber si fue duplicado para interferir con esta medición
- También cuesta imaginar cómo sería depurar un error en producción en un sistema así
- ¿Los ID de video son secuenciales dentro del dominio disponible o están completamente dispersos? ¿Hay algo en común entre los ID de videos activos conocidos que facilite recorrer posibilidades a escala de quintillones?

¿Qué tan grande es YouTube?

El problema del denominador que dificulta investigar YouTube

En YouTube es difícil obtener una muestra representativa

“Drunk dialing”: probar URLs aleatorias

El tamaño y la distribución de YouTube vistos a través de una muestra aleatoria

El método dash, más eficiente

Videos de cola larga y limitaciones éticas

Por qué quieren mantener Tubestats

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News