Descargar de forma responsable

(blog.geofabrik.de)

1 puntos por GN⁺ 2025-09-23 | 1 comentarios | Compartir por WhatsApp

La actualización de infraestructura del servidor de descargas de este mes permite una experiencia de descarga más rápida
La forma de solicitar archivos “...latest” cambió a una redirección HTTP
Se busca que todos los usuarios puedan acceder cómodamente a los datos más recientes de OSM
Los casos de uso anómalos que descargan repetidamente archivos grandes en exceso terminan degradando el rendimiento de todo el servicio
Se presentan tres recomendaciones concretas para realizar descargas eficientes y responsables

Actualización del servidor de descargas y recomendación de uso responsable

Este mes se llevó a cabo un refuerzo de infraestructura del servidor de descargas.
Gracias a esto, ahora es posible ofrecer las descargas más rápido y con mayor anticipación.
Como cambio técnico, al solicitar archivos “...latest”, en lugar del método anterior de entrega directa, ahora se guía al archivo de la versión más reciente mediante redirección HTTP

La necesidad de descargar de forma responsable

El servidor se opera para que todos los usuarios puedan acceder cómodamente a los datos más recientes de OSM (OpenStreetMap).
Sin embargo, hay casos en los que algunos usuarios descargan repetidamente el mismo archivo de gran tamaño (por ejemplo, 20 GB) cientos o miles de veces al día

Por ejemplo, hubo un caso en el que un usuario descargó el archivo italy-latest.osm.pbf casi 10,000 veces en 24 horas
Otros repiten la acción de descargar todos los archivos del servidor cada día

Este tipo de comportamiento provoca que todo el servicio se vuelva más lento debido a los límites de ancho de banda del servidor.
Si bloquear rangos de IP se vuelve inevitable, también podrían verse afectados usuarios sin relación con el problema

Tres recomendaciones concretas para quienes usan el servidor

Si necesitas datos de todo el mundo, se recomienda no descargarlos por partes desde este servidor, sino bajar el archivo planet de una sola vez desde planet.openstreetmap.org
Si quieres actualizar diariamente datos de un continente o de una región amplia (por ejemplo, Europe, North America), usa el programa pyosmium-up-to-date para descargar solo los cambios; así se reduce el tráfico total en un 98% y además es más rápido
Si usas scripts automatizados, es necesario monitorear qué se está descargando o incluir un manejo de errores adecuado para evitar fallos como la descarga infinita repetida del mismo archivo

Conclusión

Se pide la colaboración de todos para crear un entorno en el que cualquiera pueda usar datos actualizados de forma cómoda, mediante hábitos de descarga más responsables

1 comentarios

GN⁺ 2025-09-23

Opinión de Hacker News

Cada vez que veo un problema parecido me pregunto por qué no se usa más BitTorrent; estaría bien que fuera un protocolo base más común en más lugares, por ejemplo en registros de contenedores o repositorios de paquetes.
- BitTorrent tiene mala imagen ante el público; la mayoría simplemente lo asocia con descargas ilegales. La configuración del firewall es más complicada que con HTTP, y pedirle ese tipo de ajustes a un administrador de red puede hacer que te miren raro, sobre todo por el rechazo que existe hacia BitTorrent en sí. Los clientes de BitTorrent son mucho más complejos que los clientes HTTP y casi nunca están instalados en computadoras de trabajo o pipelines de CI; mucha gente solo quiere resolverlo con un simple comando curl. Hay muchísima confusión con la idea de que hay que hacer seed, y eso le da miedo a mucha gente. Al final, da pena que BitTorrent esté infravalorado solo por la imagen que tiene y porque con curl ya se resuelve todo. Hay casos como clientes de videojuegos que usan BT para las actualizaciones o PeerTube usando webtorrent, pero aun así sigue sin usarse tanto como podría.
- Decenas de empresas como Amazon, Esri, Grab, Hyundai, Meta, Microsoft, Precisely, Tripadvisor y TomTom ofrecen gratis datos de OpenStreetMap en formato Parquet sobre S3, lo que permite consultar y analizar solo la información deseada usando apenas MB de ancho de banda incluso en datasets de varios TB. Consulta más detalles. Los usuarios de ArcGIS Pro también pueden aprovechar este plugin.
- Recuerdo haber visto hace años la idea de “torrents con contenido dinámico”, pero en la práctica no terminó usándose. Quería que eso se hiciera realidad, así que me pregunto si había algún problema grave, como temas de seguridad. Enlace de referencia
- Creo que, frente a HTTP, a BitTorrent le faltó un “cliente universal” que funcionara en todos lados; no es algo familiar como SSH o SCP, y entre instalarlo, configurarlo y montar trackers requería bastante trabajo. Por lo general, esto solo tiene sentido si hay demanda frecuente de descargas de archivos grandes; si además consideras la confiabilidad y el volumen de seeders, al final todo se reduce a cuánto beneficio hay frente al costo de desarrollar y mantener las herramientas. No sé si algo como Git LFS ayudaría, pero hasta ahí llega lo que sé del tema.
- En una empresa donde trabajé antes teníamos que distribuir archivos grandes cada semana a todos los desarrolladores. Al principio todos los bajaban a la vez con rsync, casi a la fuerza, pero cuando cambiamos a BitTorrent la mejora de velocidad fue enorme.
Siempre agradezco que existan empresas como Geofabrik para que a veces podamos tener experiencias tan buenas. Cuando operas una API directamente, muchas veces te sorprende muchísimo la imprudencia o ignorancia de algunos desarrolladores; llegan solicitudes realmente extrañas con mucha frecuencia. Si alguien me lo hubiera contado sin haberlo vivido, habría pensado que estaba exagerando. Pero, por otro lado, también pasa que muchos desarrolladores de API no piensan en operaciones por lotes; la mayoría solo ofrece manipulación de una sola entidad, así que en casos de uso reales donde necesitas hacer varias operaciones no te queda otra que lanzar 700 requests.
- En cualquier profesión puede haber irresponsabilidad o ignorancia entre personas con poca experiencia. Estoy seguro de que no todos los desarrolladores se ponen a golpear APIs sin control. Programar ahora está abierto a todo el mundo, y últimamente además está la tendencia del “vibe-coding”, así que en cierto sentido siento que esto era inevitable. Si devuelves 429 (Too Many Requests) o aplicas un algoritmo de leaky-bucket, incluso desarrolladores junior o principiantes se darán cuenta rápido por sí mismos del problema.
- Me cuesta entender por qué la función “downloader pays” de S3 no se adopta más ampliamente; si existiera un modelo así también fuera de AWS, los usuarios ineficientes podrían asumir solo el costo que generan. La desventaja es que la gente sin sistema de pago tendría más difícil el acceso, pero quizá podría mantenerse una opción gratuita aunque con velocidad limitada.
- Dicen que hay usuarios que descargan archivos de 20 GB miles de veces al día; me pregunto por qué no simplemente controlarlo con rate limiting.
- Creo que hace falta más empatía de ambos lados: los clientes deben respetar la infraestructura, y los desarrolladores de API deberían pensar más ampliamente desde la perspectiva del usuario.
El caso de “un usuario descargó el archivo italy-latest.osm.pbf casi diez mil veces en 24 horas” probablemente se deba a un problema de código; esto se arregla poniendo límites por IP. Incluso si usa VPN, da igual.
Parece que la gente está descargando archivos de datos de mapas en pipelines de CI, muchas veces de forma involuntaria sin siquiera darse cuenta. Por eso muchos servicios terminaron prohibiendo las descargas automáticas para usuarios no registrados. Creo que si alguien quiere bajar archivos con cURL, primero debería pedírsele que se registre, y a quienes descargan en exceso se les debería bloquear o cobrar.
- Creo que CI es una de las peores invenciones en cuanto a desperdicio de recursos de cómputo, aunque no entiendo bien por qué con datos de mapas ocurren descargas masivas como si se abusara de una librería de código.
- Sospecho que quizá una web app está “consultando” archivos GPKG. El formato Parquet permite consultar eficientemente solo las partes necesarias, pero no sé si con GPKG se puede hacer lo mismo.
- Me pregunto si realmente se puede identificar de forma confiable las solicitudes que vienen de servidores de CI.
- Incluso una autenticación simple, por ejemplo con API key o correo electrónico, podría ser un buen punto medio.
Casos como “hay usuarios que descargan el mismo archivo de 20 GB cientos de veces al día durante varios días seguidos (e incluso uno lo descargó diez mil veces en 24 horas), y también hay gente que descarga todos los archivos del servidor cada día” parecen fáciles de frenar solo con rate limiting. Si ya están contando cuántas veces se descarga un archivo en 24 horas, me pregunto por qué no ponen un límite. No esperaría que esas personas (a) lean la advertencia del operador del servidor y (b) cambien su comportamiento.
Hace unos años pensaba: “ni de broma alguien va a descargar más de 100 MB cada vez desde un script de build”, pero después de conocer Docker me di cuenta de que esos casos son muchísimo más comunes de lo que creía.
- A veces ves casos en los que, apenas entra al contenedor, la gente actúa como si por arte de magia todo fuera gratis.
- Docker soporta caché por capas, así que ¿no debería evitarse bajar todo de nuevo cada vez?
- Por eso yo preparo una imagen específica del proyecto por adelantado y la uso solo en CI; estar configurando todo con apt-get en cada ejecución consume demasiado tiempo.
Me pregunto si les envían correos aparte a los usuarios que descargan demasiado. Cuando usaba la API gratuita de Nominatim en 2012, el correo era obligatorio y de hecho me llegó un mail pidiéndome que redujera el volumen de solicitudes usando caché y otras medidas.
- Si no hay inicio de sesión, entonces no tienes forma de obtener una dirección de correo y no puedes enviar ese tipo de mensajes.
Yo no soy ese usuario que descarga el archivo italy-latest cada 8 segundos, pero la startup italiana en la que trabajo usa bastante GeoFabrik, y es posible que alguien del equipo haya descargado demasiado haciendo experimentos con contenedores. Hace tiempo nos bloquearon en geofabrik y hasta hoy no sabemos por qué; espero que no vuelva a pasar. Intenté llamar y escribir al contacto de geofabrik.de, pero no obtuve respuesta. Si alguien sabe cómo resolver esto o cómo contactarlos, me gustaría que me lo dijera.
Tengo la impresión de que la gente que descarga archivos de manera excesiva así ni siquiera va a leer este tipo de entradas de blog.
Me parece un caso de uso ideal para bittorrent.
- Me pregunto cómo haría un cliente de torrent para traer automáticamente solo los cambios cuando los datos cambian.