2 puntos por GN⁺ 2024-07-31 | 1 comentarios | Compartir por WhatsApp

Introducción a en.osm.town

  • en.osm.town forma parte de una red social federada basada en Mastodon
  • Es una comunidad independiente de la comunidad de OpenStreetMap y recibe financiamiento de la OpenStreetMap Foundation
  • Estadísticas del servidor: 257 usuarios activos

Puntos principales

  • Grant Slater propone a las empresas de IA que, en lugar de hacer scraping oculto de los datos de OpenStreetMap, donen $10,000
  • Con una donación de $50,000, incluso sería posible ofrecer actualizaciones en streaming en tiempo real
  • Bart Louwers menciona que el scraping de OpenStreetMap es algo común
  • wikiyu sostiene que usar los datos de planet.osm es más eficiente
  • Josua critica que la IA se está entrenando de formas ineficientes
  • Juan Luis menciona que en Read the Docs también está ocurriendo un problema similar de abuso por parte de rastreadores de IA
  • Simon Poole afirma que una solución razonable podría dañar la imagen de las empresas de IA
  • Michał plantea la posibilidad de que a contratistas de ciertos países se les haya asignado la tarea de descargar datos de OSM
  • leadingzero critica que los requisitos de la licencia de OSM no se están haciendo cumplir adecuadamente
  • Grant Slater menciona que creó un repositorio en GitHub para rastrear atributos de tiles
  • Guillaume Rischard menciona que recientemente resolvió un problema legal en Alemania
  • Adderall girl grindset (Jes) propone bloquear a los rastreadores de IA

Resumen de GN⁺

  • Este artículo aborda el problema de las empresas de IA que hacen scraping de datos de OpenStreetMap
  • Propone formas más eficientes de usar los datos de OpenStreetMap y un enfoque de acceso a los datos mediante donaciones
  • Se discute el problema del abuso por parte de rastreadores de IA y posibles medidas de respuesta
  • Proyectos con funciones similares incluyen Google Maps y Bing Maps

1 comentarios

 
GN⁺ 2024-07-31
Opiniones de Hacker News
  • Los rastreadores de IA ignoran robots.txt, no usan APIs públicas y no respetan la carga pico, lo que aumenta los costos de infraestructura
  • El presidente de la OpenStreetMap Foundation señala que los datos de OpenStreetMap pueden descargarse gratis en grandes volúmenes y recomienda usarlos en lugar de hacer scraping
    • El scraping impone una alta carga sobre recursos donados, y bloquear las IP que hacen scraping también requiere tiempo y esfuerzo
    • Respetar los recursos y el tiempo ayuda a mantener el servicio gratuito
  • Se puede configurar una instancia de OpenStreetMap en 10 minutos, y eso es posible con un simple comando docker run
    • La indexación toma tiempo, pero no tarda tanto en comparación con los recursos necesarios
  • Necesitaba datos de OSM, pero no entendía bien cómo obtenerlos
    • Hay que descargar un archivo enorme de 100 GB y usar formatos y bibliotecas poco claros
    • La información está dispersa, y la API HTTP es limitada o tiene restricciones de velocidad
    • Al final, usó un proyecto gratuito que ofrece datos de OSM ya preconvertidos
  • El OP respondió con sarcasmo después de limitar y bloquear rastreadores que hacían scraping agresivo del sitio web y de la API de mapas
    • Los datos de OpenStreetMap pueden descargarse gratis y se ofrecen mediante AWS S3 y torrent
    • Si estás empezando, conviene usar datos extraídos de una región pequeña
  • Si se sube planet.osm a torrent y se permite el scraping solo a través de torrent, se puede distribuir la carga de red
  • Es ineficiente que los rastreadores de IA soliciten todas las revisiones de todos los archivos a través de la interfaz web
    • Eso desperdicia electricidad y recursos
  • Se propone crear un honeypot para empresas de IA que genere contenido inútil en un bucle infinito
  • Es una lástima que proyectos como CommonCrawl no hayan eliminado la necesidad de que distintas empresas hagan scraping de los servidores
    • Esto se debe a que quieren visitar con más frecuencia o usan mucho dinero de VC para impresionar a los inversionistas
  • Hay preguntas sobre qué están scrapeando exactamente las empresas de IA de OSM