13 puntos por xguru 2021-10-28 | 1 comentarios | Compartir por WhatsApp
  • El investigador Carl Malamud publicó un índice de n-grams extraído con SpaCy de 107,233,728 journals, incluyendo artículos de pago

  • Como es un índice que no incluye el texto completo, sino solo fragmentos de entre 1 y 5 palabras, evita las restricciones de copyright

  • Fue publicado gratis en el archivo web para que pueda usarse en diversos campos de investigación

→ Ej.) cuántas veces se ha usado una sustancia química específica en artículos académicos

  • Está compuesto por 3 tablas

→ 350 mil millones de n-grams y IDs de journals

→ 19.7 mil millones de palabras clave e IDs de journals

→ ID del journal y metadatos: título del artículo, autor, DOI (identificador único del artículo)

  • El catálogo es un archivo comprimido de 5 TB y ocupa 38 TB al descomprimirse

1 comentarios

 
xguru 2021-10-28

Artículo de presentación de Nature

Parece que evitaron de una forma particular el problema de los derechos de autor al publicar solo el índice y no el texto completo real.

Como también dice el artículo de Nature, el único punto problemático sería cómo Carl consiguió originalmente los papers de pago para generar el índice, y no tanto que este índice en sí se use para investigación.

Esto me hizo pensar en Aaron Swartz... y de hecho también está mencionado al final del material.

Vean también el video del discurso que dio Carl Malamud en el Aaron Swartz Memorial.