The General Index - Publican gratis el índice de n-grams de un millón de journals

El investigador Carl Malamud publicó un índice de n-grams extraído con SpaCy de 107,233,728 journals, incluyendo artículos de pago
Como es un índice que no incluye el texto completo, sino solo fragmentos de entre 1 y 5 palabras, evita las restricciones de copyright
Fue publicado gratis en el archivo web para que pueda usarse en diversos campos de investigación

→ Ej.) cuántas veces se ha usado una sustancia química específica en artículos académicos

Está compuesto por 3 tablas

→ 350 mil millones de n-grams y IDs de journals

→ 19.7 mil millones de palabras clave e IDs de journals

→ ID del journal y metadatos: título del artículo, autor, DOI (identificador único del artículo)

El catálogo es un archivo comprimido de 5 TB y ocupa 38 TB al descomprimirse

1 comentarios

xguru 2021-10-28

Artículo de presentación de Nature

Giant, free index to world’s research papers released online https://www.nature.com/articles/d41586-021-02895-8

Parece que evitaron de una forma particular el problema de los derechos de autor al publicar solo el índice y no el texto completo real.

Como también dice el artículo de Nature, el único punto problemático sería cómo Carl consiguió originalmente los papers de pago para generar el índice, y no tanto que este índice en sí se use para investigación.

Esto me hizo pensar en Aaron Swartz... y de hecho también está mencionado al final del material.

Vean también el video del discurso que dio Carl Malamud en el Aaron Swartz Memorial.

https://www.youtube.com/watch?v=VllJDnMcTzM

The General Index - Publican gratis el índice de n-grams de un millón de journals

Lecturas relacionadas

1 comentarios