-
El investigador Carl Malamud publicó un índice de n-grams extraído con SpaCy de 107,233,728 journals, incluyendo artículos de pago
-
Como es un índice que no incluye el texto completo, sino solo fragmentos de entre 1 y 5 palabras, evita las restricciones de copyright
-
Fue publicado gratis en el archivo web para que pueda usarse en diversos campos de investigación
→ Ej.) cuántas veces se ha usado una sustancia química específica en artículos académicos
- Está compuesto por 3 tablas
→ 350 mil millones de n-grams y IDs de journals
→ 19.7 mil millones de palabras clave e IDs de journals
→ ID del journal y metadatos: título del artículo, autor, DOI (identificador único del artículo)
- El catálogo es un archivo comprimido de 5 TB y ocupa 38 TB al descomprimirse
1 comentarios
Artículo de presentación de Nature
Parece que evitaron de una forma particular el problema de los derechos de autor al publicar solo el índice y no el texto completo real.
Como también dice el artículo de Nature, el único punto problemático sería cómo Carl consiguió originalmente los papers de pago para generar el índice, y no tanto que este índice en sí se use para investigación.
Esto me hizo pensar en Aaron Swartz... y de hecho también está mencionado al final del material.
Vean también el video del discurso que dio Carl Malamud en el Aaron Swartz Memorial.