Сколько пространства данных используется всеми научными статьями?

datascience.stackexchange https://datascience.stackexchange.com/questions/1058

  •  16-10-2019
  •  | 
  •  

Вопрос

Мне было интересно, есть ли какие -либо исследования или исследования для расчета объема пространства, используется всеми научными статьями. Это может быть в PDF, TXT, сжатом или любом другом формате. Есть ли даже способ измерить это?

Может ли мне одно из них подразумевать осознание этого исследования?

С уважением и спасибо.

Это было полезно?

Решение

Возможно, вы хотите количественно оценить количество FilePese, используемого конкретным подмножеством данных, которые мы будем называть как «академические публикации».

Что ж, чтобы оценить, вы можете найти статистику о том, сколько публикаций размещено во всех ведущих библиотеках (JSTOR, EBSCO, Academichost и т. Д.), А затем получить средний средний размер каждого. Умножьте это на количество статей и Whamo, вы получили себе оценку.

Вот проблема, хотя: файлы PDF хранят текст из строки s по -другому (по размеру), чем, скажем, текстовый документ хранит ту же строку. Аналогичным образом, сжатый JPEG будет хранить количество информации i иначе, чем не сжатый JPEG. Итак, вы видите, что у нас могут быть две из тех же статей, содержащих одну и ту же информацию i Но приобретать разные количество памяти m.

Вы хотите получить состав слов о количестве научной литературы?

Вы хотите получить приближение пространства файловой системы, используемого для хранения всего академически опубликованного контента в мире?

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top