Исследователь Кавел Литару, из Джордтаунского университета, собрал каталог из 250 миллионов событий произошедших в мире с 1979, который ежедневно обновляется и доступен каждому желающему кто хочет его изучить.
Каждая запись набора имеет 58 атрибутов. А сам набор делится на 300 различных категорий. На настоящий момент каталог имеет объем 100 Гб, а хостером является Goolge.
Чтобы провести анализ пользователь может скачать весь набор или интересующую его категорию, или же использовать Google BigQuery прямо на сайте.
База автоматически пополняется из многих источников новстей со всего мира. Все они обрабатываются с помощью различных алгоритмов text maning'a и геокодирования, созданными Литару, а затем заносятся в базу. Кроме того автор отмечает, что в связи с последними успехами в обработке естественных языков, в скором времени увеличится доля не англоязычных источников.
VIA GIGAOM
Автор: kuznetsovin