В сентябре прошлого года я сообщал о намерении сотрудников открытого вики-проекта «Циклопедия» начать восстановление данных, удалённых в русской Википедии. До того момента было произведено скачиывание удалённых статей, картинок, шаблонов и некоторых представляющих интерес страниц на независимые хранилища.
Поскольку Циклопедия — энциклопедический проект, мы сохраняем там не всякий спам или самопиар пользователей контакта, но статьи о реальных людях, событиях, компаниях. Для начала выборка статей была произведена определённому алгоритму.
Например, восстановлены многие статьи о вымышленной вселенной «Вавилон-5». Список всех залитых статей можете прочитать на специальной странице.
По пояснениям программистов бота, алгоритм был следующим.
* Статьи с таким названием нет в Википедии (т.е. она не была воссоздана в виде отдельной статьи — только как перенаправление);
* Текст страницы превышает размером 1 Кб — это минимальная гарантия ценности страницы;
* В комментарии к удалению страниц нет одного из ключевых слов наподобие «вандализм» или «нарушение авторских прав», которые показывают, что страница вероятнее всего не представляет никакой ценности.
Бот отработал прошлой осенью, обеспечив примерно 100 тысяч удовлетворяющих этим условиям статей.
В начале этого года был наконец запущен бот заливки. Он взрыл и вздолбнул Циклопедию — и в неё поступило более 2 тысяч удалённых статей из русской Википедии. На подходе ещё как минимум несколько тысяч небезынтересных статей. Их полный список вы можете прочитать по ссылке выше. При этом данными статьями не исчерпывается уникальный контент Циклопедии: есть множество статей о фразах, песнях и, например, знаковых кинофильмах.
В статьях есть шаблоны, категории и картинки.
Автор: cryptocoryne