INTERNETARCHIVE.BAK: проект по архивации данных сервиса Internet Archive

в 12:19, , рубрики: archive team, Internet Archive, архивация архивов, информационная безопасность, Накопители, Настольные компьютеры, облачные сервисы, метки: , ,

INTERNETARCHIVE.BAK: проект по архивации данных сервиса Internet Archive - 1Команда сервиса Archive Team решила запустить в работу новый проект: архивирование данных, которые сейчас хранятся на серверах сервиса Internet Archive. Основная идея, которую озвучивают авторы проекта — сохранение важнейшей информации, которая сейчас хранится только в одном месте — в ДЦ Internet Archive. Если что-то случается с дата-центром этой организации, бесценная информация просто теряется.

Стоит отметить, что этот рекурсивный проект действительно может иметь практическое значение, кроме того, реализовать его не так и сложно. Дело в том, что, по оценкам Archive Team, объем всей информации, которая хранится на серверах Internet Archive, относительно невелик — 21 петабайт данных. 20 петебайт — это 42 тысячи 500 ГБ винчестеров, которые сейчас не слишком дороги. Кроме того, есть и диски объемом в 1, 2, 6 и даже 8 ТБ.

При этом сервис не планирует закупать все 42 тысячи винчестеров и создавать новый дата-центр для хранения всей этой информации. Вместо этого авторы предлагают создать распределенную систему, которая позволила бы хранить информацию по частям на компьютерах пользователей, которые согласились бы участвовать в проекте. При условии участия большого количества пользователей, информацию можно (и нужно) дублировать, снижая вероятность какого-либо глобального глюка, который может привести к уничтожению уникальной информации.

По замыслу, пользователи, решившие присоединиться к проекту, устанавливают соответствующее программное обеспечение, и дают доступ к определенной части своего файлового пространства (на ПК, ноутбуке или внешнем диске), которое будет использоваться «пауком», сохраняющим информацию с Internet Archive. При этом есть условие — свободный участок файлового пространства не должен быть зашифрован, и должен быть открыт для бота системы.

Раз в три месяца нужно будет запускать клиентскую часть программы для верификации хранимых данных: на Internet Archive информация обновляется и добавляется постоянно, поэтому архив не может быть статичным. Если есть изменения, программа добавляет/изменяет файлы на жестком диске пользователя. Если же клиента не запускать в заданные промежутки времени, то через определенное время такой участок данных будет помечен распределенной системой, как устаревший, и он будет потерян для системы.

Чем больше пользователей будет подключаться к системе, тем вероятность утери такого участка данных будет ниже.

Сейчас структура системы еще обсуждается, и авторы проекта открыты к обсуждению. Вероятные способы реализации проекта разделены на несколько пунктов:

Автор: marks

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js