Не так давно, 25 октября 2012 года, Internet Archive (archive.org) объявил о том, что объем архивированных из Интернета сайтов превысил 10 петабайт (10 240 терабайт). Но как и где это все храниться?
Узнать некоторые подробности, а также увидеть само хранилище, Вы сможете благодаря нашему небольшому обзору. Так как Хабрасторедж временно не работает, мы были вынуждены загрузить изображение на сервер ua-hosting.com.ua. Надеюсь, что выдержим, если нет — не пинайте сильно, позже изображения загрузим как надо :)
Для хранения столь большого объема данных специально для Интернет-архива был разработан PetaBox. PetaBox — сторедж-решение от Capricorn Technologies, которое было разработано сотрудниками Интернет-архива и C. R. Saikley для хранения и обработки 1 петабайта информации.
Спецификация:
— Вместимость: 650 терабайт / стойку;
— Потребляемая мощность: 6 кВт / петабайт;
— Нет кондиционирования, вместо этого избыточное тепло используется для обогрева помещений.
Используемая инфраструктура по состоянию на декабрь 2010 года:
— 4 дата-центра, 1300 нод, 11 000 жестких дисков;
— «Машина времени»: 2,4 петабайт;
— Книги / видео / музыка в коллекции: 1,7 петайбат;
— Всего хранится: 5,8 петабайт.
История создания
PetaBox (tm) специально разработан сотрудниками Интернет-архива для безопасного хранения и обработки 1 петабайта информации. Цели при разработке были такими:
— Низкая потребляемая мощность: 6 кВт на стойку, 60 кВт для всего кластера хранения;
— Высокая «плотность» размещения данных: 100+ ТБ / стойку;
— Использование локальных вычислительных машин для обработки данных (800 low-end PC’s);
— возможность использования нескольких ОС;
— Возможность размещения в стандартных 19” шкафах / стойках;
— Возможность размещение в транспортном контейнере 20х8х8 м;
— Простота обслуживания: один системный администратор / петайбайт;
— Программное обеспечение для автоматизации полного резервирования (зеркалирования);
— Легко масштабировать;
— Недорогая конструкция;
— Низкая цена хранилища.
История
Первая 100 ТБ стойка европейского архива начала свою работу в июне 2004 года. Вторая стойка на 80 ТБ начала функционировать в Сан-Франциско в том же году. Интернет-архив затем создал компанию Capricorn Technologies, которая специализировалась исключительно по разработке и внедрению PetaBox.
В период 2004-2007 гг. Capricorn Technologies делает реплики PetaBox для крупных академических институтов, государственных учреждений и других предприятий. Их крупнейший продукт использует 750-гигабайтные диски. В 2007 году центр обработки данных Интернет-архива хранит около 3 петабайт информации при помощи технологии PetaBox.
Сейчас используется четвертая версия PetaBox, главные спецификации которой: 24 диска на 4U-единицу оборудование, 10 таких единиц оборудования в стойке под управлением Ubuntu, 240 дисков по 2 ТБ в одной стойке.
Интернет-архив в контейнере
Ну и в завершение, хотелось бы обратить внимание на транспортный контейнер, который был разработан SAN для Интернте-архива. Вместительность контейнера 20х8х8 метров позволит сохранить всю библиотеку конгресса США 55 раз!
Автор: HostingManager