Раньше было больше распространено так называемое долгосрочное архивирование, когда файлы, которые нужно было хранить по закону несколько лет, сбрасывались на ленты, кассеты при необходимости увозили в специальное хранилище. По праздникам, например, по случаю аудита, кассеты приезжали в офис, и с них доставались нужные файлы. С доступностью дисковых хранилищ появилась возможность организовывать архивирование не только для суперважных бухгалтерских или юридических документов, но и для простых смертных файлов, которые вроде как и удалять нельзя (вдруг пригодятся), но и место на быстрой хранилке под них тратить не хочется.
Такое архивирование обычно работает следующим образом: прописываются специальные правила архивирования (дата последнего открытия, редактирования, создания), и все файлы, которые попадают под эти правила, автоматически перемещаются с продуктивного хранилища в архив на более медленных дисках.
Сегодня как раз хочу рассказать про такой вариант архивирования на примере решения Commvault.
И сразу дисклеймер: архивирование не равно бэкапу
Как можно было уже догадаться, основной профит от архивирования – в экономии места на хранилке. Квартальные отчеты, которые нужны только при прохождении аудита, фотографии с позапрошлого новогоднего корпоратива – в общем все, что не нужно, переносится в архив, а не лежит балластом на основном хранилище. Так как в итоге файлов меньше, то и объем резервных копий с продуктива сократится, а значит и места под бэкапы нужно меньше.
Как правило, лицензии на архивирование стоят дешевле, чем на резервное копирование.
Пример: лицензия на резервное копирование условно стоит 100 долларов за 1 ТБ, а на архивирование – 70. У клиента есть сервер с 5 ТБ данных, который он полностью бэкапит и платит за это 500 долларов в месяц. После того, как он решил скинуть 4 ТБ в архив, под бэкап осталось 1 ТБ, т.е. 100 долларов в месяц. За архив он платит 4 ТБ х 70 долларов = 280 долларов. В итоге вместо первоначальных 500 долларов клиент платит 380, экономия 120. Умножаем на 12, получается на 1440 долларов меньше ежегодно.
Можно пойти дальше, и приплюсовать сюда стоимость освободившегося места на продуктиве за счет отъехавшего в архив, а также экономию благодаря дедупликации, которая тоже работает в архивировании. Многих такой расклад радует настолько, что возникает светлая мысль: а не заменить ли более дорогой бэкап архивированием. И вот тут начинаются проблемы.
Архивирование не равно бэкапу (что еще не бэкап, читайте здесь). От резервного копирования оно отличается тем, что никак не поддерживает версионность: в каком виде файл попал в архив, в таком он там и будет лежать. Второй момент: если с архивным хранилищем что-то случится, то без бэкапа или копии на вторую площадку судьба архива будет плачевна.
По сути они решают две разные задачи: архивирование – оптимизация места на продуктивном хранилище, бэкап – защита от потери данных.
Что полезного для архивирования есть у Commvault
В Commvault за архивирование отвечает тот же агент, что и за резервное копирование, – OnePass. В рамках одного задания часть данных уходит на бэкап, другая, подпадающая под правила архивирования, – в архив. Поэтому если уже бэкапите данные с помощью Commvault и решили познакомиться с архивацией, то не нужно устанавливать никаких дополнительных агентов.
OnePass работает следующим образом:
1. Если уже есть полный и инкрементальные бэкапы файлов, то рекомендуется сделать синтетический бэкап (synthetic full backup). В этом случае файл бэкапа соберется из последнего полного бэкапа и всех последующих инкрементальных и/или дифференциальных копий. Ресурсы исходного сервера при этом задействованы не будут.
2. После завершения бэкапа OnePass определяет файлы, попадающие под политику архивирования (archiving rules), и переносит их в архив (выделенное пространство на СХД или отдельную хранилку для архивов — это как вы решите).
Критерии, по которым OnePass решает отправить файл в архив, следующие:
- когда начинать удалять файлы в архив (в зависимости от наличия свободного места на диске);
- когда последний раз открывали файл;
- когда последний раз редактировали файл;
- время создания файла;
- размер файла.
Собственно тут все и настраивается.
3. Файлы, определенные в архив, или удаляются с продуктива совсем, или заменяются на своего рода ярлыки (stubs).
Во втором случае для конечного пользователя мало что изменится. Если бухгалтеру Марье Ивановне понадобится показать аудитору отчет пятилетней давности, то она просто кликнет на ярлык, файл снова переедет на продуктив и откроется как обычно. Небольшие файлы будут восстанавливаться из архива быстро: вордовский файл меньше МБ – несколько секунд. Если это какое-нибудь видео, то времени потребуется больше.
На продуктиве потревоженный файл останется до тех пор, пока снова не попадет под политику архивирования. До этого момента он будет уходить по заданию на бэкап.
Файлики с крестиками и есть те самые ярлыки.
Как и с бэкапом, у администратора есть возможность ограничить количество потоков на восстановление (throttling), чтобы система не прилегла под большим количеством запросов. Можно выставить настройки по количеству файлов на одновременное восстановление, задать интервалы между восстановлениями и пр.
Файлы, которые отправляются в архив, можно зашифровать и хранить их уже в таком виде.
После переноса на архивное хранилище приключения невостребованных файлов не заканчиваются. Для архивного хранилища также можно настроить правила, по которым сами архивы по прошествии времени будут удаляться (retention policy). Например, отчеты отмотали законные три года в архиве, а после автоматически удалились.
На тестовом диске с копиями документов отдела кадров, видео и фото со всяких корпоративов я попробовал применить следующие правила архивирования: файлы старше 0 дней, которые не менялись более 7 дней, размером более 1 МБ. Получилось следующее: до архивации объем данных на продуктиве – 391 ГБ, после – всего 1 ГБ.
Как понять, что отдать в архив
Чтобы определиться с тем, какие именно значения прописать по каждому параметру, в OnePass есть инструмент System Discovery and Archive Analyzer Tool (доступен для пользователей Commvault). Он просканирует файлы по времени последнего изменения, открытия и создания, а также по их размерам. Дальше всю эту сырую статистику можно отправить в Commvault и получить красивые графики и диаграммы, из которых наглядно видно, какие правила архивирования лучше прописать. Не самая удобная схема, признаюсь, но зато будет понятно, в каком направлении копать.
На графике показана статистика по давности изменений в файлах. Скриншот из документации Commvault.
А здесь собрана статистика по дате последнего открытия файла. Скриншот из документации Commvault.
Также делаются отчеты по размерам файлов и их формату. Но самый главный — это File Level Analytics Report. Он предложит правила архивирования, а также покажет, сколько места вы сможете сэкономить, если этими правилами воспользуетесь.
В отчете обещают, что если все файлы больше 10 МБ, не изменяемые больше 90 дней отправлять в архив, то сэкономится 3,85 ТБ. На расчет экономии в деньгах смотреть не стоит: стоимость 1 ГБ на диске почему-то оценивается ими в космические 10 баксов.
Автор: 5000shazams