Основная масса хранимых современными компаниями данных является неструктурированной, т.е. это данные, созданные сотрудниками компании, а не, скажем, базой данных или выгрузкой автоматического сервиса. При этом даже при идеально настроенной системе прав доступа к ресурсам нельзя гарантировать, что в отдельно взятой папке лежит действительно то содержимое, которое мы ожидаем там увидеть. Номера паспортов и кредитных карт в папке с договорами подрядчиков? Элементарно. Фоточки с без сомнения увлекательного отпуска на Гоа в папке бухгалтерской отчетности? Легко! Новинки кинопроката в каталоге для обучения сотрудников? Да запросто! Вы все еще удивлены?
Большинство наших клиентов уверены, что “а вот у нас” все с этим хорошо. Те же, кто сомневается, зачастую даже и не подозревают каков истинный масштаб бедствий. Когда после сканирования классификатора показываешь кучу конфиденциальных документов в лаконично названной папочке «!!! для васи» в главной шаре, представители отдела ИТ-безопасности начинают неуютно елозить у себя в кресле. А уж если находишь документ с премиями высшего руководства в открытом доступе… Да-да, бывало и такое.
Для выявления и предотвращения таких ситуаций как раз и необходима классификация данных. Ее можно настроить на работу как с метаданными (имя, тип, размер, дата создания файла и т.д.), так и с содержимым. Для начала требуется создать ряд правил, состоящих из набора фильтров, логических операций и регулярных выражений, а также указать расписание работы – ведь мы не хотим, чтобы анализ происходил в часы максимальной нагрузки на сервер. Для облегчения задачи в большинстве продуктов полнотекстового анализа уже существует набор предопределенных шаблонов, таких как соответствие PCI DSS, но реально все равно придется посидеть и подумать над фильтрами, максимально подходящими под решение конкретных бизнес-задач.
Среди стандартных правил, которые мы обычно настраиваем нашим клиентам, можно выделить поиск паспортных данных и кредитных карт, определение конфиденциальных данных и данных для служебного пользования, идентификацию аудио и видео записей, а также запускаемых файлов (софт). Многие этим не ограничиваются и уже самостоятельно добавляют поиск номеров СНИЛС, ИНН, бухгалтерской отчетности со сложными условиями и многое другое.
Окей, допустим данные мы классифицировали, что дальше? Конечно же, нужно привести все в порядок в соответствие с политиками безопасности: паспортные данные и кредитки спрятать подальше от любопытных глаз, личные фотографии – удалить, фильмы – закачать обратно в интернет упразднить, а с создателем папочки для Васи – провести воспитательную беседу. Для удобства можно воспользоваться результатами соответствующих отчетов, которые наглядно покажут, что конкретно и насколько часто встречается в ваших файлах, и где эти файлы находятся.
Звучит неплохо, но проблему с рецидивами и новыми случаями это все равно не решит. Для этого уже стоит настроить оповещения на случай обнаружения новых файлов, попадающих под настроенные правила классификации, – так мы оперативно узнаем о нарушении политик без необходимости проведения периодических «уборок». Зачем все делать вручную, если это поддается автоматизации? Но к сожалению, администраторы не всегда реагируют достаточно оперативно на присланные сообщения, поэтому для минимизации рисков можно эти новые обнаруженные файлы переместить сначала автоматически в карантин, а уже потом проводить разбор полетов. Быстро, удобно и безопасно.
В результате можно получить понимание структуры и полноценный контроль над распространением данных внутри организации, определить виновников нарушений политик безопасности и автоматически принимать меры по минимизации рисков при возникновении новых случаев. Мы считаем, что классификация данных является слишком важным элементом контроля неструктурированной информации, чтобы его можно было просто игнорировать, так как без него просто невозможно быть уверенным, что данные находятся именно там, где они и должны находится.
Автор: Alexandra_Varonis