Привет %username%! Хотел тебе показать и рассказать часть моего исследования расследования изучения мира сего, которое я рассказывал на конференции Zeronights 2014. Тема была о деанонимизации, но больше вопросов было именно по данным, поэтому я решил рассказать об этом отдельно.
Ну ты же в курсе, что сайты собирают данные о твоём посещении, откуда ты пришёл, куда ты уходишь, твои запросы, ip адреса? Вот ты помнишь, во сколько и какого числа ты искал.
Собственно, вот пример данных
Именно твоих, %username%. Если у тебя пустая страничка, возможно ты используешь плагины Ghostery, Adblock, Noscript — дай ссылку своему другу, надеюсь, ты удивишься.
Что это было?
Данные. Обычные данные о пользователях, которые собирают множество сайтов. Включают в себя поисковые запросы, браузеры, ip адреса, посещённые сайты. По ним строится возраст, пол, интересы. И это всего лишь один из примеров, который собрала одна из множества компаний.
Зачем эти данные третьим лицам?
Прежде чем показать тебе рекламу, про тебя соберут данные, куда ты ходишь и зачем, потом проанализируют их. Поймут твой примерный возраст, отнесут тебя к определённым интересам, определят платежеспособность. А ведь и правда, если я сижу на форуме велосипедистов — неплохо показать мне рекламу велосипедных аксессуаров, а не розовые трусики с ультра-современной резинкой из новой коллекции европейских модельеров.
Как собираются данные?
Ты заходишь на сайт жизньболь.lol.
Система присваивает тебе идентификатор, например — 0001 и создаёт cookie user=0001. Себе записывает:
15-43 27 марта с ip адреса x.x.x.x зашёл пользователь 0001, User-agent: Calculator 1.2, сайт жизньболь.lol
Потом он заходит на сайт голыепопки.lol, с сайта поиск.lol/?search=голые+но+не+смешные, тут можно создать сразу 3 записи.
20-43 27 марта с ip адреса x.x.x.x зашёл пользователь 0001, сайт поиск.lol/?search=голые,+но+не+смешные
20-43 27 марта с ip адреса x.x.x.x поисковой запрос «голые, но не смешные»
20-43 27 марта с ip адреса x.x.x.x зашёл пользователь 0001, сайт голыепопки.lol
Если на сайте 1 нет жучка, но ты переходишь по ссылке на сайт 2, передав referer, «система» уже будет знать, что ты был на обоих.
Ну это самый примитивный вариант. Только подобных данных в сотни, тысячи раз больше. По мимо этого собираются используемые устройства (правило трёх), твоё перемещение, остальное ты выставил на показ в социальных сетях.
Почему данных так много?
Потому что ими обмениваются. Представь, я крупная социальная сеть. А ты — магазин. Тебе выгодно знать, кто посещает магазин, ты не узнаешь без меня. И мне, чтобы показать рекламу, тоже выгодно знать. Так давай махнёмся неглядя?
Да это же персональные данные! Это незаконно!
Спорно. Информация обезличена. Является ли персональной информация о том, что пользователь с идентификатором 0001 зашёл на сайт жизньболь.lol? А то, что пользователь с идентификатором 0001 посещает голыепопки.lol по выходным? А то, что пользователь с идентификатором 0001 — имеет id53083705 на сайте vk.com? Где грань?
Так кто собирает эти данные?
Все. А кто имеет крупный ресурс, но не собирает — тот дурак. Это современность и никуда от этого не деться. Если ты владелец сайта — скорее всего ты тоже собираешь данные и отправляешь их дядькам, которые покажут тебе рекламу. Нет? Уверен?
А теперь пройдемся по основным источникам данных. Больше всего информации, как я считаю, у корпорации Google. Уверен, что она знает о тебе больше, чем ты сам.
Реклама
Вполне логично, что рекламные баннеры сами являются сборщиками информации.
Счётчики и аналитика
Например Яндекс.Метрика с функцией «Вебвизор» — это полноценный кейлоггер. Поставьте какой-нибудь приватный чат и Яндекс.Метрику и наблюдайте, что пишут пользователи. А счётчикам чисто функционально необходимо собирать данные.
Подключаемые шрифты, библиотеки, картинки
А ты ссылаешься на чужие ресурсы?
У меня суперплагин, который блокирует всё
Не всё. Как минимум — пропускает, как максимум — всё покупается и продаётся.
Я стираю cookie каждые 34 секунды, меняю user-agent и мою клавиатуру
Ну и ладно. Помимо cookie есть ещё куча способов закрепить за браузером пользователя уникальный идентификатор. И это уже используют.
Я вообще смотрю сайты через консоль
Не беда. Данные о посещённых тобой сайтах продадут провайдеры. Вот список провайдеров, данные которых можно купить через систему imaker, о которой уже писал ValdikSS
Хочешь стать сайтом-шпионом? Подключай счётчик на сайт и добро пожаловать в команду!
Я смотрю сайты через консоль, через соседский Wi-Fi, меняю Mac адрес, отключен flash, js, за double-vpn разных стран.
Поздравляю, теперь вы привлекаете к себе внимание! Правда, я не уверен, что заинтересованные в этом службы мониторят подозрительный трафик. И вообще, на месте заинтересованных в этом служб, я бы использовал деанонимизацию на практике :)
Что делать?
Обязательно прочитай, посмотри или послушай выступление Стива Рамбама на конференции Hackers On Planet Earth анонимности нет, смеритесь. Живи и радуйся жизни. Всё равно ничего не изменится.
Остальные примеры на слайдах
Автор: Bo0oM