Недавно появилась новость о том, что в США запущена программа сбора данных о пешеходах рекламными щитами с целью определения их целевой аудитории. Сразу же началась дискуссия об этичности сбора GSM-данных и о том, какие именно будут утекать приватные данные. Я же хочу совершенно не в русле этого обсуждения рассказать немного об истории вопроса и о том, как можно собранную тем или иным способом информацию об уличной толпе использовать во благо города и его жителей.
Начнём с самого начала. Методы анализа пешеходного трафика появились ещё в прошлом веке, а вместо данных вышек GSM использовали бесплатную рабсилу студентов, которые в рамках курсовых работ исписывали и исчерчивали графиками тысячи листов в клеточку, в полосочку и А4. Только вот проблема, все люди такие разные, и занимаются на улице все своими частными непонятными делами. Такие разрозненные сведения неудобно обрабатывать, да и где ловить значимые закономерности, и будут они они одинаковыми в разных случаях?
Как унифицировать данные о неорганизованной массе народу? Самый простой вариант — отбросить те самые “приватные данные”, которые так дороги их хозяевам. Например, можно использовать методику советского учёного А. В. Крашенинникова: ориентироваться на плотность людей на территории (горизонтальная ось) и интенсивность их движения (вертикальная ось). Получится вот такая “диаграмма средового поведения”, на которой найдётся место любому виду деятельности людей:
Эти четыре квадратика так, для примера, они не имеют друг к другу отношения. В реальной же ситуации получаются более сложные и узнаваемые картинки:
Удивительно, но даже имея всего два параметра, можно составить “портрет” места, понять, чего от него хотят люди, удовлетворяет ли их окружение, и что стоит изменить. Форма, размеры пространства, препятствия для видимости или прохода влияют на графики очень сильно: разные места привлекают разных людей и стимулируют разную деятельность. Такие схемки по возможности используются при реконструкции старых кварталов, а для проектирования новых — разработанные на их основе управляющие пространственные паттерны.
На нынешнем уровне обработки информации без труда можно добавить ещё 2 параметра: пол и возраст. Закодируем пол формой отметки на диаграмме, а возраст — цветом. Портрет обычного двора может выглядеть как-то так:
Скорее всего, результатом “слежки” со стороны рекламных щитов будут примерно такие “портреты” городской среды вокруг них. Своеобразный быстро читаемый код, “ничего личного”. Легко обрабатывать и находить закономерности. И — в отличие от вездесущих QR-кодов — этот можно прочесть невооружённым глазом.
Если добавить пятый параметр — время — можно отследить, что в разные часы суток, дни недели, времена года одни и те же места привлекают разных людей. Этим занимается такая перспективная область науки как ритманализ. Есть и примеры практического использования ритманализа, например, калифорнийский Санта-Крус внедрил программу, которая составляет маршрут для патрульных машин, основываясь на статистике преступлений по улицам с учётом дней недели, времени суток, футбольных матчей по ТВ и т.д. Есть примеры подобного и на данных сотовой связи. Да и вообще, прогнозирование преступлений нынче — очень популярная область.
Карта прогноза правонарушений в Санта-Крусе.
Любопытно, что изначально одним из применений методики Крашенинникова было как раз улучшение криминогенной обстановки в жилых районах: разработанный им алгоритм позволял находить привлекательные для асоциальных граждан места и “перекодировать” их. Впрочем, во времена, когда компьютеры были большими, а программы — маленькими, предложенная им программа так и не была написана. Вручную же анализировать вполне можно, но долго и занудно. К тому же, данных, которые можно получить с карты, зачастую недостаточно: люди очень любят «переиначивать» неудобные пространства, используя их не по назначению, а чтобы это выяснить, нужно долговременное прямое наблюдение. Но не всё же издеваться над бедными студентами? На сегодняшнем этапе развития техники появилась возможность автоматизировать и эту часть работы, например, анализируя видеозаписи или ориентируясь на данные сотовой связи.
Построенная вручную карта зон социального контроля одного крупного квартала на сетке 25х25 м. Красота, можно на стенку вешать. Классик абстракционизма Пит Мондриан одобряет.
Если есть возможность оперировать данными GSM-вышек, можно отслеживать уже не статические “срезы”, а динамические “треки”, и результаты становятся интереснее. Например, в дублинской лаборатории IBM Research написали алгоритм анализа трафика людей, пользующихся общественным транспортом, который был обкатан на примере 4,5-миллионного города Абиджан и позволил улучшить транспортную ситуацию, сократив время ожидания и поездки в среднем на 10% для всех жителей. Информацию с декабря 2011 года по апрель 2012 года собрал и предоставил для научных исследований оператор Orange. База включает 2,5 млрд. записей и очищена от любой персональной информации.
На верхнем рисунке — время ожидания на остановках, на нижнем — загруженность маршрутов.
В общем, не так страшен чёрт, как его малюют: значимые положительные результаты тотальной слежки действительно существуют. Конечно, рекламные компании сейчас претендуют на роль мирового зла и уже подбираются к критическому уровню, описанному Э. Гриффитом в его “Слушайте, слушайте”, Г. Каттнером в книге “День не в счёт”, Ф. Полом в “Торговцах Венеры” или Р. Расселом в “Комнате”. Конечно, геомаркетинг уже никуда из нашей жизни не денется, но есть и вероятность того, что собранные рекламными щитами данные станут общественным достоянием, как и в случае с Абиджаном, и тогда каждый, придумавший новый алгоритм анализа, сможет испытать его, узнать что-то новое о лице города — и даже изменить его выражение к лучшему.
Автор: Rikkitik