Это логическое продолжение статьи "Построение графа социальной сети с помощью Drupal и Feeds"
Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.
В последние годы наблюдается стремительное увеличение влияния событий блогосферы на политические и социальные процессы в мире, в том числе, и на политическую жизнь нашей страны. Социальные сети являются площадкой активного обсуждения всех политических событий страны, формирующей общественное мнение, и, прежде всего, молодежи – тех, в чьих руках окажется судьба страны спустя 10-15 лет. Таким образом, все более очевидной становится необходимость разработки методик и алгоритмов исследования социальной коммуникации социальных медиа и особенностей их влияния на текущие политические события.
Исследование коммуникаций в социальных медиа проводилось в середине ноября 2011 года. В ходе исследования был проведен анализ октябрьских-ноябрьских дискуссий из Живого Журнала, касающихся предстоящих выборов в Государственную Думу 4 декабря.
В качестве платформы для апробирования методики мониторинга исследуемого сегмента социальных медиа была выбрана блог-платформа LiveJournal («Живой журнал»). Такой выбор обусловлен направленностью данной сети в первую очередь именно на ведение открытых публичных дискуссий: «Живой журнал» на сегодняшний день стал одной из основных площадок для «гражданской журналистики».
В процессе исследования было собрано более 1200 комментариев пользователей, количество ребер в ориентированном графе превысило 950. Период сбора информации – июль – ноябрь 2011 года.
Для анализа использовалась открытая программа Gephi, в которую был импортирован граф из предыдущей статьи.
Свойства вершин и ребер
Рисунок 1 – Граф после импорта
Промежуточность (betweenness) – число присутствия вершины в кратчайших путях между любыми другими вершинами. Проведенное исследование показало, что высокой степенью промежуточности обладает крайне небольшое количество узлов – всего 6 или около 0.5%. Это означает, что в политическом сегменте Рунета не наблюдается сложной разветвленной сети со множеством больших кластеров и сообществ. Как правило, пользователи-проводники информации имеют возможность передавать информацию, общаясь одновременно в 2-4 различных кругах политических мнений. При этом эти проводники информации не обладают большой влиятельностью на мнение сообществ, в которых состоят, поэтому затруднительно использовать их в информационных кампаниях в предвыборный период.
На рисунке представлен граф, в котором наибольшим размером и цветом теплых оттенков (зеленый, оранжевый и красный) выделены пользователи, обладающие наибольшей степенью промежуточности.
Рисунок 2 – Граф с выделенными вершинами с высокой степенью промежуточности
Распределение промежуточности в графе крайне неравномерное, большая часть вершин не обладает ей совсем.
Рисунок 3 – Граф с выделенными вершинами с высокой промежуточностью
В таблице, отсортированной по убыванию представлены конкретные никнеймы пользователей, обладающих соответствующей промежуточностью. Из достаточно известных людей можно отметить лидера – это В. Милов (v_milov), один из лидеров оппозиции.
Рисунок 4 – Пользователи с высокой промежуточностью
Центральность по собственному значению (eigenvector centrality) – рекурсивная характеристика важности вершины, получаемая из суммы важности связанных вершин. Исследование показало, что высокой центральность обладает А. Навальный, Г. Явлинский, С. Миронов, а из политических сообществ только ru_politics.
Рисунок 5 – Пользователи с высокой центральностью по собственному значению
Свойства скоплений
Степень кластеризации (транзитивности) – характеристика повышенной вероятности связи между вершинами A↔C, если A↔B и B↔C (друг моего друга – мой друг). Данная характеристика может указывать на то, что вершины, обладающие высокой степенью кластеризации комментируются людьми, которые их лично знают.
Рисунок 6 – Количество «треугольников» в графе
Свойства сети
Диаметр – максимальный кратчайший путь между любыми двумя вершинами (между которыми такой путь возможно проложить).
d=minmax Lij
Формула 1 – Определение диаметра
Диаметр полученного графа равен 2, что говорит об отсутствии цепочек коммуникационных взаимодействий между пользователями.
Распределение степеней (degree distribution) – график зависимости степени вершины от всего количества таких вершин в графе. Степени для текущего исследования рассчитывались исходя из стоящих задач. Для определения авторитетных пользователей применяется метрика входящих степеней (in-degree). Если вершина обладает высокой входящей степенью, значит данного пользователя часто и много комментируют, что в свою очередь означает высокую степень интереса к нему со стороны сообщества. Как правило, такие пользователи являются лидерами мнений и проводниками новых идей, которые вызывают активные дискуссии в обществе. Исследование показало, что распределение входящих степеней подчиняется степенному закону и резко убывает с ростом числа комментаторов. Так, лидерами являются пользователи, набравшие 60, 30, 18, 15 комментариев по заданным ключевым словам.
Рисунок 7 – Пользователи с высокой входящей степенью
Рисунок 8 – Распределение входящих степеней
Одним из наиболее ярких лидеров является А. Навальный.
Рисунок 9 – Распределение входящих степеней
Анализ выходящей степени в графе показывает, что, как правило, люди комментирующие лидеров мнений сами являются лидерами по количеству комментариев.
Рисунок 10 – Распределение входящих степеней
Среднее распределение степеней для всего графа равно 0,743, однако более интересна медиана, она находится в районе 2-4. Общее распределение степеней, как входящих, так и выходящих представлено на рисунке.
Рисунок 11 – Распределение входящих степеней
Взвешенная степень характеризует нормализованное распределение степеней в диапазоне от 1 до 100. Безоговорочными лидерами являются, А. Навальный, Г. Явлинский, сообщество ru_politics. Также в списке присутствуют экономист Хазин и движение Солидарность. Интересным результатом стало то, что в списке нет таких политиков и деятелей как Г. Зюганов, В. Жириновский, М. Прохоров что отчасти может объясняться тем, что основные дискуссии ведутся их сторонниками на других площадках, в частности официальных сайтах. Отсутствие Прохорова может объясняться также тем, что он теперь пишет не о политике, а сосредоточился как и раньше на бизнесе.
Также интересным результатом можно считать то, что в списке нет региональных политических сообществ, таких как politics_south (401 читатель) — Политика на Юге России, gorodgeroev_ru (281 читатель) — Политическая жизнь в Волгограде. Данные региональные сообщества, хотя и имеют читателей, не привлекают активных комментаторов. В сообществах ru_cprf КПРФ — политическая партия, ru_sps Союз правых сил, spravedliva_ru Справедливая Россия содержатся только тексты и перепосты, практически отсутствует политическая активность и дискуссии.
Основной вывод: как правило, активные дискуссии ведутся в журналах политических лидеров, но не в сообществах, которые оттого имеют несколько искусственный характер.
Рисунок 12 – Лидеры по взвешенной степени
Модулярность позволяет в структуре графа выявить сообщества или группы пользователей. В полученном графе можно выделить 4-6 небольших групп по выбранным ключевым словам.
Рисунок 13 – Группы в графе
Рисунок 14 – Сообщество А. Навального
Размеры наиболее крупных групп варьируются от 10 до 35 пользователей, см. рис.
Рисунок 15 – Распределение групп
Рисунок 16 – Класс модулярности
Кроме анализа структуры исследование позволяет сразу же ознакомиться с текстами записей пользователей-комментаторов. В таблице представлены ребра графа, каждому ребру соответствует заголовок и текст комментария. Это позволяет сразу проанализировать более точную тематику оставленных комментариев, оценить общую тональность сообщений.
Рисунок 17 – Вершины графа с текстами комментариев
Резюме: теперь, через год, когда мы знаем, как развивались события, видно, что подобное исследование с большое степенью точности может предсказывать реальную активность протестных лидеров на основании их активности в блогосфере.
Конечно, мы собрали немного данных, можно поспорить о репрезентативности выборки (собирались записи только по определенным запросам, созданным с помощью конструктора Яндекс поиска), нужно исследовать больше сетей, не только ЖЖ. Это в будущем.
Но уже сейчас наше исследование уникально в плане анализа графа, структуры сети. Насколько я знаю, исследования обычно строят графики вовлечённости, количественные характеристики (вроде кол-ва постов, кол-во на пользователя и т.п.), объем аудитории и др. Но никто не строит структуру графа, не просчитывает метрики, как это сделали мы. А ведь это позволяет в будущем отслеживать и динамику событий.
Автор: mechkladenets