Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года

в 17:28, , рубрики: data mining, drupal, gephi, анализ данных, веб-аналитика, граф социальной сети, метки: , ,

Это логическое продолжение статьи "Построение графа социальной сети с помощью Drupal и Feeds"

Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.

В последние годы наблюдается стремительное увеличение влияния событий блогосферы на политические и социальные процессы в мире, в том числе, и на политическую жизнь нашей страны. Социальные сети являются площадкой активного обсуждения всех политических событий страны, формирующей общественное мнение, и, прежде всего, молодежи – тех, в чьих руках окажется судьба страны спустя 10-15 лет. Таким образом, все более очевидной становится необходимость разработки методик и алгоритмов исследования социальной коммуникации социальных медиа и особенностей их влияния на текущие политические события.

Исследование коммуникаций в социальных медиа проводилось в середине ноября 2011 года. В ходе исследования был проведен анализ октябрьских-ноябрьских дискуссий из Живого Журнала, касающихся предстоящих выборов в Государственную Думу 4 декабря.
В качестве платформы для апробирования методики мониторинга исследуемого сегмента социальных медиа была выбрана блог-платформа LiveJournal («Живой журнал»). Такой выбор обусловлен направленностью данной сети в первую очередь именно на ведение открытых публичных дискуссий: «Живой журнал» на сегодняшний день стал одной из основных площадок для «гражданской журналистики».

В процессе исследования было собрано более 1200 комментариев пользователей, количество ребер в ориентированном графе превысило 950. Период сбора информации – июль – ноябрь 2011 года.

Для анализа использовалась открытая программа Gephi, в которую был импортирован граф из предыдущей статьи.

Свойства вершин и ребер

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 1 – Граф после импорта
Промежуточность (betweenness) – число присутствия вершины в кратчайших путях между любыми другими вершинами. Проведенное исследование показало, что высокой степенью промежуточности обладает крайне небольшое количество узлов – всего 6 или около 0.5%. Это означает, что в политическом сегменте Рунета не наблюдается сложной разветвленной сети со множеством больших кластеров и сообществ. Как правило, пользователи-проводники информации имеют возможность передавать информацию, общаясь одновременно в 2-4 различных кругах политических мнений. При этом эти проводники информации не обладают большой влиятельностью на мнение сообществ, в которых состоят, поэтому затруднительно использовать их в информационных кампаниях в предвыборный период.
На рисунке представлен граф, в котором наибольшим размером и цветом теплых оттенков (зеленый, оранжевый и красный) выделены пользователи, обладающие наибольшей степенью промежуточности.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 2 – Граф с выделенными вершинами с высокой степенью промежуточности
Распределение промежуточности в графе крайне неравномерное, большая часть вершин не обладает ей совсем.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 3 – Граф с выделенными вершинами с высокой промежуточностью
В таблице, отсортированной по убыванию представлены конкретные никнеймы пользователей, обладающих соответствующей промежуточностью. Из достаточно известных людей можно отметить лидера – это В. Милов (v_milov), один из лидеров оппозиции.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 4 – Пользователи с высокой промежуточностью
Центральность по собственному значению (eigenvector centrality) – рекурсивная характеристика важности вершины, получаемая из суммы важности связанных вершин. Исследование показало, что высокой центральность обладает А. Навальный, Г. Явлинский, С. Миронов, а из политических сообществ только ru_politics.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 5 – Пользователи с высокой центральностью по собственному значению

Свойства скоплений

Степень кластеризации (транзитивности) – характеристика повышенной вероятности связи между вершинами A↔C, если A↔B и B↔C (друг моего друга – мой друг). Данная характеристика может указывать на то, что вершины, обладающие высокой степенью кластеризации комментируются людьми, которые их лично знают.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 6 – Количество «треугольников» в графе

Свойства сети

Диаметр – максимальный кратчайший путь между любыми двумя вершинами (между которыми такой путь возможно проложить).
d=min⁡max⁡ Lij
Формула 1 – Определение диаметра
Диаметр полученного графа равен 2, что говорит об отсутствии цепочек коммуникационных взаимодействий между пользователями.
Распределение степеней (degree distribution) – график зависимости степени вершины от всего количества таких вершин в графе. Степени для текущего исследования рассчитывались исходя из стоящих задач. Для определения авторитетных пользователей применяется метрика входящих степеней (in-degree). Если вершина обладает высокой входящей степенью, значит данного пользователя часто и много комментируют, что в свою очередь означает высокую степень интереса к нему со стороны сообщества. Как правило, такие пользователи являются лидерами мнений и проводниками новых идей, которые вызывают активные дискуссии в обществе. Исследование показало, что распределение входящих степеней подчиняется степенному закону и резко убывает с ростом числа комментаторов. Так, лидерами являются пользователи, набравшие 60, 30, 18, 15 комментариев по заданным ключевым словам.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 7 – Пользователи с высокой входящей степенью

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 8 – Распределение входящих степеней
Одним из наиболее ярких лидеров является А. Навальный.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 9 – Распределение входящих степеней
Анализ выходящей степени в графе показывает, что, как правило, люди комментирующие лидеров мнений сами являются лидерами по количеству комментариев.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 10 – Распределение входящих степеней
Среднее распределение степеней для всего графа равно 0,743, однако более интересна медиана, она находится в районе 2-4. Общее распределение степеней, как входящих, так и выходящих представлено на рисунке.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 11 – Распределение входящих степеней
Взвешенная степень характеризует нормализованное распределение степеней в диапазоне от 1 до 100. Безоговорочными лидерами являются, А. Навальный, Г. Явлинский, сообщество ru_politics. Также в списке присутствуют экономист Хазин и движение Солидарность. Интересным результатом стало то, что в списке нет таких политиков и деятелей как Г. Зюганов, В. Жириновский, М. Прохоров что отчасти может объясняться тем, что основные дискуссии ведутся их сторонниками на других площадках, в частности официальных сайтах. Отсутствие Прохорова может объясняться также тем, что он теперь пишет не о политике, а сосредоточился как и раньше на бизнесе.
Также интересным результатом можно считать то, что в списке нет региональных политических сообществ, таких как politics_south (401 читатель) — Политика на Юге России, gorodgeroev_ru (281 читатель) — Политическая жизнь в Волгограде. Данные региональные сообщества, хотя и имеют читателей, не привлекают активных комментаторов. В сообществах ru_cprf КПРФ — политическая партия, ru_sps Союз правых сил, spravedliva_ru Справедливая Россия содержатся только тексты и перепосты, практически отсутствует политическая активность и дискуссии.
Основной вывод: как правило, активные дискуссии ведутся в журналах политических лидеров, но не в сообществах, которые оттого имеют несколько искусственный характер.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 12 – Лидеры по взвешенной степени

Модулярность позволяет в структуре графа выявить сообщества или группы пользователей. В полученном графе можно выделить 4-6 небольших групп по выбранным ключевым словам.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 13 – Группы в графе

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 14 – Сообщество А. Навального
Размеры наиболее крупных групп варьируются от 10 до 35 пользователей, см. рис.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 15 – Распределение групп

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 16 – Класс модулярности
Кроме анализа структуры исследование позволяет сразу же ознакомиться с текстами записей пользователей-комментаторов. В таблице представлены ребра графа, каждому ребру соответствует заголовок и текст комментария. Это позволяет сразу проанализировать более точную тематику оставленных комментариев, оценить общую тональность сообщений.

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
Рисунок 17 – Вершины графа с текстами комментариев

Резюме: теперь, через год, когда мы знаем, как развивались события, видно, что подобное исследование с большое степенью точности может предсказывать реальную активность протестных лидеров на основании их активности в блогосфере.
Конечно, мы собрали немного данных, можно поспорить о репрезентативности выборки (собирались записи только по определенным запросам, созданным с помощью конструктора Яндекс поиска), нужно исследовать больше сетей, не только ЖЖ. Это в будущем.

Но уже сейчас наше исследование уникально в плане анализа графа, структуры сети. Насколько я знаю, исследования обычно строят графики вовлечённости, количественные характеристики (вроде кол-ва постов, кол-во на пользователя и т.п.), объем аудитории и др. Но никто не строит структуру графа, не просчитывает метрики, как это сделали мы. А ведь это позволяет в будущем отслеживать и динамику событий.

Автор: mechkladenets

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js