Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

в 11:45, , рубрики: big data, анализ данных, веб-аналитика, Вконтакте, Вконтакте API, разработка, социальные сети

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 1
Рис.  3. – Книги каких авторов из рейтинга топ100 читают пользователи Вконтакте

Для всех диаграмм в статье есть интерактивные визуализации: graphgrail.com/gg-client/vk_books.html
К 2014 году потенциал традиционных подходов к развитию аналитики социальных процессов оказался исчерпан в силу нескольких причин, главная из которых – неспособность созданных в рамках данных подходов решений адаптироваться к изменившимся условиям формирования общественных законов. Речь идет об их недостаточной динамичности и неприспособленности для обработки данных, поступающих в больших объемах в режиме времени, близком к реальному. Но самый серьезный удар по классической аналитике нанес взрывной рост объемов неструктурированных данных. [1]

В анализе социальной сети в данной работе мы опираемся на концепцию «Больших данных» (BIG Data) – серию подходов, которые позволяют работать с большими объёмами данных, которыми сложно или даже невозможно управлять с помощью обычных средств – они имеют разную структуру и значительную скорость пополнения.
В рамках используемого специального технологического стека решаются многие из  перечисленных проблем, стек объединяет в едином интерфейсе следующие технологии:

  • Теорию графов в качестве инновационной составляющей технологии обработки неструктурированных данных [2]
  • Обработку естественного языка
  • Технологии извлечения информации (дэйтамайнинг — англ. data mining)

В настоящей работе рассмотрен сбор и статистический анализ данных пользователей социальной сети «ВКонтакте» на примере 13 различных типов групп, событий и сообществ культурной направленности: театры, кинотеатры, музеи, фестивали, библиотеки, байкеры, ночные клубы, музыкальные группы, филармония, культурные новости, йога, бары, арт-кафе, антикафе [3]. В общей сложности было собрано и обработано 899 сообществ перечисленных выше категорий с ограничением по географии: рассматривались сообщества города Ростова-на-Дону. Всего из этих сообществ были собраны данные о более чем 65000 участниках. Информация об участнике включает в себя обширный спектр как личных, так и общественно значимых полей: пол, дата рождения, образование, политические взгляды, отношение к алкоголю и курению, женат/замужем ли участник, интересы, список любимых книг. Данные сохранялись в no-SQL базу данных MongoDB [4].
Одним из важных критериев вовлеченности в культурные процессы является чтение литературы. Участники культурных сообществ часто указывают у себя в личных данных те книги или авторов, которых они любят. Мы поставили задачу проанализировать книжные предпочтения участников с целью получения актуальных данных о культурных трендах современного общества. Анализируя социальную сеть, мы получаем следующие данные:

  1. Общую картину книжных предпочтений наиболее культурных представителей социальной сети,
  2. Детальные статистические срезы по различным категориям групп, с полом, возрастом и другими данным участников,
  3. Количественный анализ книжных предпочтений участников сообществ с разделением на произведения и авторов,
  4. Качественный анализ любимых книг участников, с возможностью последующего сравнения с культурными запросами и трендами государства и общества.

Собранные данные позволяют, например, оценить степень соответствия любимых книг участников групп мнению российских экспертов-книголюбов, которые составили список 100 лучших книг.

Рейтинг составлен по результатам голосования посетителей сайта 100bestbooks.ru. В голосовании участвуют произведения художественной литературы любой длины, любого жанра, написанные на любом языке в любой период времени. Система голосования позволяет голосовать как «за», так и «против». Для участия в голосовании не требуется регистрация. Голосование является бессрочным. На настоящий момент список имеет следующий вид:
1. Михаил Булгаков — Мастер и Маргарита
2. Лев Толстой — Война и мир
3. Федор Достоевский — Преступление и наказание
4. Федор Достоевский — Братья Карамазовы
5. Лев Толстой — Анна Каренина
6. Федор Достоевский — Идиот
7. Николай Гоголь — Мёртвые души
8. Александр Пушкин — Евгений Онегин
9. Михаил Булгаков — Собачье сердце
10. Михаил Лермонтов — Герой нашего времени
11. Антон Чехов — Рассказы
12. Виктор Гюго — Отверженные
13. Илья Ильф, Евгений Петров — Двенадцать стульев
14. Эрих Мария Ремарк — Три товарища
15. Александр Дюма — Граф Монте-Кристо
16. Иван Тургенев — Отцы и дети
17. Федор Достоевский — Бесы
18. Артур Конан Дойль — Приключения Шерлока Холмса
19. Николай Гоголь — Тарас Бульба
20. Александр Грибоедов — Горе от ума
Листинг.  1. – Рейтинг 100 лучших книг (полный и актуальный список смотрите на http://www.100bestbooks.ru/)

Учитывая различные и довольно разнообразные написания любимых книг у участников групп, рейтинг был разделен на два списка: список авторов произведений и список самих названий произведений. Такое разделение позволило получить детальные срезы.
Рассмотрим возрастной состав всех участников культурных групп (см. рис. 1). Можно наблюдать 2 выраженных пика в датах рождения участников: с 1987 по 1989 годы родилось более 8000 человек, а возраст большей части активных пользователей рассмотренных групп колеблется от 20 до 30 лет. Эти данные напрямую коррелируют со средним возрастом пользователей социальной сети.
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 2
Рис.  1. – Возрастной состав всех участников культурных групп

Причем возрастное распределение практически не зависит от тематики групп (исключением является группа «Кинотеатры», где при сохранении среднего возраста участников 20-30 лет, не наблюдается четкого пика, максимумы на гистограмме распределения годов рождения относительно равномерно ложатся в промежуток с 1985 по 1992 годы.).
Анализ книжных предпочтений участников культурных групп показал, что абсолютными лидерами по упоминаемости являются М. Булгаков и его роман «Мастер и Маргарита». В топе также находятся Достоевский, Стругацкие и Ремарк. Стоит отметить, что в списке любимых книг присутствуют различные жанры, а также классика и книги современных авторов. Например, среди современных авторов лидирует В. Пелевин и П. Коэльо (не представленные в списке 100bestbooks.ru), мистические/эзотерические авторы представлены К. Кастанедой и Р. Бахом (см. рис. 2).
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 3
Рис.  2. – Какие книги чаще всего указывают в поле «любимые книги» пользователи Вконтакте

Понимая предпочтения культурной аудитории, можно сравнить их со рейтингом 100bestbooks.ru. Такое сравнение покажет, каких именно авторов и произведения из рейтинга читают участники. Наблюдение показывает, что Достоевский и Толстой (в различных написаниях) встречаются чаще, чем Булгаков. В целом же первая десятка на 90% совпадает с десяткой рейтинга топ 100 лучших книг (см. рис. 3).
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 4
Рис.  3. – Книги каких авторов из рейтинга топ100 читают пользователи Вконтакте

Характерно выбивается из общего тренда группа «Байкеры», где первое место занимает современный писатель Сергей Лукьяненко (отсутствующий в рейтинге 100bestbooks.ru). Кроме того, следует отметить, что группа «Музыкальные группы» оказалась единственной, не выразившей положительного отношения к чтению: место в гистограмме любимых книг занимает пункт «нету», второе – «все» (очевидно, данный ответ не является искренним), а шестое место по популярности занимает ответ «не люблю читать».
Схожие литературные предпочтения наблюдаются у участников групп «Арткафе», «Антикафе» и «Бары», причем у данных групп не наблюдается схожести предпочтений с группой «Ночные клубы».
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 5
Рис.  4. – Сравнение нескольких групп по авторам

Рассмотрим теперь, какие произведения из рейтинга чаще всего встречаются у аудитории (см. рис. 4). Интересным наблюдением успех является находящийся на 45 месте рейтинга роман Г. Маркеса «Сто лет одиночества» – он занимает второе место в предпочтениях участников, опережая даже «Преступление и наказание» Ф. Достоевского.
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 6
Рис.  5. – Какие произведения читают пользователи Вконтакте

Также мы можем сравнивать различные группы попарно. На диаграмме «Книги каких авторов из рейтинга топ100 читают пользователи Вконтакте» сравниваются 2 группы сообщетсв: байкеров и посетителей культурных мероприятий. Интересное наблюдение: сообщества похожи по любви к Пушкину, Булгакову и Ремарку. Но сильно различаются в другом: у байкеров не популярны Достоевский, Толстой и Гоголь.
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 7
Рис.  6. – Сравнение сообществ байкеров и культурных мероприятий

Еще одно интересное сравнение: как в своих предпочтениях отличаются участники групп баров и кинотеатров? На рисунке видно, что Преступление и наказание не входит в число любимых книг посетителей кинотеатров. При этом в иностранной классике (Три товарища, Ромео и Джульетта) есть некоторое сходство.
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 8
Рис.  7. – Сравнение сообществ баров и кинотеатров по произведениям

Мы можем сравнить и разницу в возрастах: на рисунке видно, что в целом распределение дат рождения посетителей театров и ночных клубов схожее, присутствует лишь небольшое смещение в сторону 1980-1987 годов у театров. Это ожидаемо: в возрасте 30-35 лет люди больше интересуются живыми театральными постановками, и их в меньшей степени привлекают «спецэффекты» фильмов.
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 9
Рис.  8. – Распределение возрастов участников культурных сообществ Вконтакте: театры и ночные клубы

Рассмотрим базовые статистические выборки по сообществам театров (theatre), см. рис. 9.
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 10
Рис.  9. –  Статистика театров

Помимо стандартной информации, такой, как ожидаемое преобладание женщин в театральных сообществах, получены и данные об отношениях, вредных привычках (отношение к алкоголю, курению), книгах и интересах участников. В частности, анализируя половой состав участников групп театров, можно отметить крайне неравномерное распределение: доля женщин составляет более 70%. Это наблюдение объясняется понятным и стабильно высоким интересом к театральным постановкам у женщин. При этом картина статистик по сообществам кинотеатров (cinema) выглядит по-другому, (см. рис. 10):
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ - 11
Рис.  10. –  Статистика кинотеатров

Соотношение мужчин и женщин в этих группах примерно равное, также можно оценить и книги [6], которые они читают.
Итак, анализ данных из социальных сетей, в частности социальной сети «ВКонтакте», позволяет оперативно получать большой поток данных о предпочтениях и интересах аудиторий сообществ. Но самой большой ценностью является получение данных в реальном времени, что открывает возможность отслеживать динамику, анализировать культурные тренды, помогать в формировании государственной политики в области культурного развития общества, оперативно выявлять недостатки в культурно-нравственном воспитании, вести информационное противоборство за «умы» и ценности. Это, кстати, отражено в новой военной доктрине России.

Узнать больше и почитать еще такие статьи можно на нашем сайте http://graphgrail.com/ В комментариях пишите, какую аналитику вам было бы интересно почитать.

Литература

  1. Розин М.Д., Свечкарев В.П., Конторович С.Д., Литвинов С.В., Носко В.И. Проблемы мониторинга социальных сетей как площадки социальной коммуникации рунета // Научная мысль Кавказа. Междисциплинарные и специальные исследования, 2011, №2. С.65-77.
  2. Носко В.И. Система автоматизированного построения графа социальной сети // Инженерный вестник Дона, 2012, №4. URL: ivdon.ru/magazine/archive/n4p2y2012/1428
  3. Конторович С.Д., Литвинов С.В., Носко В.И. Методика мониторинга и моделирования структуры политически активного сегмента социальных сетей // Инженерный вестник Дона, 2011, №4 URL: ivdon.ru/ru/magazine/archive/n4y2011/642
  4. MongoDB is an open-source document database, and the leading NoSQL database. Written in C++. URL: mongodb.org
  5. Newman, Mark E.J. «The structure and function of complex networks.» SIAM review 45, no. 2 (2003): pp.167-256.
  6. Bird Steven. Natural Language Processing with Python. – O'Reilly Media Inc, 2009. – 482 с.

Автор: mechkladenets

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js