Частотность употребления разных слов у наркоманов/алкоголиков/курителей табака, по сравнению с остальными людьми
По американской статистике, 10% населения США в возрасте 12 лет и старше страдают от той или иной формы зависимости — в официальной терминологии это называется substance use disorder (SUD) (зависимость). Вероятно, в РФ этот показатель гораздо выше. По оценке РБК, здесь 10% населения принимают суррогатные напитки (медицинские лосьоны, «боярышник», омыватели стекла, паленка и др.), а легальный алкоголь употребляют многократно большее количество людей.
В последние годы люди стали проводить огромное количество времени в социальных сетях, где общаются, обмениваются мыслями и т. д. Это огромный объём информации, достаточный для системы машинного обучения. И зависимых людей в социальных сетях тоже очень много. Благодаря достижениям учёных стало возможным автоматически выявлять наркоманов, алкоголиков и курильщиков табака по их лексике и культурным интересам (музыка, фильмы).
Возможно, в будущем начнётся даже автоматическая фильтрация наркоманов в Интернете. Например, им запретят регистрацию на некоторых сайтах или будет присваиваться особенный значок в профиле.
Cпециалисты с кафедры информационных систем Университета Мэриленда и Исследовательского центра восстановления от зависимостей при Исследовательском институте Карильона в Виргинском политехническом университете разработали систему машинного обучения, которая автоматически определяет людей, страдающих зависимостью, а также людей с риском зависимости (то есть граждане, которые по своим интересам слабо отличаются от настоящих наркоманов и алкоголиков).
Как известно, пристрастие к определённым веществам неизбежно сказывается на социальной активности человека и коррелирует с его чертами личности. Например, постоянно курящие табак люди проявляют значительно более высокий показатель «открытости к опыту», но значительно меньший показатель «добросовестности», чем некурящие люди (см. исследование Кэмпбелла и др., 2014). Употребление алкоголя положительно коррелирует с социальностью и экстравертностью (исследование Кука и др., 1998).
Десятки других научных работ тоже выявили связь между постоянным употреблением какого-нибудь наркотика и особенностями личности и социального поведения. Очень часто употребление веществ коррелирует с пониженной «добросовестностью» — это черта личности, которая связана с самодисциплиной, добросовестным исполнением обязанностей и стремлением к достижению цели. Такая корреляция вполне понятна, ведь именно эти черты характера требуются для избавления от наркотической зависимости.
С другой стороны, науке известны и факторы риска, которые повышают вероятность возникновения зависимости — это возраст, пол, импульсивность, стремление к удовольствиям, реакция на новизну, склонность к упражнениям и скудная окружающая среда (исследование Кэрролла и др., 2009). Известны и другие факторы, увеличивающие риск, в том числе социальное окружение (соседи), семейное окружение (родственники), общественные нормы.
Раньше учёные проводили такие исследования с помощью социальных опросов, но сейчас благодаря огромному количеству информации в социальных сетях можно изучать поведение людей не отходя от компьютера. Для системы машинного обучения американские исследователи использовали базу, собранную в рамках проекта myPersonality с 2007 по 2012 годы. Это было популярное приложение для Facebook, где люди проходили психологические тесты и подробно рассказывали о своей личности и привычках, среди них были наркоманы, алкоголики и курящие табак.
С психологическими профилями пользователей Facebook ассоциировали их активность в социальной сети — 22 млн обновлений статуса от 153 тыс. пользователей. В среднем 143 сообщения от каждого пользователя, а среднее количество слов — 1730 на человека. Из базы исключили неанглоязычных пользователей и тех, кто написал меньше 500 слов. Осталось 21 млн постов от 106 509 человек. После фильтрации низкочастотных слов (с частотой менее 50 в базе) словарный корпус составил 73 935 слов.
Исследователи учли опыт предшественников, которые доказали, что личность человека легче изучить не по его словам, а по его лайкам. Поэтому они составили также базу лайков для 5,1 млн пользователей.
После обучения система смогла с большой точностью предсказывать наличие зависимости у человека независимо от того, проходил ли он психологические тесты. Так, вероятность курения табака определяется с наибольшей точностью 86%, вероятность употребления наркотиков — 84%, вероятность употребления алкоголя — 81%.
Более того, результаты анализа лайков и частотности слов у наркоманов и алкоголиков представляют реальный научный интерес. Они показывают, в каком конкретно отношении отличаются интересы и поведение зависимого человека от интересов и поведения того, кто не употребляет веществ.
По частотности употребления слов у зависимых людей (наркотики, табак) чаще встречается брань (fuck, shit). Среди интересов у алкоголиков лидирует фильм «V — значит вендетта», а наркоманы любят слушать музыкальные группы Radiohead, The Cure и Depeche Mode.
Научная статья опубликована 16 мая 2017 года на сайте препринтов arXiv.org (arXiv:1705.05633).
Автор: alizar