Чисто научный подход: чего хотят женщины и о чем говорят мужчины

в 16:28, , рубрики: data mining, dating_app, mamba, аналитика, портрет пользователя, сайты знакомств

Женщины сами не знают, что хотят, а мужчины говорят о работе. И мои слова - это не стереотипное мышление, а обоснованное на данных заявление. По крайней мере, на основе данных 240 тысяч анкет женщин и мужчин, которые я спарсила с сайта mamba.ru, а потом “разложила по графичкам”. Цель была - сформировать портреты пользователей, но и плюсом пришла к приятному и немного трогательному выводу. 

Код парсинга и ноутбук анализа доступны на GitHub

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 1

Почему спарсилось так мало женщин?

Вот это вопрос, ответ на который знает только Вселенная. Сначала у меня был датасет из 80К анкет женщин, и аж 180К анкет мужчин. Пришлось дозапускать парсер с условием отбора “женских” анкет, чтобы получить хотя бы 140К женщин.  Соответственно, “мужские” данные сократила также до ~140К. 

К слову, парсила я около 3 недель - процесс оказался небыстрым. Я использовала простой get-запрос из библиотеки requests в Python, а потом вытаскивала нужные мне характеристики с помощью BeautifulSoup и регулярных выражений, а именно: 

  • возраст

  • рост

  • вес

  • образование

  • с кем живу

  • дети

  • цель на сайте

  • пол

  • пол возможного партнера

  • язык

  • возраст партнера

К полученным данным добавила дополнительные поля:

  • диапазон лет возраста партнера

  • начальный возраст партнера

Также я упростила (сгруппировала) разнообразие целей пользователей на 6 групп: флирт, отношения, семья, друзья, неуверенные (те, кто перечисляют очень много целей, от пяти) и те, кто не указали цель.

И еще спарсила текст в графе “О себе”. Вы относитесь к тем людям, которых раздражает, если пользователи не пишут на сайтах знакомств ничего в этой графе? Я - да. Если вы в моей лодке, то, к сожалению, нам придется раздражаться в 92% случаев - ведь я получила именно такой процент анкет, где в этой графе было так же пусто, как в космосе. Что же хотят эти люди? О чем мечтают? Об этом поговорим еще немного позже. 

Также очень неохотно люди писали о своих жилищных условиях (всего 20%), своем весе (всего 23%), наличии табачной зависимости (25%) и детей (26%) и почему-то - об уровне образования (тоже 26%). 

Демографическая сводка не хуже, чем у Росстата

Да, совсем не стесняюсь так говорить. Потому что у меня было так много данных, что можно было бы даже не применять статистические тесты на проверку “правдивости” сравнений и закономерностей, которые я получала (пишу “закономерностей” в кавычках, потому что в статистике в этом контексте говорят слово “значимость” - но, на мой вкус, лучше смысл феномена отражает слово “правдивость”). Тесты я, конечно, делала: хи-квадрат, t-test, смотрела коэффициенты асимметрии и всякое такое. Но в моем случае уже действовал закон больших чисел: когда данных много, среднее их значение приближается к математически ожидаемому. Короче говоря, чем больше данных, тем более правдивые выводы можно на них делать.

А еще я выбросила из основного анализа данные людей, старше 45 и младше 18 (ага, были и несовершеннолетние на сайте: родители, будьте бдительны), потому что их было подавляюще мало, но они образовывали “хвосты” или выбросы в данных. И после этого почти всегда данные были распределены почти нормально, еще один плюс “за” то, чтобы ограничиваться мерами центральной тенденции, т.е. простыми средними или наиболее частыми значениями. Поэтому для числовых значений я так и сделала, и смотрите, какие портреты мужчин и женщин, пользователей сайта mamba.ru, я получила: 

  • Средний возраст пользователя - 31.

  • Средний вес - 70.

  • Рост - 172 (кстати, любители высоких, максимально обозначенный рост в анкете был 220 см: так что ищите, и вы обязательно найдете своего великана).

  • Средний возраст ожидаемого партнера - 27. 

Посмотрела, чтобы удостовериться, есть ли корреляция в возрастах между теми, кто ищет, и теми, кого ищут. Закономерно, корреляция практически прямая: более старшие ищут более старших.

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 2

А что у нас по детям? У кого сколько? Тут, на мой вкус, получилась ну прям мега-логичная демографическая сводка: мужчины чуть ли не в 4 раза больше женщин живут порознь со своими детьми, а женщины чуть ли не в 8 раз больше, чем мужчины, живут со своими детьми. Ведь дети обычно остаются с мамой. И, в среднем, о детях вообще начинают писать люди от 35 лет, что закономерно тоже. Однако мужчины больше хотят детей, чем женщины. Может быть, потому что у среднестатистической женщины на сайте знакомств вероятность УЖЕ иметь детей выше? Вопрос на подумать на досуге. 

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 3

И наконец, просто оставлю списком самые частые города, в которых живут люди из моей выборки, где цифры - это количество людей в этих городах. 

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 4

Зачем идут на сайт знакомств?

Просто оставлю тут график. По оси Y выбрала процент в качестве меры, но данные проверены на статистический тест хи-квадрат. Т.е. вы можете быть почти уверены, что этот график - отображение всех людей, кто был, есть или будет в ближайшем будущем на mamba.ru.

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 5

Как видно, мужчинам явно больше хочется флирта (casual), а у женщины заметно больше, чем мужчины, хотят лишь дружить (friendly), и едва-едва их больше в группе “семейных” (family-person). В основном, распределение по целям у мужчин и женщин более-менее одинаковое, разве что женщины в большей степени не знают, чего хотят (unknown). 

А теперь давайте посмотрим, может, женщины и мужчины отличаются по целям на сайте знакомств в зависимости от возраста? В графике ниже представлены уже не процентные значения, а именно количественные. По оси Y у каждого график - своя шкала - это количество людей. По оси Х - возраст. 

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 6

Распишу, по сути, каждый из мини-графичков. 

Средние возраста по целям:

  • флиртовать, встречаться: м 31, ж 29

  • быть в отношениях: м 31, ж 32

  • дружить: м, ж ~ 30

  • хочу все подряд (неуверенные): м 32, ж 31

  • не указали цель: м 31, ж 30

  • семья: м, ж ~ 34,5

Очевидный вывод - средний возраст в группах по разным целям колеблется от 29 до 32 с маленькими различиями. Самый большой разрыв между возрастами потенциальных партнеров в 2 года в цели флирт: мужчины хотят в 31, а женщины - в 29. В целом, в около 30 все хотят "гулять" и люди ищут партнера (романтического, сексуального, дружеского), к семье приходят к 35, но мало кто сидит на сайте с целью создания семьи (всего ~0,9%).

Подводя первую жирненькую черту, просто отмечу, что мне показалось вполне логичным, что возраст “семейный” наступает позже, чем возраст “гуляющий”. Не знаю, насколько логично, что женщины младше мужчин в группе тех, кто ищет флирта, но старше в той, где люди ищут серьезных отношений. Получается, женщины созревают для отношений попозже? А вот в группе тех, кто хочет подружить, мужчины и женщины ищут сверстников, что и вполне объяснимо: все же дружить приятней с самым близким тебе поколением. 

Также посчитала, какие слова пишут в целях люди из группы “неуверенные”. И они хотят, похоже, повстречаться, подружить, пообщаться, наверное, можно было бы занести их в группу дружелюбных.

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 7

А есть ли разница по целям между теми, кто пишет о себе (заполняют ту самую графу), и теми, кто не пишет? В графике верхний столбец (над чертой) - это мужчины. Красные - это люди с описанием. Синие - без. Ось Y - это количество. Ну с обозначениями оси Х вы уже знакомы.  

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 8

Интересно, или даже закономерно, что люди, которые неуверенные, пишут и более пространственные описания. Наверное, поясняют, что хотят. Ну и более дружелюбные тоже пишут много, вероятно, чтобы пояснить, что они только дружить хотят. И интересно, что люди в поисках отношений (relationships) заполняют секцию “о себе” 50 на 50.

Неактивные просто оставляют четыре? 

Я заметила, что очень много людей на mamba.ru выбирают возможный диапазон возраста для потенциального партнера, равный четырем: это целых 64.2%. Я предположила, что 4 - это стандартный для приложения диапазон лет возраста партнера и, возможно, люди которые выбирают стандартный диапазон, меньше заинтересованы в использовании сайта, т.е. они могут быть менее активными.

Поэтому возник вопрос: отличаются ли группы тех, у кого диапазон возраста партнера 4 (ДА4) и все остальные (НЕ4)? По базовым статистикам (возраст, рост, вес) разницы почти не оказалось. Разве что люди из группы НЕ4, похоже, в целом менее придирчивы к возрасту партнера - половина из них рассмотрит партнера в 11-летнем диапазоне возраста. Т.е. таким людям подойдут партнеры, например, и 27, и 32, и 38 лет. 

Мне это показалось странным на фоне того, что группа тех, у кого больший диапазон возраста партнера, в целом, менее возрастная. Почему странным? Да потому, что, когда тебе 21, человек 30-ти лет кажется совсем другим. А когда тебе 35, то что-то общее есть и с 30-летним, и с 40-летним. Поэтому было бы логичнее, если бы больший диапазон возраста был у более “старших”. В общем, еще один вопрос “на подумать”, глядя на график внизу. 

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 9

Кстати, еще кое-что в подтверждение моей гипотезы, что те, кто выбирают 4 в качестве диапазона лет для возраста партнера - менее активны, это то, что у них просто гигантская доля людей, чью цели на сайте неизвестны. Возможно, это просто люди, которые вообще на сайте “проездом”. А вот те, кто указывают другой, более разнообразный диапазон возраста партнера, указывают и более разнообразные цели от сайта. 

Чисто научный подход: чего хотят женщины и о чем говорят мужчины - 10

Женщинам - путешествия, мужчинам - работа

О чем пишут женщины

А теперь о тех “котиках”, которые меня не раздражают - о тех самых 8%, которые заполняют графу “о себе”. Они меня не раздражают еще и потому, что предоставляют возможность провести какой-никакой семантический анализ. Хотя бы на уровне подсчета слов. А еще посмотрела, как себя описывают пользователи. 

Так вот. На уровне подсчета слов женщины, в среднем, пишут на два-три слова больше о описании в анкете. Первая трогательная заметка - женщины часто пишут о счастье: хотят сделать кого-то счастливым или самой быть счастливой. Или же ищут уже счастливого человека. В целом, пишут о том, кого хотят и зачем, а также о своих интересах.

Кого хотят: в партнере ценят юмор, активность, доброту, часто ищут “хорошего", а ближе к середине в списке характеристик будущего избранника начинают появляться слова: “щедрый", “заботливый", “сильный", “порядочный", “самодостаточный".

Какие интересы: путешествовать, гулять, готовить, природу, читать, танцевать и петь. 

О себе женщины пишут, в порядке убывания популярности: ““добрая”, “красивая”, “общительная”“, “веселая”, “хорошая”, “милая”, “позитивная”, “умная”, “адекватная”, “активная”, “творческая”, “заботливая”, “верная”, “искренняя”. 

Ради шутки, у меня промелькнула мысль: почему это “верная” и “искренняя” находятся на последних местах? А “умная” - в середине списка? То есть мы в себе ценим лишь доброту да красоту? Женщины, давайте взращивать в себе благородство и ум! 

О чем пишут мужчины

Забавно, что у мужчин в топ-50 самых встречаемых слов встречаются разные формы слова “работать" или “работа", а у женщин – нет. Также у мужчин часто встречается слово “женат", а вот у девушек “замужем" - нет. Часто пишут слова “общение", “отношения". 

Опять-таки, в порядке шутки, возник вопрос: что это значит, господа? Ищем на сайте любовниц, с которыми будем отдыхать после работы?  

Также интересно, что мужчины не употребляют особо глаголов, связанных с хобби. В основном, это глаголы действия: “поговорить", “смотреть", “узнать", “сходить", “пообщаться", “создать" (вероятно, в контексте “создать семью"), “поддержать", “сказать". Из глаголов-хобби встретились лишь: готовить, путешествовать, гулять, играть, читать.

О себе мужчины пишут, в порядке убывания популярности: “добрый", “хороший“, “общительный“, “адекватный“, “активный“, “спокойный“, “весёлый“, “позитивный“, “высокий“,  “честный“, “заботливый“ , “красивый“, “верный“, “спортивный“, “порядочный“, “умный“, “работящий“.

Хм… Странно, что “работящий” - лишь в конце списка, когда мужчины так много пишут о работе в секции “о себе”.

В партнере мужчины очень ценят… А не очень понятно, что! Потому что в описаниях будто два варианта: либо прямое “я хочу только секс без обязательств", либо какая-то философская фраза, либо “если вы за феррари – мимо, я ищу любимую". Поэтому встречаем эпитеты: “единственная", “любимая", “милая", “адекватная", “умная" и только ближе к концу – “симпатичная", “сексуальная", “верная", и в самом конце – “веселая", “общительная", “творческая". И знаете, то, что мужчины ищут единственную - это второе трогательное открытие! 

И мужчины, и женщины пишут…

…о сексе, детях (вероятно, в контексте есть или нет детей), душе (вероятно, в контексте “родственной души"), семье, музыке, спорте, юморе (очевидно, все ищут партнера с чувством юмора).

Складывается впечатление, что женщины более точны в своих описаниях - и себя, и партнера, а мужчины, наверное, больше пишут про свои цели (секс, романтика, жена) или же философствуют. Те, кто пишет характеристики желаемого партнера, определенно хотят “доброго", “хорошего", “с чувством юмора", и мужчины, и женщины. 

И наконец… о самом трогательном

Кроме того, что женщины хотят сделать кого-то счастливым, а мужчины - найти единственную, меня поразило, что эти 8% людей, которые оставили о себе какие-то описания, чаще всего писали словосочетание “серьезные отношения” (или похожее на него). Всего порядка 900 анкет, и порядка 1300 описаний, где есть слово “отношения”

Поэтому, ребята, найти любовь можно и онлайн. И даже нужно. Просто помните, что нет “хороших” и “плохих”. Есть просто те, кто вам подходит, и те, кто вам не подходит. Люди на сайтах знакомств будут самые разнообразные, но ведь кто ищет - тот всегда найдет. 

Автор:
NataliaBlinnikova

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js