Женщины сами не знают, что хотят, а мужчины говорят о работе. И мои слова - это не стереотипное
Код парсинга и ноутбук анализа доступны на GitHub
Почему спарсилось так мало женщин?
Вот это вопрос, ответ на который знает только Вселенная. Сначала у меня был датасет из 80К анкет женщин, и аж 180К анкет мужчин. Пришлось дозапускать парсер с условием отбора “женских” анкет, чтобы получить хотя бы 140К женщин. Соответственно, “мужские” данные сократила также до ~140К.
К слову, парсила я около 3 недель - процесс оказался небыстрым. Я использовала простой get-запрос из библиотеки requests в Python, а потом вытаскивала нужные мне характеристики с помощью BeautifulSoup и регулярных выражений, а именно:
-
возраст
-
рост
-
вес
-
образование
-
с кем живу
-
дети
-
цель на сайте
-
пол
-
пол возможного партнера
-
язык
-
возраст партнера
К полученным данным добавила дополнительные поля:
-
диапазон лет возраста партнера
-
начальный возраст партнера
Также я упростила (сгруппировала) разнообразие целей пользователей на 6 групп: флирт, отношения, семья, друзья, неуверенные (те, кто перечисляют очень много целей, от пяти) и те, кто не указали цель.
И еще спарсила текст в графе “О себе”. Вы относитесь к тем людям, которых раздражает, если пользователи не пишут на сайтах знакомств ничего в этой графе? Я - да. Если вы в моей лодке, то, к сожалению, нам придется раздражаться в 92% случаев - ведь я получила именно такой процент анкет, где в этой графе было так же пусто, как в космосе. Что же хотят эти люди? О чем мечтают? Об этом поговорим еще немного позже.
Также очень неохотно люди писали о своих жилищных условиях (всего 20%), своем весе (всего 23%), наличии табачной зависимости (25%) и детей (26%) и почему-то - об уровне образования (тоже 26%).
Демографическая сводка не хуже, чем у Росстата
Да, совсем не стесняюсь так говорить. Потому что у меня было так много данных, что можно было бы даже не применять статистические тесты на проверку “правдивости” сравнений и закономерностей, которые я получала (пишу “закономерностей” в кавычках, потому что в статистике в этом контексте говорят слово “значимость” - но, на мой вкус, лучше смысл феномена отражает слово “правдивость”). Тесты я, конечно, делала: хи-квадрат, t-test, смотрела коэффициенты асимметрии и всякое такое. Но в моем случае уже действовал закон больших чисел: когда данных много, среднее их значение приближается к математически ожидаемому. Короче говоря, чем больше данных, тем более правдивые выводы можно на них делать.
А еще я выбросила из основного анализа данные людей, старше 45 и младше 18 (ага, были и несовершеннолетние на сайте: родители, будьте бдительны), потому что их было подавляюще мало, но они образовывали “хвосты” или выбросы в данных. И после этого почти всегда данные были распределены почти нормально, еще один плюс “за” то, чтобы ограничиваться мерами центральной тенденции, т.е. простыми средними или наиболее частыми значениями. Поэтому для числовых значений я так и сделала, и смотрите, какие портреты мужчин и женщин, пользователей сайта mamba.ru, я получила:
-
Средний возраст пользователя - 31.
-
Средний вес - 70.
-
Рост - 172 (кстати, любители высоких, максимально обозначенный рост в анкете был 220 см: так что ищите, и вы обязательно найдете своего великана).
-
Средний возраст ожидаемого партнера - 27.
Посмотрела, чтобы удостовериться, есть ли корреляция в возрастах между теми, кто ищет, и теми, кого ищут. Закономерно, корреляция практически прямая: более старшие ищут более старших.
А что у нас по детям? У кого сколько? Тут, на мой вкус, получилась ну прям мега-логичная демографическая сводка: мужчины чуть ли не в 4 раза больше женщин живут порознь со своими детьми, а женщины чуть ли не в 8 раз больше, чем мужчины, живут со своими детьми. Ведь дети обычно остаются с мамой. И, в среднем, о детях вообще начинают писать люди от 35 лет, что закономерно тоже. Однако мужчины больше хотят детей, чем женщины. Может быть, потому что у среднестатистической женщины на сайте знакомств вероятность УЖЕ иметь детей выше? Вопрос на подумать на досуге.
И наконец, просто оставлю списком самые частые города, в которых живут люди из моей выборки, где цифры - это количество людей в этих городах.
Зачем идут на сайт знакомств?
Просто оставлю тут график. По оси Y выбрала процент в качестве меры, но данные проверены на статистический тест хи-квадрат. Т.е. вы можете быть почти уверены, что этот график - отображение всех людей, кто был, есть или будет в ближайшем будущем на mamba.ru.
Как видно, мужчинам явно больше хочется флирта (casual), а у женщины заметно больше, чем мужчины, хотят лишь дружить (friendly), и едва-едва их больше в группе “семейных” (family-person). В основном, распределение по целям у мужчин и женщин более-менее одинаковое, разве что женщины в большей степени не знают, чего хотят (unknown).
А теперь давайте посмотрим, может, женщины и мужчины отличаются по целям на сайте знакомств в зависимости от возраста? В графике ниже представлены уже не процентные значения, а именно количественные. По оси Y у каждого график - своя шкала - это количество людей. По оси Х - возраст.
Распишу, по сути, каждый из мини-графичков.
Средние возраста по целям:
-
флиртовать, встречаться: м 31, ж 29
-
быть в отношениях: м 31, ж 32
-
дружить: м, ж ~ 30
-
хочу все подряд (неуверенные): м 32, ж 31
-
не указали цель: м 31, ж 30
-
семья: м, ж ~ 34,5
Очевидный вывод - средний возраст в группах по разным целям колеблется от 29 до 32 с маленькими различиями. Самый большой разрыв между возрастами потенциальных партнеров в 2 года в цели флирт: мужчины хотят в 31, а женщины - в 29. В целом, в около 30 все хотят "гулять" и люди ищут партнера (романтического, сексуального, дружеского), к семье приходят к 35, но мало кто сидит на сайте с целью создания семьи (всего ~0,9%).
Подводя первую жирненькую черту, просто отмечу, что мне показалось вполне логичным, что возраст “семейный” наступает позже, чем возраст “гуляющий”. Не знаю, насколько логично, что женщины младше мужчин в группе тех, кто ищет флирта, но старше в той, где люди ищут серьезных отношений. Получается, женщины созревают для отношений попозже? А вот в группе тех, кто хочет подружить, мужчины и женщины ищут сверстников, что и вполне объяснимо: все же дружить приятней с самым близким тебе поколением.
Также посчитала, какие слова пишут в целях люди из группы “неуверенные”. И они хотят, похоже, повстречаться, подружить, пообщаться, наверное, можно было бы занести их в группу дружелюбных.
А есть ли разница по целям между теми, кто пишет о себе (заполняют ту самую графу), и теми, кто не пишет? В графике верхний столбец (над чертой) - это мужчины. Красные - это люди с описанием. Синие - без. Ось Y - это количество. Ну с обозначениями оси Х вы уже знакомы.
Интересно, или даже закономерно, что люди, которые неуверенные, пишут и более пространственные описания. Наверное, поясняют, что хотят. Ну и более дружелюбные тоже пишут много, вероятно, чтобы пояснить, что они только дружить хотят. И интересно, что люди в поисках отношений (relationships) заполняют секцию “о себе” 50 на 50.
Неактивные просто оставляют четыре?
Я заметила, что очень много людей на mamba.ru выбирают возможный диапазон возраста для потенциального партнера, равный четырем: это целых 64.2%. Я предположила, что 4 - это стандартный для приложения диапазон лет возраста партнера и, возможно, люди которые выбирают стандартный диапазон, меньше заинтересованы в использовании сайта, т.е. они могут быть менее активными.
Поэтому возник вопрос: отличаются ли группы тех, у кого диапазон возраста партнера 4 (ДА4) и все остальные (НЕ4)? По базовым статистикам (возраст, рост, вес) разницы почти не оказалось. Разве что люди из группы НЕ4, похоже, в целом менее придирчивы к возрасту партнера - половина из них рассмотрит партнера в 11-летнем диапазоне возраста. Т.е. таким людям подойдут партнеры, например, и 27, и 32, и 38 лет.
Мне это показалось странным на фоне того, что группа тех, у кого больший диапазон возраста партнера, в целом, менее возрастная. Почему странным? Да потому, что, когда тебе 21, человек 30-ти лет кажется совсем другим. А когда тебе 35, то что-то общее есть и с 30-летним, и с 40-летним. Поэтому было бы логичнее, если бы больший диапазон возраста был у более “старших”. В общем, еще один вопрос “на подумать”, глядя на график внизу.
Кстати, еще кое-что в подтверждение моей гипотезы, что те, кто выбирают 4 в качестве диапазона лет для возраста партнера - менее активны, это то, что у них просто гигантская доля людей, чью цели на сайте неизвестны. Возможно, это просто люди, которые вообще на сайте “проездом”. А вот те, кто указывают другой, более разнообразный диапазон возраста партнера, указывают и более разнообразные цели от сайта.
Женщинам - путешествия, мужчинам - работа
О чем пишут женщины
А теперь о тех “котиках”, которые меня не раздражают - о тех самых 8%, которые заполняют графу “о себе”. Они меня не раздражают еще и потому, что предоставляют возможность провести какой-никакой семантический анализ. Хотя бы на уровне подсчета слов. А еще посмотрела, как себя описывают пользователи.
Так вот. На уровне подсчета слов женщины, в среднем, пишут на два-три слова больше о описании в анкете. Первая трогательная заметка - женщины часто пишут о счастье: хотят сделать кого-то счастливым или самой быть счастливой. Или же ищут уже счастливого человека. В целом, пишут о том, кого хотят и зачем, а также о своих интересах.
Кого хотят: в партнере ценят юмор, активность, доброту, часто ищут “хорошего", а ближе к середине в списке характеристик будущего избранника начинают появляться слова: “щедрый", “заботливый", “сильный", “порядочный", “самодостаточный".
Какие интересы: путешествовать, гулять, готовить, природу, читать, танцевать и петь.
О себе женщины пишут, в порядке убывания популярности: ““добрая”, “красивая”, “общительная”“, “веселая”, “хорошая”, “милая”, “позитивная”, “умная”, “адекватная”, “активная”, “творческая”, “заботливая”, “верная”, “искренняя”.
Ради шутки, у меня промелькнула мысль: почему это “верная” и “искренняя” находятся на последних местах? А “умная” - в середине списка? То есть мы в себе ценим лишь доброту да красоту? Женщины, давайте взращивать в себе благородство и ум!
О чем пишут мужчины
Забавно, что у мужчин в топ-50 самых встречаемых слов встречаются разные формы слова “работать" или “работа", а у женщин – нет. Также у мужчин часто встречается слово “женат", а вот у девушек “замужем" - нет. Часто пишут слова “общение", “отношения".
Опять-таки, в порядке шутки, возник вопрос: что это значит, господа? Ищем на сайте любовниц, с которыми будем отдыхать после работы?
Также интересно, что мужчины не употребляют особо глаголов, связанных с хобби. В основном, это глаголы действия: “поговорить", “смотреть", “узнать", “сходить", “пообщаться", “создать" (вероятно, в контексте “создать семью"), “поддержать", “сказать". Из глаголов-хобби встретились лишь: готовить, путешествовать, гулять, играть, читать.
О себе мужчины пишут, в порядке убывания популярности: “добрый", “хороший“, “общительный“, “адекватный“, “активный“, “спокойный“, “весёлый“, “позитивный“, “высокий“, “честный“, “заботливый“ , “красивый“, “верный“, “спортивный“, “порядочный“, “умный“, “работящий“.
Хм… Странно, что “работящий” - лишь в конце списка, когда мужчины так много пишут о работе в секции “о себе”.
В партнере мужчины очень ценят… А не очень понятно, что! Потому что в описаниях будто два варианта: либо прямое “я хочу только секс без обязательств", либо какая-то философская фраза, либо “если вы за феррари – мимо, я ищу любимую". Поэтому встречаем эпитеты: “единственная", “любимая", “милая", “адекватная", “умная" и только ближе к концу – “симпатичная", “сексуальная", “верная", и в самом конце – “веселая", “общительная", “творческая". И знаете, то, что мужчины ищут единственную - это второе трогательное открытие!
И мужчины, и женщины пишут…
…о сексе, детях (вероятно, в контексте есть или нет детей), душе (вероятно, в контексте “родственной души"), семье, музыке, спорте, юморе (очевидно, все ищут партнера с чувством юмора).
Складывается впечатление, что женщины более точны в своих описаниях - и себя, и партнера, а мужчины, наверное, больше пишут про свои цели (секс, романтика, жена) или же философствуют. Те, кто пишет характеристики желаемого партнера, определенно хотят “доброго", “хорошего", “с чувством юмора", и мужчины, и женщины.
И наконец… о самом трогательном
Кроме того, что женщины хотят сделать кого-то счастливым, а мужчины - найти единственную, меня поразило, что эти 8% людей, которые оставили о себе какие-то описания, чаще всего писали словосочетание “серьезные отношения” (или похожее на него). Всего порядка 900 анкет, и порядка 1300 описаний, где есть слово “отношения”
Поэтому, ребята, найти любовь можно и онлайн. И даже нужно. Просто помните, что нет “хороших” и “плохих”. Есть просто те, кто вам подходит, и те, кто вам не подходит. Люди на сайтах знакомств будут самые разнообразные, но ведь кто ищет - тот всегда найдет.
Автор:
NataliaBlinnikova