Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2]

в 15:14, , рубрики: data mining, homicide rate, R, sex ratio, визуализация данных, демография, доверяй но проверяй, карты, научный скепсис, открытые данные, преступность, проверка исследования, соотношение полов

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2] - 1

Исследование, недавно опубликованное в престижном научном журнале Human Nature, обнаружило, что преобладание женщин сопряжено с более высокой преступностью. Вывод сильно противоречит житейскому представлению о том, что где мужчины, там и преступления. Однако он находит поддержку в сравнительно молодых теориях формирования брачных рынков.

Несмотря на стройность использованных в исследовании методов, мне кажется, в нем упущена важная переменная, возможно, ключевая. Было бы прекрасно проверить на тех же данных, но авторы их не публикуют приложением к статье, а собрать самостоятельно — довольно большая работа. Пока решил пойти другим путем — устранить проблемную переменную из дизайна исследования.

Я проверил, наблюдается ли подобная закономерность в Европе на уровне стран. Заинтересованных прошу под кат.

Немного об этом посте не слишком хабровского формата

Изначально мое внимание к исследованию привлек пост в блоге демографа Бориса Денисова. В дискуссии с ним же родилась идея проверить закономерность на странах Европы. Проверил. Результаты интересные. И стал думать, где опубликовать. В очередной раз пришел к выводу, что лучше хабра варианта нет. Понимаю, что тема, вероятно, заинтересует меньшую часть аудитории сообщества. И все же я надеюсь на доброжелательное отношение и ценные комментарии — очень хочется услышать мнения "со стороны". Что касается категоризации статьи — думаю, на хабре не помешал бы хаб (или даже поток) "Академия" (писал от этом раньше в комментарии).

В свое оправдание могу сказать, что те, кому не интересна демография, найдут в этом посте R код, позволяющий в автоматическом режиме скачать данные о населении из двух прекрасных баз данных — Eurostat и Human Mortality Database. Кроме того, здесь я впервые публикую функцию для быстрого построения симпатичных карт Европы в R (есть туманные планы на будущее — написать пакет R для подобного шаблонного картографирования).

Итак, что же меня смутило?

Чуть подробнее об исследовании

Schacht, R., Tharp, D., & Smith, K. (2016). Marriage markets and male mating effort: violence and crime are elevated where men are rare. Human Nature, 1–12. https://doi.org/10.1007/s12110-016-9271-x

Изучив соотношение полов во взрослом населении графств США (более 3 тыс. административных районов) и данные о совершении тяжких преступлений, Райан Шахт, Дуглас Тарп и Кен Смит пришли к выводу, что между показателями есть отчетливая взаимосвязь – чем больше мужчин, тем меньше преступлений (табл. 1).

Таблица 1. Результаты регрессионной модели, описывающей взаимосвязь коэффициента убийств (на 100 тыс. чел.) и соотношения полов в возрастах 15-45 лет. [N = 3082 counties, DF = 3077; −2loglikelihood = 12,372]

Переменная Коэффициент Стандартная ошибка t p-value
Пересечение 6,338 0,245 25,86 <0,0001
Соотношение полов, 15-45 лет -0,008 0,001 -6,43 <0,0001
Доля бедных (%) 0,019 0,005 3,69 <0,0001
Доля белого населения (%) -0,018 0,002 -10,34 <0,0001
Север/Юг (0,1) 0,187 0,067 2,77 0,006

Вывод сильно противоречит представлению о том, что где мужчины, там и преступления. Это интуитивно понятное представление на протяжении десятилетий довольно безосновательно, а лучше сказать спекулятивно, доминировало в социологических работах. В противовес этим теоретическим построениям существуют относительно недавно получившие распространение теории, основанные на моделировании брачных рынков, которые предсказывают обратную зависимость. Недавно пересмотренные социологические теории брачных рынков предсказывают негативный эффект от избытка женщин и недостаточной конкуренции среди мужчин. Именно с этим витком современной научной литературы согласуется эмпирическое исследование Шахта и соавторов. Логика примерно следующая: изобилие женщин приводит к понижению усилий, прикладываемых мужчинами для формирования пар, что в свою очередь ведет к беспорядочной жизни и общему росту преступности.

Источник: мой Демографический Дайджест в журнале Демоскоп

Несмотря на прелесть анализа малых территорий (при прочих равных всегда приятнее анализировать более дробные данные), возникают большие сомнения насчет возможной упущенной в исследовании переменной — разделение американских графств по принципу центральности/периферийности (urban/rural).

Дело в том, что женщины активнее мужчин во внутренней миграции. Это один из законов миграции Равенштейна-Ли.

Немного литературы для заинтересованных

Исходные статьи Эрнста-Георга Равенштйна.

Статья Эверетта Ли, застолбившая за Равенштейном право считаться отцом миграциологии.

На русском языке есть хорошая обзорная статья моих коллег из Института демографии НИУ ВШЭ.

  • Абылкаликов, С. И., & Винник, М. В. (2012). Экономические теории миграции: рабочая сила и рынок труда. Бизнес. Общество. Власть, (12), 1–19. https://www.hse.ru/mag/27364712/2012--12/71249233.html

В силу этой закономерности в городах соотношение полов обычно перекашивается в сторону женщин. Для иллюстрации приведу карту России из моей магистерской работы (рис. 1).

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2] - 2

Рисунок 1. Соотношение полов в возрасте 16-29 лет в муниципальных районах и городах России по данным Всероссийской переписи населения 2010 года. (кликабельно)

Как видим, в городах женщин больше (есть региональные центры, где больше мужчин, но, как правило, это объясняется воинскими частями — отдельная тема). И это при том, что мальчиков всегда рождается больше, чем девочек, и в молодом возрасте парней, в целом, больше. Но об этом чуть позже. Итак, благодаря внутренней миграции, в городах концентрируются женщины.

И в городах же выше преступность. Тут причин очень много (в основном разные социологические теории об оторванности от окружения), но и доказывать этот тезис нет необходимости.

Так вот, на мой взгляд, в исследовании Шахта, Тарпа и Смита, вероятно, упущено ключевое различие между городом и периферией. В городах больше преступность потому что это город, а не потому что там больше женщин и меньше мужчин. Вполне возможно, что включение в объясняющую модель переменной urban/rural нейтрализует обнаруженный эффект.

Но чтобы проверить, так ли это, надо иметь те же данные, что использовали исследователи. Вероятно, займусь этим как-нибудь позже. А пока в дискуссии мы пришли к выводу, что было бы интересно проверить выявленную зависимость на данных европейских стран. Переход на уровень стран во многом должен решить влияния миграции.

Проверка на европейских данных

Итак, идея в том, чтобы проверить выявленную взаимосвязь на данных о населении и преступности европейских стран. Переход на более высокий уровень агрегации данных призван решить вопрос классификацией территорий на центральные и периферийные.

Данные

  • возрастная структура населения — Human Mortality Database (нас интересует показатель Exposure-to-risk);
  • данные о численности убийств в странах Европы — Eurostat (интересующий нас датасет называется "crim_gen", скачать проще тут).

Данные из двух баз пересеклись в 28 странах (на самом деле 26, просто Шотландия и Северная Ирладндия присутствуют в статистике раздельно). Неплохо. Данные есть, дальше все просто. Рассчитываем ASR, adult sex ratio, отношение мужчин к женщинам в возрасте 15-49 лет (авторы статьи в Human Nature используют возрастной интервал 15-49 лет; отступление от их методологии продиктовано особенностями данных Евростата) и HR, Homicide Rate, коэффициент убийств на 100 тыс. человек местного населения.

Дальше — линейная регрессия. Знаю, что авторы используют более изощренную статистическую модель, но для начала пойдем простым путем.

Чуток о выборе типа регрессионной модели

Дело в том, что регрессия Пуассона имеет большой смысл, когда в большом массиве данных много значений, близких к нулю или нулевых. Для анализа американских графств это, действительно, представляет значительную трудность. При нашем анализе стран вполне можно ограничиться простой линейной регрессией.

Кому интересен вопрос применимости регрессии Пуассона для моделирования процессов с малыми вероятностями (малых коэффициентов) обратите внимание на классическую статью.

Метод широко применим в эпидемиологии. Я использовал регрессии Пуассона в своем недавнем исследовании притока мигрантов в Москву. Там как раз такая ситуация: когда мы рассматриваем миграционные потоки раздельно для мужчин/женщин, пятилетних возрастных групп и 125 районов города, очень часто оказывается, что сочетания всех признаков дают нулевые коэффициенты. Поэтому удобно использовать регрессию Пуассона. Кому интересна статья, вот она (бесплатный постпринт тут):

Но сперва посмотрим на карты.
Вот соотношение полов в возрасте 15-49 лет в странах Европы (здесь и дальше Британия дана как взвешенное среднее составных частей — я поленился искать пространственные данные и возиться с ними).

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2] - 3

Рисунок 2. Соотношение полов в возрасте 15-49 лет в странах Европы

Как видим, разброс достаточно большой (на всякий случай, в Эстонии и Великобритании данные есть, просто значения очень близки в 1). И это наводит на мысль о необходимости дополнительной проверки (но об этом — в конце статьи).

Распространенность убийств в странах Европы сильно различается между Востоком и Западом (рис. 3). В странах Балтики показатель настолько выше, чем в остальных странах Европы (рис. 3-А), что нам придется исключить их (рис. 3-В) из регрессионного анализа как откровенные выбросы.

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2] - 4

Рисунок 3. Коэффициенты убийств, случаев на 100К населения в год.

Наконец, еще одна переменная, включенная в анализ авторами исходного исследования — доля населения за чертой бедности. Карта европейских стран выглядит так (рис. 4).

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2] - 5

Рисунок 4. Доля населения за чертой бедности.

Исключив страны Балтики, приступим, наконец к моделированию.

Регрессионный анализ

Моделируем уровень убийств (hr) с помощью данных о соотношении полов в возрасте 15-49 (asr), дамми-переменных для лет и, во второй модели, доли людей за чертой бедности (pov). Получаем следующий результат (табл. 2).

Таблица 2. Результаты моделирования.

Statistical models
Model 1 Model 2
(Intercept) 98.94 (24.46)*** 97.38 (20.04)***
asr -80.30 (24.01)*** -88.77 (19.69)***
year2001 -0.73 (1.91) -0.72 (1.57)
year2002 -0.75 (1.91) -0.74 (1.57)
year2003 -2.26 (1.91) -2.26 (1.57)
year2004 -1.69 (1.91) -1.68 (1.57)
year2005 -3.47 (1.92) -3.45 (1.57)*
year2006 -4.32 (1.92)* -4.28 (1.57)**
year2007 -3.51 (1.92) -3.46 (1.57)*
pov 0.43 (0.04)***
R2 0.10 0.40
Adj. R2 0.07 0.37
Num. obs. 200 200
RMSE 6.77 5.55
***p < 0.001, **p < 0.01, *p < 0.05

Получается, действительно, более низкое соотношение полов коррелирует с более высокими показателями преступности. И переменная бедности, хотя и объясняет значительную долю вариации в данных, не нейтрализует взаимосвязи между соотношением полов и преступностью.

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2] - 6

Рисунок 5. Корреляция между уровнем преступности (убийства) и соотношением полов во взрослом возрасте.

Однако, давайте заметим, что соотношение полов значительно ниже в Восточной Европе (рис. 2), чем в Западной. Тут мы, вероятно, сталкиваемся еще раз с проявлением влияния миграции, но на сей раз миграции международной. Еще один из законов миграции Равенштейна-Ли утверждает, что в международной миграции, напротив, активнее мужчины. Возможно, что результаты моей небольшой проверки подверглись искажению от международной миграции. Проверим, устранив эффект международной миграции.

Анализ по возрастной структуре из таблиц смертности

Для того, чтобы исключить влияние международной миграции, прибегнем к расчету соотношения полов по таблицам смертности, которые также можно скачать и Human Mortality Database.

Кортоко о периодных таблицах смертности

Таблицы смертности — это базовый инструмент демографов для изучения смертности. Они моделируют вымирание гипотетического поколения. Допустим, мы рассчитываем ТС для страны А в году Х. Исходные данные — возрастные коэффициенты смертности в году Х. Дальше мы моделируем вымирание условного поколения (обычно оно берется численностью 100К, но это не принципиально), допуская, что в каждом возрасте его представители будут умирать с с интенсивностью, характерной для жителей страны А в соответствующем возрасте в году Х.

Прелесть ТС заключается в том, что полученные на ее основании оценки (самая известная — ожидаемая продолжительность жизни) не зависят от возрастной структуры населения. Таким образом, можно корректно сравнивать смертность совершенно разных населений, например, очень старую Японию и совсем молодую Нигерию.

Разумеется, ТС можно рассчитывать раздельно для мужчин и женщин, да, вообще, для любого населения — были бы данные.

Рассчитаем соотношение полов во взрослом возрасте как соотношение численности мужчин и женщин по таблице смертности, умноженное на изначальное соотношение полов при рождении.

Немного о соотношении полов при рождении

Мальчиков всегда и везде рождается больше, чем девочек. Это непреложный закон природы. В среднем на 100 девочек рождается 106 мальчиков.

Справедливости ради, заметим, что, как правило, смертность мужчин выше смертности женщин во всех возрастах. Поэтому к определенному возрасту соотношение полов выравнивается.

Вот как выглядело среднее соотношение полов при рождении в наших странах в 1990-2010 годах (рис. 6).

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2] - 7

Рисунок 6. Первичное соотношение полов в странах Европы (А) и стандартное отклонение показателя (В), 1990-2010.

Как видим, отклонения от 106 незначительны. Однако, я все равно учту их при дальнейших расчетах.

Таким образом, мы получили соотношение полов во взрослом возрасте, каким оно было бы, если бы на численность поколений влияла только смертность. То есть, миграция исключена из рассмотрения. Вот как выглядит наш показатель на карте (рис. 7).

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2] - 8

Рисунок 7. Соотношение полов во взрослом возрасте на основании оценок по таблицам смертности.

Наконец, посчитаем модели с новым соотношение полов во взрослом возрасте. При сходном анализе, получаем следующие модели.

Таблица 3. Результаты моделирования, соотношение полов на основе теблиц смертности.

Statistical models
Model 1 Model 2
(Intercept) 503.99 (78.42)*** 466.81 (63.99)***
asr_lt -4.68 (0.75)*** -4.41 (0.61)***
year2001 -0.76 (1.80) -0.76 (1.46)
year2002 -0.80 (1.80) -0.80 (1.46)
year2003 -2.32 (1.80) -2.32 (1.46)
year2004 -1.78 (1.80) -1.78 (1.46)
year2005 -3.65 (1.80)* -3.65 (1.46)*
year2006 -4.65 (1.80)* -4.65 (1.46)**
year2007 -3.96 (1.80)* -3.96 (1.46)**
pov 0.40 (0.04)***
R2 0.21 0.48
Adj. R2 0.18 0.45
Num. obs. 200 200
RMSE 6.35 5.17
***p < 0.001, **p < 0.01, *p < 0.05

Видим, что коэффициенты при переменной соотношения полов остались негативными и значительно увеличились.

Промежуточный вывод

Результат не оправдал моих ожиданий. Ни переход на уровень стран (для ликвидации эффекта внутренней миграции), ни использование соотношения полов по таблицам смертности (для исключения эффекта международной миграции) не изменил характер взаимосвязи между коэффициентами убийств и соотношением полов во взрослом возрасте.

Во второй части будет проверка гипотезы на американских данных.
Буду признателен за комментарии — наверняка, что-то упустил.

Примечание: публикую статью сейчас для синхронизации с вышедшим сегодня Демографическим Дайджестом. В ближайшее время сделаю апдейт, чтобы включить обещанный в начале статьи R код

Автор: ikashnitsky

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js