Нужно ли вам красивое резюме? Оцениваем результаты эксперимента с помощью статистики

Недавно YouTube подкинул мне видео об оценке эффективности резюме. Автор ролика создал пять вариантов, чтобы изучить влияние четырёх факторов: имени соискателя, названия компании, перерыва в работе и оформления. Каждое резюме было отправлено на 100 релевантных вакансий.

Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Яндекс Практикуме. В этом тексте я расскажу, какие результаты показал эксперимент из YouTube, и попробую выяснить, являются ли они статзначимыми.

Нужно ли вам красивое резюме? Оцениваем результаты эксперимента с помощью статистики - 1

Как работодатели отреагировали на резюме в видео

№1. Скучное стандартное резюме белого (если судить по имени) мужчины с упоминанием работы в Meta Деятельность Meta Platforms Inc. запрещена на территории РФ на самом видном месте. Вариант получил 18 приглашений на собеседование.
№2. То же резюме, но упоминание Meta Деятельность Meta Platforms Inc. запрещена на территории РФ запрятано в середину документа, а на самом видном месте — noname-компания. 10 приглашений на собеседование.
№3. Резюме №1, выполненное в красивом шаблоне Canva. Итог — 8 (!!!) приглашений на собеседование.
№4. Резюме №1, но с женским именем в заголовке, и у женщины, судя по имени, явно есть этнические корни. 10 приглашений на собеседование.
№5. Резюме №1, но с перерывом в работе в три года. 8 приглашений на собеседование.

Внимание, вопрос. Являются ли эти результаты статзначимыми?

В данном случае у нас получился A/B/n-тест. Это такой A/B-тест, в котором при одной контрольной группе А (в нашем случае резюме №1) мы создали несколько тестовых групп (резюме №2, №3, №4 и №5).

Для оценки результатов теста воспользуемся методами из бесплатного курса «Основы статистики и A/B-тестирования» от Яндекс Практикума.

Формулировка гипотез

В данном исследовании мы используем двухстороннюю альтернативную гипотезу. Так мы сможем проверить, есть ли значимые различия в количестве приглашений на собеседование у различных версий резюме как в сторону возрастания результатов, так и в сторону убывания. Даже несмотря на то, что все тестовые резюме показали худший результат относительно контрольного.

Нулевая гипотеза (H0): различия в долях приглашений на собеседование для резюме №1 и резюме №2 не являются статистически значимыми.
Альтернативная гипотеза (H1): различия в долях приглашений на собеседование для резюме №1 и резюме №2 являются статистически значимыми.

Мы будем сравнивать не только результаты рассылки резюме №2 с результатами рассылки резюме №1. Также мы сравним результаты рассылки резюме №3, №4 и №5 с результатами контрольной группы — резюме №1. При этом мы будем подменять в формулировках гипотез номер 2 на номер соответствующего резюме.

Выбор критерия

Будем использовать z-критерий для долей. Он используется в статистике для сравнения двух пропорций, измеренных в двух независимых выборках. Этот метод особенно полезен, когда требуется оценить, есть ли статистически значимые различия между долями успеха в двух различных группах — как раз наш случай.

Z-критерий основан на стандартной нормальной кривой (z-распределении) и рассчитывается следующим образом:

$z=frac{left(p_1-p_iright)}{sqrt[]{p left(1-pright)left(frac{1}{n_1}+frac{1}{n_i}right)}}$

где p1 и p2 — доли успеха в первой и второй группах соответственно, n1 и n2 — размеры этих групп, и p — комбинированная пропорция успеха, рассчитанная по формуле:

$p=frac{left(x_1+x_iright)}{left(n_1+n_2right)}$

где x1 и x2 — количество успехов в каждой группе.

Если вычисленное значение z-статистики попадает в критический диапазон стандартного нормального распределения (обычно используются значения ±1.96 для α = 0.05), то различия считаются статистически значимыми. Это указывает на то, что наблюдаемые различия в долях между двумя группами не случайны.

Уровень α

Возьмём стандартный уровень α = 0,05. Это означает, что мы допускаем 5%-й шанс допустить ошибку первого рода — то есть ошибочно отклонить нулевую гипотезу, когда она на самом деле верна.

Расчёты

Для начала вычислим доли успеха для каждого резюме:

Резюме №1 (контрольное): 18 приглашений, p1 = 0,18.
Резюме №2: 10 приглашений, p2 = 0,10.
Резюме №3: 8 приглашений, p3 = 0,08.
Резюме №4: 10 приглашений, p4 = 0,10
Резюме №5: 8 приглашений, p5 = 0,08

Теперь по формулам, приведённым выше, вычислим z-значения и сравним их с контрольным значением ±1.96:

резюме №1 и резюме №2: z ≈ 1,63, p-значение больше 0,05. Различие не является статистически значимым.
резюме №1 и резюме №3: z ≈ 2,10, p-значение меньше 0,05. Различие является статистически значимым.
резюме №1 и резюме №4: z ≈ 1,63, p-значение больше 0,05. Различие не является статистически значимым.
резюме №1 и резюме №5: z ≈ 2,10, p-значение меньше 0,05. Различие является статистически значимым.

Ого! Мы получили статистически значимые отличия между результатами рассылки резюме №1 и №3, а также между результатами рассылки резюме №1 и №5. Значит, мы можем с уверенностью утверждать, что красивый шаблон для резюме и перерыв в работе около трёх лет снижают ваши шансы на трудоустройство.

Или нет?

Множественная проверка гипотез

Тут нам помогут методы из курса «Математика для анализа данных» от Яндекс Практикума. Нужные формулы находятся в модуле «Статистические методы».

Когда проводится несколько независимых тестов, вероятность того, что хотя бы один из них приведёт к ложноположительному результату, увеличивается. Предположим, что тесты независимы, тогда вероятность не получить ни одного ложноположительного результата в каждом тесте составляет 1−α. Если мы проводим m таких тестов, то вероятность не получить ни одной ошибки первого рода во всех тестах составляет $left(1-alpha right)^{m}$ . Таким образом, вероятность того, что хотя бы в одном из тестов произойдёт ошибка первого рода, равна: $1-left(1-alpha right)^{m}$ .

В нашем случае мы проводили четыре проверки гипотез, то есть m = 4. Используя указанную формулу, получим вероятность совершить хотя бы одну ошибку первого рода $1−{}{left(1-0,05right)^{4}}=0,1855$ .

Чтобы контролировать этот риск и сохранить общий уровень значимости на заданном уровне 0,05, применяются корректировки на множественные сравнения, такие как поправки Холма или Бонферрони.Эти методы корректируют критерии принятия решений, чтобы уменьшить вероятность ложноположительных результатов и обеспечить более надёжные выводы.

Поправка Бонферрони очень проста в объяснении, но очень сильна. При её применении отклонить нулевую гипотезу удаётся крайне редко. Мы будем использовать поправку Холма. Для этого мы:

Упорядочим p-значения от самого маленького до самого большого.
Применим поправку по формуле: для i-го p-значения: ), где m — общее количество тестов, а α — общий уровень значимости.

Перейдём от z-значений к p-значениям (мы сделаем это за пределами статьи, допустим, с помощью таблиц).

p12 ≈ 0,103 (для сравнения резюме 1 и 2)
p13 ≈ 0,036 (для сравнения резюме 1 и 3)
p14 ≈ 0,103 (для сравнения резюме 1 и 4)
p15 ≈ 0,036 (для сравнения резюме 1 и 5)

Теперь упорядочим их по возрастанию:

p13 ≈ 0,036
p15 ≈ 0,036
p12 ≈ 0,103
p14 ≈ 0,103

Посчитаем новые скорректированные поправкой Холма α:

для первого (самого маленького) p-значения: α1 = 0,05 / 4 = 0,0125
для второго p-значения: α2 = 0,05 / 3 ≈ 0,0167
для третьего p-значения: α3 = 0,05 / 2 = 0,025
для четвёртого p-значения: α4 = 0,05 / 1 = 0,05

Увы, но теперь все p-значения выше уровня скорректированных α. Значит, мы НЕ можем с уверенностью утверждать, что любое из изученных отклонений от стандартного резюме снижают ваши шансы на трудоустройство.

Так как оформлять резюме?

Результаты из видео могут подвести нас к красноречивым выводам, но на самом деле всё не так драматично — и влияние на трудоустройство опыта работы в большой компании, перерыва в карьере, пола или этнической принадлежности эксперимент автора на самом деле не доказывает.

Возвращаемся к вопросу из заголовка — нужно ли вам красивое резюме? С одной стороны, мы не доказали вредность красивых шаблонов. С другой, мягко говоря, полезность подобных улучшений также не доказана. А раз не доказано наличие статистически значимого положительного влияния, зачем тратить время?

Автор: OlgaDS

Источник