Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи

в 7:42, , рубрики: python, анализ данных, аналитика, пет-проект, пет-проекты, собеседование, собеседование в IT, собеседование вопросы, собеседование для новичка, собеседование на работу

Привет! Я проанализировал 600 публичных мок-интервью с YouTube и собрал из них 10 000 уникальных вопросов. Затем посчитал, как часто они встречаются, и определил вероятность появления каждого вопроса. У меня есть данные по 20 профессиям, включая frontend, python, java-разработчика, специалиста по тестированию и многих других.

Ниже на изображении представлены первые 15 вопросов для python-разработчика. Всего в моей базе 1100 вопросов для этой специальности.

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи - 1

Проблема

Это исследование для меня, началось с того, что я в попытке подготовиться к предстоящим тех. собесам начал собирать базу вопросов для python-разработчика. Я открывал ролики на YouTube и выписывал в Notion вопросы, а также ответы к ним.

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи - 2

В итоге у меня накопилось около 500 вопросов. Следующим этапом было их повторение: для этого я загрузил все вопросы в Anki и приступил к их изучению методом интервальных повторений. 😆 Поймите правильно, я не пытался их заучить втупую, мне хотелось поупражняться, симулировать собеседование.

Однако в процессе стало понятно, что попытка детально изучить все 500 вопросов потребует огромного количества времени. Возможно, это помогло бы мне успешно пройти собеседование, но цена этого успеха казалась слишком высокой. Я хотел определить топ 100-200 наиболее популярных вопросов, чтобы сфокусироваться на них и не тратить время на редкие.

Но как понять, какие вопросы более популярные?

Будучи начинающим разработчиком и осознавая необходимость в практике и пет-проекте для портфолио, я решил провести анализ этих данных и разместить результаты на созданном мной сайте.

Я разбил работу на несколько этапов.

  1. Поиск и сбор публичных интервью на YouTube.

  2. Сбор вопросов из видео.

  3. Сортировка вопросов.

  4. Оценка вероятности появления каждого вопроса.

Поиск и сбор публичных интервью на YouTube

Первый этап, хоть и казавшийся простым, играл ключевую роль. Количество собранных видео напрямую влияло на всю последующую работу: меньше видео — меньше вопросов. Цель была максимально исчерпать ресурс YouTube. В итоге было найдено 630 видео.

Сбор вопросов из видео

Наибольшей сложностью здесь стало то, что интервью ведут живые люди. Они используют повседневный язык, задают несколько вопросов за раз, иногда формулируют их нечетко или говорят невнятно. Бывает, что контекст вопроса узок, а некоторые даже в публичных интервью не стеснялись издеваться: "Ну и что? Теперь считаешь себя джуном?"

Хотя такую задачу и можно было бы автоматизировать, я решил обработать все вопросы вручную из-за множества нюансов. Некоторые вопросы требовали переформулировки, некоторые — разбиения на несколько, а иногда и вовсе отсеивания. Примерно 95% вопросов требовали человеческого вмешательства. Плюсом ко всему я собирал ссылки на тайм-коды, чтобы собрать дополнительно видео-ответы.

В конечном итоге, я сформулировал техническое задание из 15 пунктов по обработке вопросов и разделил работу между фрилансерами. Это позволило быстро и экономно завершить сбор.

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи - 3

Результатом сбора вопросов, стали списки вопросов и ссылок с собеседований

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи - 4

Сортировка вопросов

Как я упоминал ранее, один и тот же вопрос может быть сформулирован по-разному. К тому же, среди собранных вопросов были повторения. Задачей стало определение уникальных вопросов и группировка их различных формулировок.

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи - 5

Оценка вероятности появления каждого вопроса.

Первоначально я рассматривал идею составления топа-100 вопросов, однако это оказалось неудачным решением, так как этот список не отражал реальной картины. Ведь как часто вопрос, занимающий 5-е место, задают по сравнению с вопросом на 50-ом месте? А может, на 77-ом месте одновременно находятся несколько вопросов?

Мне понадобился показатель, который бы четко отражал значимость вопроса. Первая мысль — указать частоту встречаемости каждого вопроса. Но что означает частота — 40 раз? Это много или мало? Я решил, что лучше всего было бы представить эту информацию в виде процентной вероятности. Вопрос "Расскажи о себе" задается почти на 100% технических интервью, и это актуально для любой профессии. Он стал эталоном для расчета вероятности всех остальных.

Результаты исследования доступны на сайте easyoffer.ru. Приглашаю вас ознакомиться! А я, завершив этот пет-проект, начинаю активно искать работу и жду вас в моем телеграм-канале Идущий к IT.

Автор: Кивайко Алексей

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js