Подходит к концу наш первый конкурс по машинному обучению и анализу данных — Multimodal Emotion Challenge Recognition (MERC-2017) на площадке Datacombats. В этом посте мы хотели бы представить небольшой анализ аудитории, своеобразный коллективный «портрет».
Демография участников
Всего на конкурс зарегистрировалось 275 человек. Отметим, что мы довольны тем демографическим срезом, который был получен в итоге. В целом, можно сказать, что сюрпризов не случилось — усредненный профиль участника полностью отвечает задачам конкурса.
Пол
Гендерный состав предсказуем: основная часть аудитории — мужская. Женская часть аудитории составила почти 15%, что, в общем-то, отражает текущий мировой уровень представленности прекрасного пола в сфере IT.
Возраст
По этому признаку самая многочисленная группа — участники в возрасте от 20 до 25 лет, то есть студенты, аспиранты и молодые специалисты. Эти данные коррелируют с родом занятий участников, описанным ниже. На втором месте возрастная группа от 26 до 35 лет. Вероятно, уместно говорить о том, что data science и machine learning как «горячие» области знаний привлекают выпускников и экспертов, заточенных на активное развитие карьеры именно в этой сфере, с учетом её рыночной востребованности и заманчивых перспектив.
География по регионам
Географическое распределение также вышло довольно-таки предсказуемым: половина — это участники из России. Однако мы рады, что удалось если не охватить (над этим нам еще предстоит работать далее), то, как минимум, «зацепить» представителей самых разных государств во всех уголках света.
География стран проживания участников конкурса:
СНГ: Россия, Украина, Беларусь
Южная Азия: Индия, Бангладеш, Пакистан
Западная Европа: Франция, Германия, Великобритания, Бельгия, Нидерланды, Швейцария, Испания, Португалия, Греция
Северная Америка: США, Канада
Юго-Восточная Азия: Индонезия, Малайзия, Тайланд, Вьетнам
Восточная Европа: Румыния
Южная Америка: Аргентина, Бразилия, Гайана, Перу, а таже заморские владения Франции — Гваделупа и Сен-Мартен
Африка: Марокко, Египет, Республика Конго
Западная Азия: Турция, Израиль
Топ-11 стран
Топ-9 городов России
Если брать только российскую аудиторию, то здесь в ТОП-3 вошли Москва, Новосибирск и Санкт-Петербург, при этом столица лидирует с большим отрывом (45,6%). В ТОПе есть представители и других российских центров с сильной экспертизой по направлению data science — Нижний Новгород, Екатеринбург, Томск, Казань. Почему-то совсем выпали, например, Воронеж, Калининград, Дальний Восток (постараемся в следующий раз это исправить).
Род занятий
По роду занятий участников ключевую группу составляют студенты технических/IT специальностей (34,2%). Второе место делят между собой представители академии (ученые, исследователи, научные сотрудники) и представители IT-сектора (Разработчики ПО/программисты). На третьем месте специалисты по data science. Классификация условная, так как составлена на основании анкетных данных, где род деятельности участники описывают в свободной форме.
Вузы
Что касается учебных заведений, то большинство участников — студенты и выпускники российских вузов. В первой пятерке: Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ), Московский государственный университет имени М.В.Ломоносова (МГУ), Новосибирский государственный университет, Сколтех и Московский физико-технический институт (МФТИ). Однако в ТОП попали и 2 зарубежных вуза — Белорусский государственный университет и Технический Университет Клуж-Напока (Румыния).
С интересом отметили для себя, что на конкурс зарегистрировались представители многих престижных вузов, вот лишь некоторые из них:
США: Массачусетский технологический институт, Университет Карнеги — Меллон, Калифорнийский университет в Беркли, Мичиганский университет, Университет штата Пенсильвания.
Китай: Китайская академия наук, Шанхайский университет, Пекинский университет, Чжэцзянский университет.
Южная Корея: Сеульский университет, Корейский институт передовых технологий, Университет Гачон.
Индия: Индийский технологический институт в Мумбаи.
Малайзия: Университет Путра.
Украина: Киевский политехнический институт, Львовский национальный университет имени Ивана Франко.
Германия: Ульмский университет, Мюнхенский технический университет, Университет Пассау, Брауншвейгский технический университет.
Швейцария: Швейцарская высшая техническая школа Цюриха.
Франция: Политехническая школа (Париж).
Испания: Университет Помпеу Фабра.
Португалия: Лиссабонский университет.
Греция: Афинский политехнический университет.
Израиль: Еврейский университет в Иерусалиме.
Специальность
Если посмотреть чуть более пристально на специализацию, которую указали участники, то сразу стоит уточнить, что некоторые обозначали ее достаточно широко (IT или компьютерные науки), а другие, напротив, старались дать точное определение (привести официальное название специальности или тему диплома). Для нас очевидно, что основная масса зарегистрировавшихся участников — это представители профильных направлений, нас слегка удивил только писатель-фрилансер, все остальное кажется закономерным и объяснимым.
Сумма всех опций составляет больше 100%, так как некоторые участники указали сразу несколько профильных специализаций.
Резюме
Мы продолжим двигаться в трех направлениях:
- Работа над продвижением площадки и формированием лояльного к Emotion AI проблематике сообщества. Предвещая возможные вопросы о том, почему мы не пошли на Kaggle, — мы хотим выстроить вокруг себя коммьюнити, связанное с эмоциональными вычислениями и технологиями распознавания эмоций, и, разумеется, стоять у руля:).
- Охват более широкой аудитории. Нам точно есть куда расти. Например, среди участников не было представителей многих региональных вузов. Даже столичные технические вузы были представлены не в полном составе. И, конечно, мы заинтересованы в том, чтобы состав участников в дальнейшем был по-настоящему интернациональным. Мы сознательно сделали площадку англоязычной. Почему? Мы полагаем, что только на полностью открытой для всех платформе в условиях прозрачной конкуренции и духа соревнования могут родиться действительно прорывные идеи. Иными словами, если вам известно, где (сообщества, форумы, блоги) проводят свое время китайские, индийские, американские, французские, немецкие, бразильские, японские, малайзийские, корейские, австралийские машин-лёрнеры и дата-сайентисты, будем благодарны за наводку в комментариях.
- Вовлеченность аудитории. Итак, участники скачали данные и ушли работать либо… просто ушли. Поскольку основная часть работы проходит за кадром, очень сложно диагностировать: «пациент скорее жив, чем мертв, или скорее мертв, чем жив». В первом конкурсе все наши посты носили информационно-организационный характер. Мы ожидали, что содержательные вопросы будут исходить в большей степени от участников; полагаем, что нам как организаторам стоит более активно инициировать содержательные дискуссии по тематике конкурса. Полагаем, что стоит ввести контрольные точки по ходу конкурса и связать их с призовой политикой. В общем, будем думать над инструментами.
О победителях MERC-2017 и решениях-финалистах мы расскажем подробнее в следующем посте, после официального завершения конкурса.
Автор публикации:
Александра Смирнова, эксперт по краудсорсинговым проектам и внешним связям Neurodata Lab
Автор: IgorLevin