Видео, доклады и краткий отчет для тех, кто не приехал и не успел посмотреть прямую трансляцию.
В офисе Superjob состоялся Data Science Meetup. Послушать доклады пришли около ста аналитиков и разработчиков, включая специалистов из Renault, Тинькофф банк, Эльдорадо, SAP, Вымпелком, Delloite, ВТБ и тд. Около 500 человек смотрели прямую трансляцию.
Первым выступил Дмитрий Кожокарь, старший разработчик Superjob. Он рассказал об опыте решения задачи по объединению похожих вакансий в группы и последующего формирования на их основе поисковой выдачи вакансий. Необходимо было эффективно очистить результаты поиска от очень похожих вакансий с учетом требований со стороны клиентов и бизнеса.
В своем докладе Дмитрий раскрыл практику реализации алгоритмов решения задач обработки естественного языка. Также он привел технические подробности применения алгоритма SimHash и иерархической кластеризации. В завершение доклада Дмитрий перечислил показатели эффективности, по которым компания оценила успешность разработанного алгоритма.
Презентация Дмитрия здесь.
Максим Савченко, руководитель разработки моделей Центра компетенций исследования и разработки моделей «Сбербанк-Технологии», рассказал об особенностях применения методов машинного обучения в задачах управления персоналом (HRM), технических проблемах и юридических ограничениях при разработке и внедрении такого рода моделей. В докладе были также представлены результаты пилотов, проведенных в Сбербанке, по разработке статистической модели оценки благонадёжности кандидатов при массовом подборе персонала (антифрод модель) и модели, позволяющей связать эффективность подразделения с профессиональными качествами и действиями сотрудников подразделения и особенностями организации работы этого подразделения (влияние текучки персонала, трудовой и исполнительской дисциплины сотрудников, квалификации и образования и т.д.). В качестве входных данных использовалась информация из кадровой системы, табели учета рабочего времени, информация о кредитной истории кандидатов и результаты входного анкетирования кандидатов.
Презентация Максима здесь.
Евгений Григоренко, эксперт по стратегическим технологиям Microsoft, представил опыт использования машинного обучения применительно к анализу медицинских данных. Особое внимание он обратил на необходимость проверки модели и визуализации результатов, а также упомянул об ограниченной применимости нейронных сетей из-за недоказуемости результата. Евгений рассказал о своем опыте построения метода, выявляющего зависимости между кислотно-щелочным состоянием крови пациента (КЩС) и информацией о состоянии пациента, находящегося в реанимации. На входе у него имелись по 16 параметров состава крови для каждого взятия анализа (пациентам реанимации его делают дважды в сутки) и данные о состоянии пациента при выписке из реанимации. Евгений упомянул об очень большом количестве методов, которые он перебрал в поиске решения, и описал, как была найдена успешная гипотеза. Гипотеза проверялась в течение полугода и сейчас успешно применяется в клинических исследованиях.
Презентация Евгения здесь.
Автор: Superjob.ru