Всем привет! Меня зовут Миша Каменщиков, я занимаюсь Data Science и разработкой микросервисов в команде рекомендаций Авито. В этой статье я расскажу про наши рекомендации похожих объявлений и о том, как мы улучшаем их при помощи многоруких бандитов. С докладом на эту тему я выступал на конференции Highload++ Siberia и на мероприятии «Data & Science: Маркетинг».
Рубрика «data mining» - 30
Многорукие бандиты в рекомендациях
2018-08-14 в 9:53, admin, рубрики: data mining, python, Алгоритмы, Блог компании Avito, машинное обучение, многорукие бандиты, рекомендательные системыDeep Learning: Распознавание сцен и достопримечательностей на изображениях
2018-08-08 в 11:37, admin, рубрики: big data, data mining, SmartData, smartdata2018, Блог компании JUG.ru Group, искусственный интеллект, машинное обучениеВремя пополнять копилку хороших русскоязычных докладов по Machine Learning! Копилка сама не пополнится!
В этот раз мы познакомимся с увлекательным рассказом Андрея Боярова про распознавание сцен. Андрей — программист-исследователь, занимающийся машинным зрением в компании Mail.Ru Group.
Распознавание сцен — одна из активно применяемых областей машинного зрения. Задача эта посложнее, чем изученное распознавание объектов: сцена — более комплексное и менее формализованное понятие, выделить признаки труднее. Из распознавания сцен вытекает задача распознавания достопримечательностей: нужно выделить известные места на фото, обеспечив низкий уровень ложных срабатываний.
Это 30 минут видео с конференции Smart Data 2017. Видео удобно смотреть дома и в дороге. Для тех же, кто не готов столько сидеть у экрана, или кому удобней воспринимать информацию в текстовом виде, мы прикладываем полную текстовую расшифровку, оформленную в виде хабростатьи.
Ищем докладчиков на Moscow Data Science Major
2018-08-08 в 10:48, admin, рубрики: big data, data mining, data science, mail.ru group, meetup, Блог компании Mail.Ru Group, машинное обучение
1 сентября Mail.Ru Group и сообщество Open Data Science проведут крупнейший митап Moscow Data Science.
Откроем новый учебный и рабочий год целым днём секций и нетворкинга!
Читать полностью »
«Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике» — Кирилл Данилюк, Data Scientist
2018-08-03 в 6:45, admin, рубрики: big data, data mining, Блог компании New Professions Lab, машинное обучениеПривет! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, отличие ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.
— Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?
— У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.
Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.
Читать полностью »
Правда и ложь систем распознавания лиц
2018-07-29 в 22:02, admin, рубрики: data mining, face recognition, mtccnn, NIST, Ntech, visionlabs, Vocord, Алгоритмы, биометрия, Блог компании Recognitor, лица, машинное обучение, обработка изображений, распознавание лицПожалуй нет ни одной другой технологии сегодня, вокруг которой было бы столько мифов, лжи и некомпетентности. Врут журналисты, рассказывающие о технологии, врут политики которые говорят о успешном внедрении, врут большинство продавцов технологий. Каждый месяц я вижу последствия того как люди пробуют внедрить распознавание лиц в системы которые не смогут с ним работать.
Тема этой статьи давным-давно наболела, но было всё как-то лень её писать. Много текста, который я уже раз двадцать повторял разным людям. Но, прочитав очередную пачку треша всё же решил что пора. Буду давать ссылку на эту статью.
Итак. В статье я отвечу на несколько простых вопросов:
- Можно ли распознать вас на улице? И насколько автоматически/достоверно?
- Позавчера писали, что в Московском метро задерживают преступников, а вчера писали что в Лондоне не могут. А ещё в Китае распознают всех-всех на улице. А тут говорят, что 28 конгрессменов США преступники. Или вот, поймали вора.
- Кто сейчас выпускает решения распознавания по лицам в чём разница решений, особенности технологий?
Большая часть ответов будет доказательной, с сылкой на исследования где показаны ключевые параметры алгоритмов + с математикой расчёта. Малая часть будет базироваться на опыте внедрения и эксплуатации различных биометрических систем.
Я не буду вдаваться в подробности того как сейчас реализовано распознавание лиц. На Хабре есть много хороших статей на эту тему: а, б, с (их сильно больше, конечно, это всплывающие в памяти). Но всё же некоторые моменты, которые влияют на разные решения — я буду описывать. Так что прочтение хотя бы одной из статей выше — упростит понимание этой статьи. Начнём!
Читать полностью »
Зов Даты, или Как прошел второй хакатон Почты Mail.Ru
2018-07-19 в 13:17, admin, рубрики: data mining, data science, Блог компании Mail.Ru Group, почта mail.ru, хакатон, Хакатоны14-15 июля Почта Mail.Ru провела свой второй хакатон SmartMail Hack 2: Call of Data. Участникам нужно было разработать новое, интересное и полезное решение для представления данных из Почты. И по горячим следам спешим рассказать о победивших на хакатоне проектах.
3-е место в отборочном этапе DataScienceGame 2018
2018-07-18 в 11:05, admin, рубрики: data mining, DataScienceGame, kaggle, Алгоритмы, анализ данных, Блог компании Open Data Science, машинное обучение, Программирование
Недавно закончился отборочный этап DataScienceGame2018, который проходил в формате kaggle InClass. DataScienceGame — это международное студенческое соревнование, которое проводится на ежегодной основе. Нашей команде удалось оказаться на 3м месте среди более чем 100 команд и при этом НЕ пройти в финальный этап.
Читать полностью »
4 года Data Science в Schibsted Media Group
2018-07-18 в 8:28, admin, рубрики: big data, data mining, data science, data scientist, okr, аналитика, карьера, машинное обучение, менеджер продуктов, причинно-следственные связи, причинность, прогнозирование, сложность, управление данными, управление командой, управление персоналом, Управление продуктом
В 2014-м году я присоединился к небольшой команде в Schibsted Media Group в качестве 6-го специалиста по Data Science в этой компании. С тех пор я поработал над многими начинаниями в области Data Science в организации, в которой теперь таких уже 40 с лишним человек. В этом посте я расскажу о некоторых вещах, о которых узнал за последние четыре года, сперва как специалист, а затем как менеджер Data Science.
Этот пост следует примеру Robert Chang и его отличной статьи «Doing Data Science in Twitter», которую я нашел очень ценной, когда впервые прочитал ее в 2015-м году. Цель моего собственного вклада ― поведать настолько же полезные мысли специалистам и менеджерам Data Science по всему миру.
Я поделил пост на две части:
- Часть I: Data Science в реальной жизни
- Часть II: Управление командой Data Science
Запускаем LDA в реальном мире. Подробное руководство
2018-07-14 в 7:35, admin, рубрики: data mining, data science, LDA, nlp, python, искусственный интеллект, машинное обучение, Программирование, тематическое моделированиеПредисловие
На просторах интернета имеется множество туториалов объясняющих принцип работы LDA(Latent Dirichlet Allocation — Латентное размещение Дирихле) и то, как применять его на практике. Примеры обучения LDA часто демонстрируются на "образцовых" датасетах, например "20 newsgroups dataset", который есть в sklearn.
Особенностью обучения на примере "образцовых" датасетов является то, что данные там всегда в порядке и удобно сложены в одном месте. При обучении продакшн моделей, на данных, полученных прямиком из реальных источников все обычно наоборот:
- Много выбросов.
- Неправильная разметка(если она есть).
- Очень сильные дисбалансы классов и 'некрасивые' распределения каких-либо параметров датасета.
- Для текстов, это: грамматические ошибки, огромное кол-во редких и уникальных слов, многоязычность.
- Неудобный способ харнения данных(разные или редкие форматы, необходимость парсинга)
Исторически, я стараюсь учиться на примерах, максимально приближенных к реалиям продакшн-действительности потому, что именно таким образом можно наиболее полно прочувстовать проблемные места конкретного типа задач. Так было и с LDA и в этой статье я хочу поделиться своим опытом — как запускать LDA с нуля, на совершенно сырых данных. Некоторая часть статьи будет посвящена получению этих самых данных, для того, чтобы пример обрел вид полноценного 'инженерного кейса'.
С точностью до сотых: топ-10 докладов SmartData 2017
2018-07-13 в 11:59, admin, рубрики: big data, data mining, SmartData, Блог компании JUG.ru Group, доклады, конференция
Зрители конференции SmartData — люди, которые любят работать с данными. Надо полагать, что и оценки докладам после прошлогодней конференции они выставляли очень вдумчиво.
А теперь по этим оценкам мы составили топ-10 видеозаписей. И заодно, чтобы порадовать любителей данных, указали по каждому из десяти докладов все сопутствующие числа: место в топе, точный зрительский рейтинг, количество зрителей.
Вообще говоря, зачастую у соседних позиций в топе рейтинги различаются незначительно. Так что, пожалуй, не стоит придавать много значения «кто идёт за кем» — важнее, что все эти доклады получили высокие оценки. Но с другой стороны, как же это не придавать много внимания числам, когда это так увлекательно!
Читать полностью »