Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.
Рубрика «data mining» - 29
Пара мыслей об особенностях Российского Data Science
2018-09-01 в 18:33, admin, рубрики: big data, data mining, data science, machine learning, Privacy, машинное обучениеЧем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью
2018-08-31 в 14:00, admin, рубрики: big data, data mining, data science, data scientist, Wirex, анализ данных, Блог компании Wirex, глубинное обучение, искусственный интеллект, машинное обучение, наука о данныхАвтор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.

Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.Читать полностью »
Анатомия рекомендательных систем. Часть вторая
2018-08-30 в 8:39, admin, рубрики: big data, CleverDATA, data mining, Алгоритмы, Блог компании ГК ЛАНИТ, Ланит, машинное обучениеНеделю назад я делал здесь обзор существующих алгоритмов рекомендаций. В этой статье я продолжу данный обзор: расскажу об item-based варианте коллаборативной фильтрации, о методах, основанных на матричных разложениях, проблемах тестирования, а также о менее «раскрученных» (но не менее интересных) алгоритмах.

Добро пожаловать в эпоху нигилизма приватности
2018-08-28 в 8:06, admin, рубрики: big data, data mining, анализ данных, Киберпанк, приватность, реляционные базы данных, СУБДНа Google и Facebook легко свалить вину, но на самом деле компании собирали, продавали и повторно использовали наши личные данные в течение десятилетий, а теперь, когда общественность наконец заметила, уже слишком поздно. Война за приватность давно закончилась, и мы проиграли.
Месторождение природного газа в Дервезе (Туркменистан) провалилось в подземную пещеру, создав непрерывно горящий кратер диаметром 69 м. Его называют «Врата в ад». Фото: Giles Clarke / Getty
Бариста обжигается на работе, покупает крем для ожогов в магазине Target, а позже в тот день видит рекламу этого продукта в Facebook. В другом Target кто-то кричит товарищу взять Red Bull; по дороге домой Instagram выводит спонсорское сообщение с этим напитком. Женщина занимается выпечкой и вслух восклицает, что хорошо бы купить миксер KitchenAid — и через несколько мгновений видит рекламу на телефоне. Два друга говорят о недавних поездках в Японию, а вскоре одному из них предлагают билеты со скидкой. Охрана аэропорта конфисковала у девушки флакон духов, а по приезду она видит рекламу местных парфюмерных магазинов в Facebook. Это лишь некоторые из многих странных совпадений, которые вызывают у современных пользователей неприятное чувство слежки и потери приватности. Причины иногда безобидны, а иногда и нет. По мере того как эти технологии выходят на свет, некоторые из них требуют нормативного или правового регулирования.
Читать полностью »
KDD 2018, день пятый, завершающий
2018-08-27 в 7:38, admin, рубрики: big data, data mining, kdd2018, machine learning, Блог компании Mail.Ru Group, машинное обучениеВот и завершился пятый, последний день KDD. Удалось услышать несколько интересных докладов от Facebook и Google AI, помайнить футбольные тактики и погенерировать немного химикатов. Об этом и не только — под катом. До встречи через год в Анкоридже, столице Аляски!
Читать полностью »
Как мы сократили время на разработку скоринговых моделей в пять раз, переключившись на Python
2018-08-24 в 8:40, admin, рубрики: Credit Scoring, data mining, data science, machine learning, python, Алгоритмы, банкинг, Блог компании ID Finance, машинное обучение, регрессияСейчас все очень много говорят про искусственный интеллект и его применение во всех сферах работы компании. Однако есть некоторые области, где еще с давних времён главенствует один вид модели, так называемый «белый ящик» — логистическая регрессия. Одна из таких областей – банковский кредитный скоринг.
Читать полностью »
KDD 2018, день четвертый, выступает нобелевский лауреат
2018-08-23 в 13:25, admin, рубрики: big data, data mining, kdd2018, machine learning, Блог компании Mail.Ru Group, машинное обучениеВторой день основной программы KDD. Под катом снова много интересного: от машинного обучения в Pinterest до разных способов прокопаться к водопроводным трубам. В том числе было выступление нобелевского лауреата по экономике — рассказ о том, как NASA работает с телеметрией, и много графовых эмбедингов :)
Читать полностью »
KDD 2018, день третий, основная программа
2018-08-22 в 12:51, admin, рубрики: big data, data mining, kdd2018, machine learning, recommender system, Блог компании Mail.Ru Group, машинное обучениеСегодня, наконец, началась основная программа конференции. Acceptance rate в этом году составила всего 8 %, т.е. выступать должны лучшие из лучших из лучших. Явно разделены прикладные и исследовательские потоки, плюс идет несколько отдельных сопутствующих мероприятий. Прикладные потоки выглядят более интересно, там доклады, в основном, от мэйджоров (Google, Amazon, Alibaba и т.д.). Расскажу о тех выступлениях, на которых удалось побывать.
Читать полностью »
KDD 2018, день второй, семинары
2018-08-21 в 13:01, admin, рубрики: big data, data mining, kdd2018, machine learning, анализ временных рядов, Блог компании Mail.Ru Group, машинное обучениеСегодня на KDD 2018 день семинаров — вместе с большой конференцией, которая начнется завтра, несколько групп собрали слушателей по некоторым специфичным темам. Побывал на двух таких тусовках.
Читать полностью »
Анатомия рекомендательных систем. Часть первая
2018-08-21 в 8:13, admin, рубрики: big data, CleverDATA, data mining, data scientist, Алгоритмы, алгоритмы рекомендаций, Блог компании ГК ЛАНИТ, дата саентист, Ланит, машинное обучение, рекомендательные системыЯ работаю дата-саентистом в компании CleverDATA. Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых решений — это разработка рекомендательных моделей.
В данной статье я расскажу о рекомендательных системах, постараюсь дать максимально полный обзор существующих подходов и на пальцах объясню принципы работы алгоритмов. Часть материала базируется на неплохом курсе по рекомендательным системам лаборатории MovieLens (которая большинству знакома по одноименному датасету для тестирования рекомендаций), остальное – из личного опыта. Статья состоит из двух частей. В первой описана постановка задачи и дан обзор простых (но популярных) алгоритмов рекомендаций. Во второй статье я расскажу о более продвинутых методах и некоторых практических аспектах реализации.
