Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.
Рубрика «data science» - 22
Пара мыслей об особенностях Российского Data Science
2018-09-01 в 18:33, admin, рубрики: big data, data mining, data science, machine learning, Privacy, машинное обучениеЧем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью
2018-08-31 в 14:00, admin, рубрики: big data, data mining, data science, data scientist, Wirex, анализ данных, Блог компании Wirex, глубинное обучение, искусственный интеллект, машинное обучение, наука о данныхАвтор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.

Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.Читать полностью »
Деньги на ветер: почему ваш антифишинг не детектирует фишинговые сайты и как Data Science заставит его работать?
2018-08-31 в 13:09, admin, рубрики: data science, threat intelligence, антифишинг, Блог компании «Group-IB», информационная безопасностьВ последнее время фишинг является наиболее простым и популярным у киберпреступников способом кражи денег или информации. За примерами далеко ходить не нужно. В прошлом году ведущие российские предприятия столкнулись с беспрецедентной по масштабу атакой — злоумышленники массово регистрировали фейковые ресурсы, точные копии сайтов производителей удобрений и нефтехимии, чтобы заключать контракты от их имени. Средний ущерб от такой атаки — от 1,5 млн рублей, не говоря уже про репутационный ущерб, который понесли компании. В этой статье мы поговорим о том, как эффективно детектировать фишинговые сайты с помощью анализа ресурсов (изображений CSS, JS и т.д.), а не HTML, и как специалист по Data Science может решить эти задачи.Читать полностью »
Поддержка Python в Power BI
2018-08-27 в 7:00, admin, рубрики: data, data science, microsoft, Power BI, python, анализ данных, Блог компании Microsoft, визуализация, визуализация данных, математикаМы рады сообщить, что Python, язык программирования, широко используемый статистиками, учеными и аналитиками, теперь интегрирован в наш open-source Power BI Desktop. После включения функции в настройках вы cможете использовать Python для очистки, анализа и визуализации данных. Подробнее под катом!
Как мы сократили время на разработку скоринговых моделей в пять раз, переключившись на Python
2018-08-24 в 8:40, admin, рубрики: Credit Scoring, data mining, data science, machine learning, python, Алгоритмы, банкинг, Блог компании ID Finance, машинное обучение, регрессияСейчас все очень много говорят про искусственный интеллект и его применение во всех сферах работы компании. Однако есть некоторые области, где еще с давних времён главенствует один вид модели, так называемый «белый ящик» — логистическая регрессия. Одна из таких областей – банковский кредитный скоринг.
Читать полностью »
Moscow Data Science Major: анонс и регистрация
2018-08-23 в 6:48, admin, рубрики: big data, computer vision, data science, deep learning, machine learning, mail.ru group, Moscow Data Science, ods, Алгоритмы, Блог компании Mail.Ru Group, искусственный интеллект, машинное обучение1 сентября Mail.Ru Group и сообщество Open Data Science проведут крупнейший митап Moscow Data Science Major. Событие состоит из пяти тематических блоков докладов, одной ML-тренировки и целого зала для нетворкинга и знакомств.
Знакомьтесь с программой и регистрируйтесь! Вход на событие бесплатный, по одобренной регистрации.
Читать полностью »
Открытый вебинар «Наивный байесовский классификатор»
2018-08-20 в 15:10, admin, рубрики: big data, data mining, data science, Байес, Блог компании Отус, классификация, машинное обучениеВсем привет!
В рамках нашего курса Data Scientist мы провели открытый урок на тему «Наивный баейсовский классификатор». Занятие вёл преподаватель курса Максим Кретов — ведущий исследователь в лаборатории нейронных сетей и глубокого обучения (МФТИ). Предлагаем ознакомиться с видео и кратким изложением.
Заранее спасибо.
Ищем докладчиков на Moscow Data Science Major
2018-08-08 в 10:48, admin, рубрики: big data, data mining, data science, mail.ru group, meetup, Блог компании Mail.Ru Group, машинное обучение1 сентября Mail.Ru Group и сообщество Open Data Science проведут крупнейший митап Moscow Data Science.
Откроем новый учебный и рабочий год целым днём секций и нетворкинга!
Читать полностью »
Почему вам стоит улучшить тренировочные данные, и как это сделать
2018-08-02 в 14:04, admin, рубрики: big data, data science, Блог компании Отус, классификаторы, машинное обучение, ПрограммированиеВсем привет!
А у нас тут запускается, можно сказать, почти новый курс — Data Scientist. Почему почти? Просто вырос он из курса по BigData, но теперь с куда большим упором в работу с данными, обучением, сети и вот это всё. Новые преподаватели, немного (примерно процентов двадцать) новой программы курсы и доработанной старой, ну и как всегда — статьи, которые нам показались интересными в рамках курса и открытые уроки по этим же темам.
Поехали!
Массовый стекинг моделей ML в production: реально или нет?
2018-07-26 в 11:30, admin, рубрики: als, data science, feature, feature selection, ml, production, stacking, Алгоритмы, Блог компании HeadHunter, логистическая регрессия, машинное обучение, нейросети, поисковые технологии, признаки, продакшн, стекинг, факторизационные машиныДовольно часто нас спрашивают, почему мы не устраиваем соревнований дата-сайентистов. Дело в том, что по опыту мы знаем: решения в них совсем не применимы к prod. Да и нанимать тех, кто окажется на ведущих местах, не всегда имеет смысл.
Такие соревнования часто выигрывают с помощью так называемого китайского стекинга, когда комбинаторным способом берут все возможные алгоритмы и значения гиперпараметров, и полученные модели в несколько уровней используют сигнал друг от друга. Обычные спутники этих решений — сложность, нестабильность, трудность при отладке и поддержке, очень большая ресурсоёмкость при обучении и прогнозировании, необходимость внимательного надзора человека в каждом цикле повторного обучения моделей. Смысл делать это есть только на соревнованиях — ради десятитысячных в локальных метриках и позиций в турнирной таблице.