Рубрика «big data» - 45

Создаем свой датасет с пришельцами - 1

Сегментацией людей с помощью нейронных сетей уже никого не удивишь. Есть много приложений, таких как Sticky Ai, Teleport Live, Instagram, которые позволяют выполнять такую сложную задачу на мобильном телефоне в реалтайме.

Итак, предположим планета Земля столкнулась с внеземными цивилизациями. И от пришельцев из звездной системы Альфа Центавра поступает запрос на разработку нового продукта. Им очень понравилось приложение Sticky Ai, которое позволяет вырезать людей и делать стикеры, поэтому они хотят портировать приложение на свой межгалактический рынок.

Читать полностью »

Детские приложения массово собирают персональные данные и передают их третьим лицам - 1

К детской продукции всегда выдвигались особые требования. Тут и безопасность, надежность, простота, возможность удаленного управления, если мы говорим о детских устройствах и сервисах, и много чего еще. Функция «родительских контроль» почти так же стара, как и весь цифровой мир, кроме этого вопрос защиты персональных данных детей стоит остро уже достаточно давно.

Но даже если ваш ребенок обладает достаточной технической грамотностью и знаком с правилами поведения в сети (не разглашать свои персональные данные, реальное место жительства, график, маршруты и так далее по вполне понятным нам всем причинам), от утечки этой информации он не защищен. В последнем исследовании говорится, что огромная масса детских приложений с пометкой «до 13 лет» следят за своими юными пользователями так же, как за нами, взрослыми, следят приложения Facebook или Google.

Простенькие игры, цель которых — развитие или развлечение чада, вполне себе собирают всевозможную информацию от устройства и датчиков, в том числе и данные геолокации и акселерометра. Кстати говоря, за детьми в нарушение закона следят и крупные технологические компании и социальные сети. И это серьезная проблема, особенно, если брать в расчет современное машинное обучение и нейросети.
Читать полностью »

Анализ тональности текстов с помощью сверточных нейронных сетей - 1

Представьте, что у вас есть абзац текста. Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Можно. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Есть много способов решать такую задачу, и один из них — свёрточные нейронные сети (Convolutional Neural Networks). CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки тестов. Я познакомлю вас с бинарным анализом тональности русскоязычных текстов с помощью свёрточной нейронной сети, для которой векторные представления слов были сформированы на основе обученной Word2Vec модели.

Статья носит обзорный характер, я сделал акцент на практическую составляющую. И сразу хочу предупредить, что принимаемые на каждом этапе решения могут быть неоптимальными. Перед прочтением рекомендую ознакомиться с вводной статьей по использованию CNN в задачах обработки естественных языков, а также прочитать материал про методы векторного представление слов.
Читать полностью »

Особенности использования Druid на примере Одноклассников - 1

Меня зовут Юрий Невиницин, и я занимаюсь системой внутренней статистики в «ОК». Хочу рассказать о том, как 50-терабайтную аналитическую систему реального времени, в которой ежедневно журналируются миллиарды событий, мы переносили с Microsoft SQL на колоночную базу под названием Druid. И заодно вы узнаете несколько рецептов использования Druid’а.
Читать полностью »

Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна.

Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Сможете работать с данными? И как будете это делать?
Насколько данные для обучения модели (не)похожи на тестовую выборку? - 1
Читать полностью »

Зачем вам нужен Splunk? Мониторинг работы IT инфраструктуры - 1

  • Как повлияло отключение одного сервера на здоровье инфраструктуры в целом?
  • Можно ли предсказать ухудшение работоспособности инфраструктуры?
  • Какое влияние оказывают на систему критически важные службы?

В этой статье мы расскажем о том, как Splunk может помочь в поиске ответов на эти вопросы.
Читать полностью »

Пара мыслей об особенностях Российского Data Science - 1

Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.

Читать полностью »

Как выявляют риски в госконтроле и зачем для этого машинное обучение - 1

В предыдущей статье на тему государственного риск-менеджмента мы прошлись по основам: зачем государственным органам управлять рисками, где их искать и какие существуют подходы к оценке. Сегодня поговорим о процессе анализа рисков: как выявить причины их возникновения и обнаружить нарушителей.
Читать полностью »

Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.

Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью - 1

Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
 
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
 
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
 
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.Читать полностью »

Неделю назад я делал здесь обзор существующих алгоритмов рекомендаций. В этой статье я продолжу данный обзор: расскажу об item-based варианте коллаборативной фильтрации, о методах, основанных на матричных разложениях, проблемах тестирования, а также о менее «раскрученных» (но не менее интересных) алгоритмах.

Анатомия рекомендательных систем. Часть вторая - 1

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js