Рубрика «data science» - 16

Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

image
Читать полностью »

Для начала небольшая вводная информация. Меня зовут Владислав и моё знакомство с R состоялось в августе прошлого года. Изучать язык программирования я решил по причине прикладного характера. Мне с детства нравилось вести спортивную статистику. С возрастом это увлечение трансформировалось в желание как-то анализировать эти цифры и на основе анализа данных выдавать, по возможности, умные мысли. Проблема в том, что спорт в последние годы захлестнула волна данных, десятки компаний соревнуются между собой, пытаясь посчитать, описать и запихнуть в нейронку любое действие футболиста, баскетболиста, бейсболиста на площадке. И Excel для анализа не подходит категорически. Так что я решил изучать R, чтобы простейший анализ не занимал полдня. Уже в ходе изучения добавился интерес к программированию как таковому, но это уже лирика.

Читать полностью »

В реальном внедрении ML само обучение занимает от силы четверть усилий. Остальные три четверти — подготовка данных через боль и бюрократию, сложный деплой часто в закрытом контуре без доступа в интернет, настройка инфраструктуры, тестирование и мониторинг. Документы на сотни листов, ручной режим, конфликты версий моделей, open source и суровый enterprise — все это ждет data scientist’а. Но такие «скучные» вопросы эксплуатации ему не интересны, он хочет разработать алгоритм, добиться высокого качества, отдать и больше не вспоминать.

Возможно, где-то ML внедряется легче, проще, быстрее и одной кнопкой, но мы таких примеров не видели. Все, что выше — опыт компании Front Tier в финтехе и телекоме. О нем на HighLoad++ рассказал Сергей Виноградов — эксперт в архитектуре высоконагруженных систем, в больших хранилищах и тяжелом анализе данных.

Жизненный цикл ML в боевых условиях - 1
Читать полностью »

Data Science Digest (July 2019) - 1

Приветствую всех!

Лето в полном разгаре, и если вы планируете быть в Одессе 5-го июля, приглашаю вас на ODS митап и дата-бар, который организовывает одесская ODS.ai команда. Напоминаю, что у дайджеста есть свой Telegram-канал и страницы в соцсетях (Facebook, Twitter, LinkedIn, Medium), где я ежедневно публикую ссылки на полезные материалы. Присоединяйтесь!

А пока предлагаю свежую подборку материалов под катом.
Читать полностью »

Между идеальным алгоритмом машинного обучения в вакууме и его применением на реальных данных часто лежит пропасть. Вроде бы берешь статью: алгоритм есть, сходимость для данных такого-то типа есть — бери и применяй. Но почему-то оказывается, что твоих данных недостаточно для обучения, да и отличаются они от модельных из статьи, потому что настоящие, не синтетические.

Обычное дело в обосновании алгоритма ввести допущения о чистоте данных и их распределении, которых в реальной жизни не найдёшь. Например, автор статьи экспериментирует на фотографиях взрослых знаменитостей, и все у него замечательно распознается и классифицируется, а в нашем реальном примере попадаются еще и дети, и мультяшные персонажи, и на них всё внезапно ломается. Но есть люди, которые умеют с этим справляться, да так, что пропасть между теорией и практикой перестает казаться неприступной, и, стоит показать как, сразу находятся и другие желающие ее преодолеть.

Используем данные на практике - 1
Читать полностью »

25 апреля мы провели очередной митап Avito Student Talks, в этот раз он был посвящён аналитике: карьерному пути, Data Science и продуктовой аналитике. После встречи мы подумали, что её материалы могут быть интересны самой широкой аудитории и решили ими поделиться. В посте — видеозаписи докладов, презентации от спикеров, отзывы слушателей и, конечно, фотоотчёт.

Student Talks: Аналитика. Материалы для начинающих - 1

Читать полностью »

Привет!

Мне показалась интересной данная публикация: Получаем абсолютные курсы из парных кросс-курсов валют и я захотел проверить возможность найти этот аааабсолютный курс валюты через численное моделирование, вообще отказавшись от линейной алгебры.

Моя численная проверка гипотезы «Абсолютных курсов» - 1

Результаты получились интересными.
Читать полностью »

image
HIROSHI WATANABE/GETTY IMAGES

В книге «Богатство народов» Адам Смит показывает, как разделение труда становится главным источником повышения производительности. Примером выступает линия сборки завода по производству булавок: «Один рабочий тянет проволоку, другой выпрямляет её, третий обрезает, четвертый заостряет конец, пятый обтачивает другой конец для насаживания головки». Благодаря специализации, ориентированной на определенные функции, каждый работник становится высококвалифицированным специалистом в своей узкой задаче, которая приводит к повышению эффективности процесса. Выпуск на одного работника увеличивается во много раз, а завод становится более эффективным в производстве булавок.

Такое разделение труда по функциональности настолько укоренилось в наших умах даже сегодня, что мы быстро организовали наши команды соответствующим образом. Data Science не является исключением. Комплексные алгоритмические бизнес-возможности требуют множества трудовых функций, поэтому компании обычно создают группы специалистов: исследователей, инженеров по анализу данных, инженеров машинного обучения, ученых, занимающихся причинно-следственными связями, и так далее. Работа специалистов координируется менеджером по продукту с передачей функций таким образом, который напоминает фабрику булавок: «один человек получает данные, другой моделирует их, третий выполняет их, четвертый измеряет» и так далее,
Читать полностью »

Почему вам стоит участвовать в хакатонах - 1

Примерно полтора года назад я начал участвовать в хакатонах. За этот временной промежуток я успел принять участие в более чем 20 мероприятиях различного масштаба и тематик в Москве, Хельсинки, Берлине, Мюнхене, Амстердаме, Цюрихе и Париже. Во всех мероприятиях я занимался анализом данных в том или ином виде. Мне нравится приезжать в новые для себя города, налаживать новые контакты, придумывать свежие идеи, реализовывать старые задумки за короткий промежуток времени и адреналин во время выступления и оглашения результатов.

Данный пост — первый из трех постов на тематику хакатонов, в нем я расскажу, что такое хакатоны, почему вам стоит начать участвовать в хакатонах. Второй пост будет о темной стороне данных мероприятий — про то как организаторы делали ошибки при проведении, и к чему они привели. Третий пост будет посвящен ответам на вопросы про около-хакатонную тематику.
Читать полностью »

image

Всем привет!

На повестке дня интересная тема — будем создавать с нуля собственную нейронную сеть на Python. В ее основе обойдемся без сложных библиотек (TensorFlow и Keras).

Перед тем как углубиться, рекомендую освежить знания по искусственным нейронным сетям и подписаться на мой телеграм-канал (@dataisopen), чтобы не пропустить интересных статей.

Основное, о чем нужно знать — искусственная нейронная сеть может быть представлена в виде блоков/кружков (искусственных нейронов), имеющие между собой, в определенном направлении, связи. В работе биологической нейронной сети от входов сети к выходам передается электрический сигнал (в процессе прохода он может изменяться).

image

Электрические сигналы в связях искусственной нейронной сети — это числа. Ко входам нашей искусственной нейронной сети мы будем подавать рандомные числа (которые бы символизировали величины электрического сигнала, если бы он был). Эти числа, продвигаясь по сети будут неким образом меняться. На выходе мы получим ответ нашей сети в виде какого-то числа.

image

Искусственный нейрон

Для того, чтобы нам понять как работает нейронная сеть изнутри — внимательно изучим модель искусственного нейрона:Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js