Рубрика «data science» - 25

Never Fail Twice, или как построить мониторинговую систему с нуля

2018-04-06 в 14:19, admin, рубрики: architecture design, computer science, data science, devops, monitoring, python, Алгоритмы, Анализ и проектирование систем, Программирование

У нас было 2 виртуальные машины, 75 сайтов, тысячи метрик, две базы данных и одна очередь ActiveMQ, Python и целое множество библиотек всех сортов и расцветок, pandas, а также numpy, dash, flask, SQL Alchemy. Не то чтобы это был необходимый запас для системы, но если начал собирать компоненты, становится трудно остановиться. Единственное, что вызывало у меня опасение — это JavaScript. Ничто в мире не бывает более беспомощным, безответственным и порочным, чем JS зомби. Я знал, что рано или поздно мы перейдем и на эту дрянь.

Читать полностью »

Рубрика «Читаем статьи за вас». Февраль — Март 2018

2018-04-05 в 11:10, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений

Рубрика «Читаем статьи за вас». Февраль — Март 2018 - 1

Привет! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Читать полностью »

Рубрика «Читаем статьи за вас». Декабрь 2017 — Январь 2018

2018-04-02 в 9:51, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений

Рубрика «Читаем статьи за вас». Декабрь 2017 — Январь 2018 - 1

Читать полностью »

Пойди туда, не знаю куда: по следам конференции SmartData

2018-03-27 в 6:49, admin, рубрики: big data, data mining, data science, SmartData, Алгоритмы, Блог компании JUG.ru Group, искусственный интеллект, математика, машинное обучение

Пойди туда, не знаю куда: по следам конференции SmartData - 1

Конференций, связанных с AI / ML / data science в последнее время и у нас стало довольно много. Организаторы до сих пор ищут форматы, концепции конференций меняются, но состав спикеров повторяется процентов на 50.

Задача поиска формата стояла и перед программным комитетом SmartData. Задача эта довольно размытая. Кто тот человек, который занимается анализом и / или обработкой данных, что ему интересно? От участников конференции мы получили частичные ответы на эти вопросы, но данных хочется больше. В связи с этим хочу поделиться тем представлением об идеальном мире, которое сложилось на данный момент, и пригласить читателей к дискуссии в комментариях. Помогите сделать такую конференцию, на которую вам потом самим захочется сходить.

Кроме вопросов о ваших интересах и задачах, за кликом вас ждут две ранее не публиковавшиеся видеозаписи выступлений с первой конференции, технический приём написания текстов на Хабр и один забавный факт о беспилотных автомобилях.
Читать полностью »

Что есть в новом JupyterLab для пользователей?

2018-03-22 в 13:33, admin, рубрики: big data, data science, javascript, jupyter, jupyterlab, Блог компании Отус

Всем привет!

Одним из основных инструментов на нашем курсе «Разработчик BigData» является Jupyter. Глянем, что его разработчики приготовили в новой итерации и что уже доступно в бета-версии.

Поехали.

Вкратце: JupyterLab готов к ежедневному использованию (установка, документация, экскурс через Binder)

JupyterLab — это интерактивная среда разработки для работы с блокнотами, кодом и данными.

Что есть в новом JupyterLab для пользователей? - 1
Читать полностью »

Как быстро написать и выкатить в продакшн алгоритм машинного обучения

2018-03-13 в 10:06, admin, рубрики: big data, data mining, data science, kaggle, machine learning, python, машинное обучение

Сейчас анализ данных все шире используется в самых разных, зачастую далеких от ИТ, областях и задачи, стоящие перед специалистом на ранних этапах проекта радикально отличаются от тех, с которыми сталкиваются крупные компании с развитыми отделами аналитики. В этой статье я расскажу о том, как быстро сделать полезный прототип и подготовить простой API для его использования прикладным программистом.

Для примера рассмотрим задачу предсказания цены на трубы размещенную на платформе для соревнований Kaggle. Описание и данные можно найти здесь. На самом деле на практике очень часто встречаются задачи в которых надо быстро сделать прототип имея очень небольшое количество данных, а то и вообще не имея реальных данных до момента первого внедрения. В этих случаях приходится подходить к задаче творчески, начинать с несложных эвристик и ценить каждый запрос или размеченный объект. Но в нашей модельной ситуации таких проблем, к счастью, нет и поэтому мы можем сразу начать с обзора данных, определения задачи и попыток применения алгоритмов.
Читать полностью »

Pygest #20. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [6 декабря 2017 — 23 декабря 2017]

2017-12-22 в 18:52, admin, рубрики: cpython, data analysis, data science, digest, django, machine learning, nuitka, python, python3, события из мира python, Учебный процесс в IT, Читальный зал

Всем привет! Это уже двадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.

Присылайте свои интересные события из мира Python. Вместе мы сделаем Python еще лучше:)

С предыдущим digest можно ознакомиться здесь

Читать полностью »

Предсказываем отток с помощью нейросети

2017-12-22 в 9:11, admin, рубрики: big data, data engineering, data mining, data science, machine learning, python, RNN, Блог компании Plarium, нейросеть

Проблема предсказания оттока клиентов — одна из самых распространенных в практике Data Science (так теперь называется применение статистики и машинного обучения к бизнес-задачам, уже все знают?). Проблема достаточно универсальна: она актуальна для многих отраслей — телеком, банки, игры, стриминг-сервисы, ритейл и пр. Необходимость ее решения довольно легко обосновать с экономической точки зрения: есть куча статей в бизнес-журналах о том, что привлечь нового клиента в N раз дороже, чем удержать старого. И ее базовая постановка проста для понимания так, что на ее примере часто объясняют основы машинного обучения.

Для нас в Plarium-South, как и для любой игровой компании, эта проблема также актуальна. Мы прошли длинный путь через разные постановки и модели и пришли к достаточно оригинальному, на наш взгляд, решению. Все ли так просто, как кажется, как правильно определить отток и зачем тут нейросеть, расскажем под катом.Читать полностью »

R и СИБ. Как устранить противоречие интересов и запустить R на Linux в оффлайн-режиме

2017-12-18 в 14:58, admin, рубрики: big data, data mining, data science, R, Промышленное программирование

Является продолжением предыдущих публикаций.

Очень часто попытки применить инструменты DataScience в корпоративной среде встают в полное противоречие с требованиями Службы Информационной Безопасности (СИБ). В мире DataScience рекомендация «поставь с гитхаба» становится практически нерешаемой при полной изоляции аналитической машины от интернета. Тем не менее, задача запуска на linux инфраструктуры R в offline окружении вполне решаемая. Ниже приведу последовательность мантр, которые позволят это исполнить. Если какие-то шаги будут не совсем прозрачными, то скорректирую по мере появления комментариев. Эти же шаги можно использовать и для online инсталляции, пропуская шаги, относящиеся к хитрым трюкам или созданию локальных репозиториев. Собрано по крупицам на основании многократных инсталляций под разнообразные задачи. Практика показала, что тема весьма актуальна.

Читать полностью »

30-часовой хакатон Яндекс.Погоды, или как предсказать осадки по сигналам от пользователей

2017-12-13 в 13:21, admin, рубрики: catboost, data science, xgboost, Блог компании Яндекс, конкурсы разработчиков, машинное обучение, местоположение пользователя, метеопрогноз, метеостанция, осадки, пользовательские данные, Спортивное программирование, хакатон, Хакатоны

Недавно мы провели хакатон, посвящённый использованию сигналов от пользователей в предсказании погоды. Сегодня я расскажу читателям Хабра, почему устроить такое соревнование — едва ли не более сложная задача, чем удачно в нём выступить, какие методы за 30 часов успели придумать участники, и как мы используем результаты хакатона.

30-часовой хакатон Яндекс.Погоды, или как предсказать осадки по сигналам от пользователей - 1

Яндекс.Погода сегодня — большой комбайн по обработке показаний, не имеющих привязки к конкретному пользователю. Сервис строит прогноз с точностью до дома за счёт машинного обучения на данных, полученных от крупных метеорологических организаций. Наш недавний запуск всемирных погодных карт — очередной важный шаг в развитии этой системы. Но есть и другие данные, которые могут позитивно сказаться на точности прогноза.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 25

Never Fail Twice, или как построить мониторинговую систему с нуля

Рубрика «Читаем статьи за вас». Февраль — Март 2018

Рубрика «Читаем статьи за вас». Декабрь 2017 — Январь 2018

Пойди туда, не знаю куда: по следам конференции SmartData

Что есть в новом JupyterLab для пользователей?

Как быстро написать и выкатить в продакшн алгоритм машинного обучения

Pygest #20. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [6 декабря 2017 — 23 декабря 2017]

Предсказываем отток с помощью нейросети

R и СИБ. Как устранить противоречие интересов и запустить R на Linux в оффлайн-режиме

30-часовой хакатон Яндекс.Погоды, или как предсказать осадки по сигналам от пользователей

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 25

Новости

Актуальные темы

Архив