У нас было 2 виртуальные машины, 75 сайтов, тысячи метрик, две базы данных и одна очередь ActiveMQ, Python и целое множество библиотек всех сортов и расцветок, pandas, а также numpy, dash, flask, SQL Alchemy. Не то чтобы это был необходимый запас для системы, но если начал собирать компоненты, становится трудно остановиться. Единственное, что вызывало у меня опасение — это JavaScript. Ничто в мире не бывает более беспомощным, безответственным и порочным, чем JS зомби. Я знал, что рано или поздно мы перейдем и на эту дрянь.
Рубрика «data science» - 25
Never Fail Twice, или как построить мониторинговую систему с нуля
2018-04-06 в 14:19, admin, рубрики: architecture design, computer science, data science, devops, monitoring, python, Алгоритмы, Анализ и проектирование систем, ПрограммированиеРубрика «Читаем статьи за вас». Февраль — Март 2018
2018-04-05 в 11:10, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений
Привет! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!
Рубрика «Читаем статьи за вас». Декабрь 2017 — Январь 2018
2018-04-02 в 9:51, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений
Привет! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!
Пойди туда, не знаю куда: по следам конференции SmartData
2018-03-27 в 6:49, admin, рубрики: big data, data mining, data science, SmartData, Алгоритмы, Блог компании JUG.ru Group, искусственный интеллект, математика, машинное обучение
Конференций, связанных с AI / ML / data science в последнее время и у нас стало довольно много. Организаторы до сих пор ищут форматы, концепции конференций меняются, но состав спикеров повторяется процентов на 50.
Задача поиска формата стояла и перед программным комитетом SmartData. Задача эта довольно размытая. Кто тот человек, который занимается анализом и / или обработкой данных, что ему интересно? От участников конференции мы получили частичные ответы на эти вопросы, но данных хочется больше. В связи с этим хочу поделиться тем представлением об идеальном мире, которое сложилось на данный момент, и пригласить читателей к дискуссии в комментариях. Помогите сделать такую конференцию, на которую вам потом самим захочется сходить.
Кроме вопросов о ваших интересах и задачах, за кликом вас ждут две ранее не публиковавшиеся видеозаписи выступлений с первой конференции, технический приём написания текстов на Хабр и один забавный факт о беспилотных автомобилях.
Читать полностью »
Что есть в новом JupyterLab для пользователей?
2018-03-22 в 13:33, admin, рубрики: big data, data science, javascript, jupyter, jupyterlab, Блог компании ОтусВсем привет!
Одним из основных инструментов на нашем курсе «Разработчик BigData» является Jupyter. Глянем, что его разработчики приготовили в новой итерации и что уже доступно в бета-версии.
Поехали.
Вкратце: JupyterLab готов к ежедневному использованию (установка, документация, экскурс через Binder)
JupyterLab — это интерактивная среда разработки для работы с блокнотами, кодом и данными.
Как быстро написать и выкатить в продакшн алгоритм машинного обучения
2018-03-13 в 10:06, admin, рубрики: big data, data mining, data science, kaggle, machine learning, python, машинное обучениеСейчас анализ данных все шире используется в самых разных, зачастую далеких от ИТ, областях и задачи, стоящие перед специалистом на ранних этапах проекта радикально отличаются от тех, с которыми сталкиваются крупные компании с развитыми отделами аналитики. В этой статье я расскажу о том, как быстро сделать полезный прототип и подготовить простой API для его использования прикладным программистом.
Для примера рассмотрим задачу предсказания цены на трубы размещенную на платформе для соревнований Kaggle. Описание и данные можно найти здесь. На самом деле на практике очень часто встречаются задачи в которых надо быстро сделать прототип имея очень небольшое количество данных, а то и вообще не имея реальных данных до момента первого внедрения. В этих случаях приходится подходить к задаче творчески, начинать с несложных эвристик и ценить каждый запрос или размеченный объект. Но в нашей модельной ситуации таких проблем, к счастью, нет и поэтому мы можем сразу начать с обзора данных, определения задачи и попыток применения алгоритмов.
Читать полностью »
Pygest #20. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [6 декабря 2017 — 23 декабря 2017]
2017-12-22 в 18:52, admin, рубрики: cpython, data analysis, data science, digest, django, machine learning, nuitka, python, python3, события из мира python, Учебный процесс в IT, Читальный залВсем привет! Это уже двадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.
Присылайте свои интересные события из мира Python. Вместе мы сделаем Python еще лучше:)
С предыдущим digest можно ознакомиться здесь
Предсказываем отток с помощью нейросети
2017-12-22 в 9:11, admin, рубрики: big data, data engineering, data mining, data science, machine learning, python, RNN, Блог компании Plarium, нейросеть
Проблема предсказания оттока клиентов — одна из самых распространенных в практике Data Science (так теперь называется применение статистики и машинного обучения к бизнес-задачам, уже все знают?). Проблема достаточно универсальна: она актуальна для многих отраслей — телеком, банки, игры, стриминг-сервисы, ритейл и пр. Необходимость ее решения довольно легко обосновать с экономической точки зрения: есть куча статей в бизнес-журналах о том, что привлечь нового клиента в N раз дороже, чем удержать старого. И ее базовая постановка проста для понимания так, что на ее примере часто объясняют основы машинного обучения.
Для нас в Plarium-South, как и для любой игровой компании, эта проблема также актуальна. Мы прошли длинный путь через разные постановки и модели и пришли к достаточно оригинальному, на наш взгляд, решению. Все ли так просто, как кажется, как правильно определить отток и зачем тут нейросеть, расскажем под катом.Читать полностью »
R и СИБ. Как устранить противоречие интересов и запустить R на Linux в оффлайн-режиме
2017-12-18 в 14:58, admin, рубрики: big data, data mining, data science, R, Промышленное программированиеЯвляется продолжением предыдущих публикаций.
Очень часто попытки применить инструменты DataScience в корпоративной среде встают в полное противоречие с требованиями Службы Информационной Безопасности (СИБ). В мире DataScience рекомендация «поставь с гитхаба» становится практически нерешаемой при полной изоляции аналитической машины от интернета. Тем не менее, задача запуска на linux инфраструктуры R в offline окружении вполне решаемая. Ниже приведу последовательность мантр, которые позволят это исполнить. Если какие-то шаги будут не совсем прозрачными, то скорректирую по мере появления комментариев. Эти же шаги можно использовать и для online инсталляции, пропуская шаги, относящиеся к хитрым трюкам или созданию локальных репозиториев. Собрано по крупицам на основании многократных инсталляций под разнообразные задачи. Практика показала, что тема весьма актуальна.
30-часовой хакатон Яндекс.Погоды, или как предсказать осадки по сигналам от пользователей
2017-12-13 в 13:21, admin, рубрики: catboost, data science, xgboost, Блог компании Яндекс, конкурсы разработчиков, машинное обучение, местоположение пользователя, метеопрогноз, метеостанция, осадки, пользовательские данные, Спортивное программирование, хакатон, ХакатоныНедавно мы провели хакатон, посвящённый использованию сигналов от пользователей в предсказании погоды. Сегодня я расскажу читателям Хабра, почему устроить такое соревнование — едва ли не более сложная задача, чем удачно в нём выступить, какие методы за 30 часов успели придумать участники, и как мы используем результаты хакатона.
Яндекс.Погода сегодня — большой комбайн по обработке показаний, не имеющих привязки к конкретному пользователю. Сервис строит прогноз с точностью до дома за счёт машинного обучения на данных, полученных от крупных метеорологических организаций. Наш недавний запуск всемирных погодных карт — очередной важный шаг в развитии этой системы. Но есть и другие данные, которые могут позитивно сказаться на точности прогноза.