Рубрика «data mining» - 22

Iodide: интерактивный научный редактор от Mozilla

2019-03-20 в 18:39, admin, рубрики: data mining, Iodide, javascript, JavaScript MarkDown, Julia, jupyter, mozilla, Pyodide, python, R, webassembly, визуализация данных, дата-майнинг, наука о данных

Изучение аттрактора Лоренца, а затем редактирование кода в Iodide

В последние десять лет произошёл настоящий взрыв интереса к «научным вычислениям» и «науке о данных», то есть применению вычислительных методов для поиска ответов на вопросы, анализа данных в естественных и социальных науках. Мы видим расцвет специализированных ЯП, инструментов и методов, которые помогают учёным исследовать и понимать данные и концепции, а также сообщать о своих выводах.

Но на сегодняшний день очень немногие научные инструменты используют полный коммуникационный потенциал современных браузеров. Результаты дата-майнинга не очень удобно просматривать в браузере. Поэтому сегодня Mozilla представляет Iodide — экспериментальный инструмент, который помогает учёным составлять красивые интерактивные документы с использованием веб-технологий, всё в рамках итеративного рабочего процесса, который многим знаком.
Читать полностью »

Big data, deus ex machina

2019-03-18 в 9:00, admin, рубрики: big data, BigData, data mining, Hadoop, machine learning, Блог компании Mail.Ru Group, машинное обучение

Big data, deus ex machina - 1

Источник

«Данные — это новая нефть». Эту фразу на выступлении для PopTech произнёс несколько лет назад Джер Торп (Jer Thorp), художник и эксперт в вопросах анализа и визуализации данных, один из основателей «Бюро креативных исследований». Сегодня мы хотим поговорить не просто о данных, а о больших данных. Разбираемся, какие данные big, а какие нет, как они работают и как на этом зарабатывает бизнес.

Читать полностью »

Аналитика девушек с низкой социальной ответственностью (Заряжено Power BI, Qlik Sense, Tableau)

2019-03-15 в 6:56, admin, рубрики: big data, Brainfuck, data mining, Power BI, Qlik Sense, tableau, визуализация данных, Исследования и прогнозы в IT

Кто мы такие и какие были предпосылки проекта?

Добрый день, меня зовут Лазарев Владимир, я руководитель BI-интегратора Аналитикс Групп. Мы делаем для бизнеса наглядные отчёты по маркетингу, продажам, финансам, логистике на базе ведущих аналитических платформ Qlik Sense, Power BI, Tableau.

В BI платформах очень важна визуальная составляющая. Если вы посмотрели десятки демо-отчетов BI-систем и вам не нравится как выглядит та или иная платформа, то скорее всего вы ее не будете внедрять, даже если вас устраивает цена и технические характеристики. Исходя из этого рождается необходимость увидеть одни и те же данные в разных аналитических платформах, чтобы можно было сопоставить.

И желательно, чтобы данные были интересными… :-)

Откуда появилась идея сделать этот отчёт?

Несколько лет назад Высшая школа экономики опубликовала статью о формировании цен на услуги девушек низкой социальной ответственности в Москве. Это были агрегированные данные анализа 1.800 анкет. Нам показались интересными данные, которые стоят за этими выводами социологов ВШЭ. И мы решили проработать эту тематику.
Читать полностью »

Data Science: предсказание бизнес-событий для улучшения сервиса

2019-03-13 в 13:32, admin, рубрики: data mining, data science, Блог компании SimbirSoft, математика, машинное обучение

Алгоритмы рекомендаций, предсказания событий либо оценки рисков – трендовое решение в банках, страховых компаниях и многих других отраслях бизнеса. Например, эти программы помогают на основе анализа данных предположить, когда клиент вернет банковский кредит, какой будет спрос в ритейле, какова вероятность наступления страхового случая или оттока клиентов в телекоме и т.д. Для бизнеса это ценная возможность оптимизировать свои расходы, повысить скорость работы и в целом улучшить сервис.

Вместе с тем, для построения подобных программ не годятся традиционные подходы – классификация и регрессия. Рассмотрим эту проблему на примере кейса, посвященного предсказанию медицинских эпизодов: проанализируем нюансы в природе данных и возможные подходы к моделированию, построим модель и проанализируем ее качество. Читать полностью »

Python vs. Scala для Apache Spark — ожидаемый benchmark с неожиданным результатом

2019-03-13 в 7:42, admin, рубрики: big data, data mining, python, scala, spark, Блог компании Mail.Ru Group, Блог компании Одноклассники

Python vs. Scala для Apache Spark — ожидаемый benchmark с неожиданным результатом - 1

Apache Spark на сегодняшний день является, пожалуй, наиболее популярной платформой для анализа данных большого объема. Немалый вклад в её популярность вносит и возможность использования из-под Python. При этом все сходятся на том, что в рамках стандартного API производительность кода на Python и Scala/Java сопоставима, но касательно пользовательских функций (User Defined Function, UDF) единой точки зрения нет. Попробуем разобраться в том, насколько увеличиваются накладные расходы в этом случае, на примере задачи проверки решения SNA Hackathon 2019.

Читать полностью »

Анализ данных на Scala — суровая необходимость или приятная возможность?

2019-03-06 в 13:03, admin, рубрики: big data, data mining, machine learning, scala, spark, Блог компании Mail.Ru Group, Блог компании Одноклассники, машинное обучение

Анализ данных на Scala — суровая необходимость или приятная возможность? - 1

Традиционными инструментами в сфере Data Science являются такие языки, как R и Python — расслабленный синтаксис и большое количество библиотек для машинного обучения и обработки данных позволяет достаточно быстро получить некоторые работающие решения. Однако бывают ситуации, когда ограничения этих инструментов становятся существенной помехой — в первую очередь, если необходимо добиться высоких показателей по скорости обработки и/или работать с действительно крупными массивами данных. В этом случае специалисту приходится, скрепя сердце, обращаться к помощи "темной стороны" и подключать инструменты на "промышленных" языках программирования: Scala, Java и C++.

Но так ли уж темна эта сторона? За годы развития инструменты "промышленного" Data Science прошли большой путь и сегодня достаточно сильно отличаются от своих же версий 2-3 летней давности. Давайте попробуем на примере задачи SNA Hackathon 2019 разобраться, насколько экосистема Scala+Spark может соответствовать Python Data Science.

Читать полностью »

Машинное обучение в Додо. Как запустить новое направление, если ты разработчик

2019-03-06 в 5:57, admin, рубрики: data mining, dodopizza, dodopizzaengineering, machine learning, Алгоритмы, Блог компании Dodo Pizza Engineering, додо, Додо Пицца, ИТ в Додо Пицце, ИТ в пиццерии, машинное обучение

По катом история о том, как в Додо появилось направление машинного обучения. Спойлер: это я его запустил. Хардкорных технических подробностей тут не будет, обязательно посвящу им отдельную статью. Сегодня больше про мотивацию и поддержку коллег.
Машинное обучение в Додо. Как запустить новое направление, если ты разработчик - 1

Читать полностью »

Kaggle: не можем ходить — будем бегать

2019-03-06 в 5:22, admin, рубрики: cnn, data mining, gru, kaggle, keras, LightGBM, LSTM, machine learning, RNN, scikit-learn, Блог компании Singularis, искусственный интеллект, машинное обучение, рекуррентная нейронная сеть, финансы в IT

Насколько сложна тема машинного обучения? Если Вы неплохо математически подкованы, но объем знаний о машинном обучении стремится к нулю, как далеко Вы сможете зайти в серьезном конкурсе на платформе Kaggle?

Kaggle: не можем ходить — будем бегать - 1
Читать полностью »

«Анализ данных на Python» в двух частях

2019-03-05 в 11:23, admin, рубрики: data mining, python, анализ данных, Блог компании Computer Science Center, видеолекции, курсы

Курсы по анализу данных в CS центре читает Вадим Леонардович Аббакумов — кандидат физ.-мат. наук, он работает главным экспертом-аналитиком в компании Газпромнефть-Альтернативное топливо.

Лекции предназначены для двух категорий слушателей. Первая — начинающие аналитики, которым сложно начинать с изучения, например, книги The Elements of Statistical Learning. Курс подготовит их к дальнейшей работе. Вторая — опытные аналитики, не получившие систематического образования в области анализа данных. Они могут заполнить пробелы в знаниях. С прошлого года на занятиях используется язык программирования Python.

Чтобы понимать материал, достаточно когда-то прослушанных курсов математического анализа, линейной алгебры и теории вероятностей и базовых знаний языка Python.

Приятного просмотра!
Читать полностью »

Rekko Challenge

2019-02-18 в 14:16, admin, рубрики: big data, boosters, competitive programming, data mining, machine learning, movies, Okko, recommender systems, Блог компании Okko, машинное обучение, Спортивное программирование

Rekko challenge

Сегодня мы запускаем Rekko Challenge 2019 — соревнование по машинному обучению от онлайн-кинотеатра Okko.

Мы предлагаем вам построить рекомендательную систему на реальных данных одного из крупнейших российских онлайн-кинотеатров. Уверены, что эта задача будет интересна и новичкам, и опытным специалистам. Мы постарались сохранить максимальный простор для творчества, при этом не перегружая вас гигабайтными датасетами с сотнями предварительно посчитанных признаков.

Подробнее про Okko, задачу, данные, призы и правила — ниже.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 22

Iodide: интерактивный научный редактор от Mozilla

Big data, deus ex machina

Аналитика девушек с низкой социальной ответственностью (Заряжено Power BI, Qlik Sense, Tableau)

Кто мы такие и какие были предпосылки проекта?

Откуда появилась идея сделать этот отчёт?

Data Science: предсказание бизнес-событий для улучшения сервиса

Python vs. Scala для Apache Spark — ожидаемый benchmark с неожиданным результатом

Анализ данных на Scala — суровая необходимость или приятная возможность?

Машинное обучение в Додо. Как запустить новое направление, если ты разработчик

Kaggle: не можем ходить — будем бегать

«Анализ данных на Python» в двух частях

Rekko Challenge

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 22

Кто мы такие и какие были предпосылки проекта?

Откуда появилась идея сделать этот отчёт?

Новости

Актуальные темы

Архив