Привет. У нас есть огромный опыт в разработке систем для автоматизации предприятий, но к сожалению, я почти ничего не помню из математической статистики. Вообще у меня была кафедра дискретной математики. Но есть идея сделать проект, который в кулуарах носит название Железный Феликс.
Читать полностью »
Рубрика «big data» - 82
Crowd разработка скоринговой системы для IEM системы
2017-01-27 в 9:53, admin, рубрики: big data, ERP-системы, Анализ и проектирование систем, Блог компании UltimaОбзор Knime Analytics Platform — open source системы для анализа данных
2017-01-26 в 10:21, admin, рубрики: big data, data analysis, data mining, data science, KNIME, визуализация данныхО KNIME
Вашему вниманию представляется обзор Knime Analytics Platform – open source фреймворка для анализа данных. Данный фреймворк позволяет реализовывать полный цикл анализа данных включающий чтение данных из различных источников, преобразование и фильтрацию, собственно анализ, визуализацию и экспорт.
Скачать KNIME (eclipse-based десктоп приложение) можно отсюда: www.knime.org
Кому может быть интересна эта платформа:
- Тем, кто хочет анализировать данные
- Тем, кто хочет анализировать данные и не владеет навыками программирования
- Тем, кто хочет покопаться в неплохой библиотеке реализованных алгоритмов и, возможно, узнать что-то новое
Разработка на R: тайны циклов
2017-01-26 в 6:24, admin, рубрики: big data, data mining, microsoft, R, Блог компании Microsoft, Большие данные, журнал хакер, машинное обучение, Программирование, хакер, язык rСамые популярные слова в двух терабайтах кода
2017-01-25 в 4:00, admin, рубрики: big data, bigquery, github, javascript, open source, Программирование, Разработка веб-сайтовПривет, Друзья!
Я тут проанализировал 2ТБ кода и получил самые популярные слова в разных языках программирования. Результаты можно посмотреть в виде облаков тегов и простым списком:
Сайт находится здесь, а его исходники можно почитать на гитхабе.
Под катом описано в деталях о том как собирались данные, как строился сайт и как укладывались облака. И немножко наблюдений.
Приятного чтения!
Читать полностью »
Производительность сети малой латентности InfiniBand на виртуальном кластере HPC HUB
2017-01-24 в 11:44, admin, рубрики: big data, HPC, hpchub, infiniband, mpi, open source, openstack, virtualization, Блог компании HPC HUB, высокая производительность, параллельное программирование, метки: hpchubМоделирование сложных физических процессов в наши дни рассматривается как важная технологическая возможность многими современными компаниями. Широко используемым сейчас подходом для создания вычислителей, способных рассчитывать сложные модели, является создание кластерных систем, где вычислительный узел представляет собой сервер общего назначения, подключенный к сети малой латентности и управляемый своей собственной ОС (как правило, из семейства GNU/Linux).
Введение виртуализационного слоя в системное ПО вычислительных кластеров, позволяет в течение нескольких минут создавать “виртуальный кластер”. Такие виртуальные кластера в рамках одной OpenStack инфраструктуры являются абсолютно независимыми. Пользовательские программы внутри них могут изменяться так, как нужно пользователю без каких-либо согласований с кем-либо, а логические устройства, на которых находятся пользовательские данные, недоступны другим виртуальным кластерам.
Поддержка сети малой латентности виртуализационными решениями представляет собой отдельную сложную проблему. Для прикладных программ в большинстве случаев современная виртуализация на основе KVM приводит к минимальным потерям вычислительной мощности (<1%). Однако специализированные тесты сетей малой латентности показывают накладные расходы от виртуализации не более 20% на операциях синхронизации.
Читать полностью »
Система рекомендаций интернет магазина на основе методов машинного обучения в Compute Engine (Google Cloud Platform)
2017-01-17 в 13:06, admin, рубрики: big data, cloud, cloud computing, GCP, Google, Google API, Google Cloud Platform, machine learning, Блог компании Softline, машинное обучение, облака, облачные технологии, Программирование, разработка мобильных приложенийС помощью сервисов Google Cloud Platform можно создать эффективную масштабируемую систему рекомендаций для интернет-магазина.
На рынке интернет-торговли сложилась интересная ситуация. Хотя общий денежный поток вырос, увеличилось и количество продавцов. Это привело к тому, что доля каждого магазина уменьшилась, а конкуренция между становится все напряженнее. Один из способов увеличить средний размер покупки (а значит, и прибыль) – предлагать покупателям дополнительные товары, которые могут их заинтересовать.
Из этой статьи вы узнаете, как на базе Cloud Platform настроить среду для поддержки базовой системы рекомендаций, которую со временем можно будет доработать и расширить.
В ней описывается решение для сайта агентства по аренде недвижимости, позволяющее подбирать и предлагать рекомендации пользователям.
Про HPE Synergy – часть V. Управление
2017-01-13 в 6:42, admin, рубрики: big data, devops, HPE, SDDC, synergy, инфраструктура, ит-инфраструктура, Серверная оптимизация, системное администрирование, хранение данныхПро HPE Synergy – часть V. Управление.
Начало:
Часть I (Вступление) — habrahabr.ru/post/308224
Часть II (Шасси и сервера) — habrahabr.ru/post/310092
Часть III – Дисковое хранилище D3940 и SAS-коммутаторы — habrahabr.ru/post/310564
Часть IV – Наши сети — habrahabr.ru/post/313240
Начал писать эту часть еще в октябре, но потом пошла «жара конца года» по проектам, а потом одолела новогодняя прокрастинация, но уже январь, и надо сделать финальное усилие =).
Читать полностью »
С чего начать внедрение Hadoop в компании
2017-01-09 в 0:44, admin, рубрики: big data, data mining, Hadoop, highload junior, алексей еремихин, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, Проектирование и рефакторинг, метки: алексей еремихин
Алексей Еремихин ( alexxz )
Я хочу навести порядок в головах, чтобы люди поняли, что такое Hadoop, и что такое продукты вокруг Hadoop, а также для чего не только Hadoop, но и продукты вокруг него можно использовать на примерах. Именно поэтому тема — «С чего начать внедрение Hadoop в компании?»
Структура доклада следующая. Я расскажу:
- какие задачи я предлагаю решать с помощью Hadoop на начальных этапах,
- что такое Hadoop,
- как он устроен внутри,
- что есть вокруг него,
- как Hadoop применяется в Badoo в рамках решения задач с первого пункта.
Эта статья послужит практическим руководством по сборке, начальной настройке и тестированию работоспособности Hadoop начинающим администраторам. Мы разберем, как собрать Hadoop из исходников, сконфигурировать, запустить и проверить, что все работает, как надо. В статье вы не найдете теоретической части. Если вы раньше не сталкивались с Hadoop, не знаете из каких частей он состоит и как они взаимодействуют, вот пара полезных ссылок на официальную документацию:
hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/YARN.html
Почему просто не использовать готовый дистрибутив?
— Обучение. Похожие статьи часто начинаются с рекомендаций скачать образ виртуальной машины с дистрибутивом Cloudera или HortonWorks. Как правило, дистрибутив – сложная экосистема с уймой компонент. Новичку будет непросто разобраться, где что, и как это все взаимодействует. Начиная from scratch мы немного уменьшаем порог вхождения, так как имеем возможность рассматривать компоненты по одной.
— Функциональные тесты и бенчмарки. Есть небольшой лаг между выходом новой версии продукта, и моментом, когда она появляется в дистрибутиве. Если вам необходимо протестировать новые функции только что появившейся версии, Вы не сможете использовать готовый дистрибутив. Также будет сложно сравнить производительность двух версий одного и того же софта, так как в готовых дистрибутивах как правило отсутствует возможность обновить версию какого-либо одного компонента, оставив все остальное как есть.
— Just for fun.
Читать полностью »
Школа Данных «Билайн»: с Наступающим
2016-12-31 в 7:42, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных
Итак, заканчивается 2016 год. Для нас он был очень активным. Было 6 выпусков нашего курса для аналитиков, 5 выпусков курса для менеджеров (Data-MBA). Мы запустили курс в Санкт-Петербурге и уже провели первый выпуск. В партнерстве мы также обучали студентов Высшей Школы Экономики и Российской Экономической Школы, проводили мастер-классы в Сколково, участвовали в десятках хакатонов по всей стране, консультировали ведущие компании касательно применения аналитики и монетизации данных. В этом году один из наших преподавателей стал первым в мире в рейтинге Kaggle.
Читать полностью »