Рубрика «big data» - 25

Приходит как-то на завод специалист по цифровизации. Здесь походил, там походил, лоб наморщил и говорит: «Я знаю, как у вас тут можно кое-что оптимизировать. Экономить конкретно будете! Дайте только мне доступ во-о-от к этим данным по производству». В ответ на заводе разводят руки. «Вот у нас по продажам аналитика. Вот по турбинам что-то есть — шибко умные турбины у Siemens. А по остальному оборудованию отродясь ничего не было».

Вы прочитали миниатюру о конфликте двух миров — промышленности и аналитики. Мы как раз из последнего, и вот как все выглядит для нас: с одной стороны — созданные для управления оборудованием и недоступные для простых смертных протоколы обмена данными с большим количеством цифр в названии. С другой — аналитические системы, красивая отчетность, удобные дэшборды и прочие приятности.

Как мы промышленность и big data подружили - 1
Не каждое производство дошло до технологического уровня Tesla или Foxconn. Но помогать нужно всем. На фото кадр из х/ф «Завод».

В этом посте мы расскажем, как стараемся вылепить производству человеческое (по меркам простого дата-сайентиста) лицо — дать возможность бизнес-аналитикам обрабатывать промышленные данные и пользоваться красивой BI-отчетностью.
Читать полностью »

Серия «Белый шум рисует черный квадрат»

История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 1
Рис. 1.

По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 2
Рис. 2.

Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 3
Рис. 3.

Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать полностью »

Британская полиция привлекла ИИ для помощи в раскрытии преступлений - 1

Полицейские Скотленд-Ярда применяют ИИ-технологии для расследования преступлений, когда за небольшой промежуток времени нужно обработать огромные массивы данных. Если раньше у человека или целой команды на это могло уйти несколько месяцев, то сейчас тратятся считанные часы. Правда, о повсеместном применении технологии речь пока не идет — ИИ помогает лишь одному специализированному подразделению.

Это hi-tech лаборатория, в которой полицейские работают с разнообразной техникой, пытаясь получить доступ к уликам. Здесь работает более 150 человек, каждый из которых ежедневно тратит большое количество времени на изучение текстовых материалов и мультимедиа-контента.
Читать полностью »

Привет! На связи команда Ad-hoc аналитики Big Data из X5 Retail Group.

В этой статье мы расскажем о нашей методологии A/B-тестирования и сложностях, с которыми мы ежедневно сталкиваемся.

В Big Data Х5 работает около 200 человек, среди которых 70 дата сайентистов и дата аналитиков. Основная наша часть занимается конкретными продуктами – спросом, ассортиментом, промо-кампаниями и т.д. Помимо них, есть наша отдельная команда Ad-hoc аналитики.

Как проводить A-B-тестирование на 15 000 офлайн-магазинах - 1
Читать полностью »

Институт законодательства и сравнительного правоведения при правительстве по заказу фонда «Сколково» разработал концепцию госрегулирования на основе big data, выяснил РБК:

Основная идея регулирования заключается в том, чтобы своевременно вносить изменения в регулирование, чтобы оно не вредило экономическому состоянию тех или иных субъектов. Например, Читать полностью »

Mail.ru Group запускает Академию больших данных - 1

Мы запускаем Академию больших данных MADE — второй проект среди образовательных проектов MADE от Mail.ru Group, рассчитанный на специалистов с опытом 1-3 года.

Обучение в Академии будет интересно специалистам, которые уже уверенно пишут код на C++, Java или Python и успели поработать 1-3 года в сфере анализа данных или в разработке. Мы поможем вам актуализировать и систематизировать свои знания, быстро вырасти в профессии или освоить новую специальность.
Читать полностью »

Материнская компания российского «Вымпелкома» (бренд «Билайн») раскрыла новую стратегию развития. Veon намерен усилить развивитие вне телекоммуникационной отрасли, в частности холдинг завил, что намерен покупать и развивать технологии big data и искусственного интеллекта.

По Читать полностью »

Хабр, привет. Представляю вам главную help-ссылку для работы с данными. Материал в Гугл-доке подойдет как профессионалам, так и тем, кто только учится работать с данными. Пользуйтесь и прокачивайте скиллы сами + делитесь с коллегами.

Дальнейшее описание поста — это содержание help-ссылки. Поэтому, можете сразу ознакомиться с документом. Либо начать с её содержания, которую прикрепляю ниже.

Конечно, весь список книг/сервисов/видео и лекций в файле неполный. Поэтому предлагаю сделать этот пост ценнейшим — добавляйте в комментарии свои самые полезные ссылки, самые крутые из них я добавлю к себе в файл.

imageЧитать полностью »

Институт развития интернета (ИРИ) и Ассоциация больших данных (входят «Яндекс», Mail.ru Group, Сбербанк, Газпромбанк, «МегаФон», «Ростелеком» и другие) разработали проект кодекса этики использования больших данных. Предполагается, что документ станет основой саморегулирования этого направления на рынке.

image

Читать полностью »

Как известно, из коробки Excel не позволяет устанавливать фильтры по списку значений для сводных таблиц, а это ведь такая нужная вещь! Как отфильтровать товары по сотне кодов, а потом по другой сотне? Есть, конечно, способы, но все это не то…

Надстройка для Excel, облегчающая установку фильтров при работе с кубами (VBA) - 1Или, например, установить для куба фильтр по измерению с датами, но не проставлять галочки на каждом дне/месяце/годе, а задать диапазон С… ПО ....


Еще достаточно часто требуются установки периодов по фиксированным шаблонам, типа текущий день/месяц/год. Для этих целей можно добавить наборы (в многомерной модели куба) или добавить специальные атрибуты в измерение (это не очень удобно, но в табличной модели куба наборов нет).

Мы запилили на VBA расширение, добавляющее на ленту панель Инструменты куба с волшебными кнопочками.
Надстройка для Excel, облегчающая установку фильтров при работе с кубами (VBA) - 2
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js