Рубрика «big data» - 20

Применение принципов функционального программирования при проектировании ERP

2020-01-08 в 22:01, admin, рубрики: big data, Deno, ERP-системы, nosql, NoSQL ERP, TypeScript, Анализ и проектирование систем, Функциональная СУБД, функциональное программирование

Привет!

В этой статье мы попробуем взглянуть на архитектуру учетных систем (ERP, CRM, WMS, MES, B2B, ...) с позиций функционального программирования. Существующие системы сложны. Они базируются на реляционной схеме данных, и имеют огромный мутабельный стейт в виде сотен связаных таблиц. При этом единственным «источником правды» в таких системах является хронологически-упорядоченный журнал первичных документов (отпечатков событий реального мира), которые, очевидно, должны быть иммутабельными (и это правило соблюдается в аудируемых системах, где корректировки «задним числом» запрещены). Журнал документов составляет от силы 20% объема БД, а все остальное — промежуточные абстракции и агрегаты, с которыми удобно работать на языке SQL, но которые требуют постоянной синхронизации с документами, и между собой.

Если вернуться к истокам (устранить избыточность данных и отказаться от хранения агрегатов), а все бизнес-алгоритмы реализовать в виде функций, применяемых непосредственно к потоку первичных документов — мы получим функциональную СУБД, и построенную на ней функциональную ERP. Проблема производительности решается благодаря мемоизации, а объем функционального кода будет вполне соизмерим с объемом декларативного SQL, и не сложнее для понимания. В данной статье мы продемонстрируем подход, разработав простейшую файловую СУБД на языке TypeScript и рантайме Deno (аналог Node.js), а также протестируем производительность сверток на примере типичных бизнес-задач.

Почему это актуально

1) Мутабельный стейт + избыточность данных — это плохо, особенно когда необходимо обеспечивать его постоянную синхронизацию с потоком документов. Это источник потенциальных расхождений учетных данных (баланс не сходится) и трудно обнаруживаемых побочных эффектов.
Читать полностью »

Автоматическое обновление кода до TensorFlow 2

2020-01-08 в 13:14, admin, рубрики: big data, Migration, open source, python, TensorFlow, upgrade, искусственный интеллект, машинное обучение

Автоматическое обновление кода до TensorFlow 2 - 1

В материале предоставлен перевод руководства по автоматическом обновлению кода с TensorFlow 1.x до Tensorflow 2 с помощью скрипта обновления tf_upgrade_v2.
Читать полностью »

Использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB

2020-01-07 в 17:01, admin, рубрики: big data, clickhouse, Администрирование баз данных, Блог компании ua-hosting.company, Серверная оптимизация, СУБД

Clickhouse — это столбцовая система управления базами данных для онлайн обработки аналитических запросов (OLAP) с открытым исходным кодом, созданная Яндексом. Ее используют Яндекс, CloudFlare, VK.com, Badoo и другие сервисы по всему миру для хранения действительно больших объемов данных (вставка тысяч строк в секунду или петабайты данных, хранящихся на диске).

В обычной, «строковой» СУБД, примерами которых служат MySQL, Postgres, MS SQL Server, данные хранятся в таком порядке:

Использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB - 1

При этом значения, относящиеся к одной строке, физически хранятся рядом. В столбцовых СУБД значения из разных столбцов хранятся отдельно, а данные одного столбца – вместе:

Использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB - 2 Читать полностью »

«На чём корпорации вертели вашу приватность», Артур Хачуян (Tazeros Global)

2020-01-06 в 17:44, admin, рубрики: big data, Блог компании ua-hosting.company, глубинное обучение, информационная безопасность, машинное обучение, персональные данные, приватность

День защиты персональных данных, Минск, 2019 год. Организатор: правозащитная организация Human Constanta.

Ведущий (далее – В): – Артур Хачуян занимается… Можно сказать «на тёмной стороне» в контексте нашей конференции?

Артур Хачуян (далее – АХ): – На стороне корпораций – да.

В: – Он собирает ваши данные, продаёт их корпорациям.

АХ: – На самом деле нет…

В: – И он как раз расскажет, как корпорации могут использовать ваши данные, что происходит с данными, когда они попадают в онлайн. Он не будет, наверное, рассказывать, что с этим делать. Мы подумаем дальше…

«На чём корпорации вертели вашу приватность», Артур Хачуян (Tazeros Global) - 1

АХ: – Расскажу, расскажу. На самом деле долго рассказывать не буду, но на предыдущем мероприятии мне представили человека, которому «Фейсбук» даже аккаунт собаки заблокировал.
Всем привет! Меня зовут Артур. Я действительно занимаюсь обработкой и сбором данных. Конечно же, я не продают никому никакие персональные данные в открытом доступе. Шучу. Моя сфера деятельности – это извлечение знаний из данных, находящихся в открытых источниках. Когда что-то юридически является не персональными данными, но из этого можно извлечь знания и сделать их такими же по значимости, как если бы эти данные были получены из персональных данных. Ничего на самом деле страшного рассказывать не буду. Здесь, правда, про Россию, но про Белоруссию у меня тоже есть цифры.Читать полностью »

Multiprocessing и реконсиляция данных из различных источников

2020-01-04 в 17:17, admin, рубрики: big data, BigData, multiprocessing, postgresql, python, sql, Алгоритмы, Программирование

Привет!

В условиях многообразия распределенных систем, наличие выверенной информации в целевом хранилище является важным критерием непротиворечивости данных.

На этот счет существует немало подходов и методик, а мы остановимся на реконсиляции, теоретические аспекты которой были затронуты вот в этой статье. Предлагаю рассмотреть практическую реализацию данной системы, масштабируемой и адаптированной под большой объем данных.

Как реализовать этот кейс на старом-добром Python — читаем под катом! Поехали!

Multiprocessing и реконсиляция данных из различных источников - 1

(Источник картинки)
Читать полностью »

Артур Хачуян: искусственный интеллект в маркетинге

2020-01-04 в 9:30, admin, рубрики: big data, Influence-маркетинг, Блог компании ua-hosting.company, будущее здесь, глубинное обучение, машинное обучение

Артур Хачуян — известный российский специалист по обработке больших данных, основатель компании Social Data Hub (сейчас Tazeros Global). Партнёр НИУ ВШЭ. Подготовил и представил совместно с НИУ ВШЭ законопроект по Big Data в Совете Федерации Выступал в институте Кюри в Париже, СПБГУ, ФУ при Правительстве РФ, на Red Apple, International OpenDataDay, RIW 2016, AlfaFuturePeople.

Лекция записана на open-air фестивале «Гик-пикник» в Москве в 2019 году.

Артур Хачуян: искусственный интеллект в маркетинге - 1

Артур Хачуян (далее – АХ): – Если из огромного количества отраслей – из медицины, из строительства, из чего-то, чего-то выбирать то, где технология больших данных, машинного обучения, глубинного обучения наиболее часто используется, то это, наверное, маркетинг. Потому что последние где-то года три всё, что окружает нас в каких-то рекламных коммуникациях, сейчас завязано именно на анализ данных и именно на том, что можно назвать искусственным интеллектом. Поэтому сегодня буду рассказывать вам про это из такой, очень отдалённой истории…Читать полностью »

Артур Хачуян: «Настоящая Big Data в рекламе»

2020-01-01 в 18:16, admin, рубрики: big data, Блог компании ua-hosting.company, Большие данные, высокоточное профилирование, контекстная реклама, медийная реклама, открытые данные, скоринг профилей

14 марта 2017 года в лектории BBDO выступил Артур Хачуян, генеральный директор Social Data Hub. Артур рассказал про интеллектуальный мониторинг, построение поведенческих моделей, распознавание фото- и видеоконтента, а также о других инструментах и исследованиях Social Data Hub, которые позволяют таргетировать аудиторию, используя социальные сети и технологии Big Data.

Артур Хачуян: «Настоящая Big Data в рекламе» - 1 Читать полностью »

Правильные ответы и анонс победителя

2019-12-27 в 12:50, admin, рубрики: big data, биоинформатика, биоинформатические алгоритмы, Биотехнологии, Блог компании «Атлас», генетика, генетический анализ, генетический код, генетический тест, днк, Здоровье гика

Мы завершаем цикл статей с практическими задачами о том, как использовать данные генетических тестов. Сегодня публикуем правильные ответы и победителей, которые решили все три задачи быстрее остальных.

Правильные ответы и анонс победителя - 1
Читать полностью »

3. Elastic stack: анализ security логов. Дашборды

2019-12-26 в 12:08, admin, рубрики: big data, check point, data analysis, elastic stack, elasticsearch, security, ts solution, анализ логов, Блог компании TS Solution, информационная безопасность, системное администрирование

3. Elastic stack: анализ security логов. Дашборды - 1

В прошлых статьях мы немного ознакомились со стеком elk и настройкой конфигурационного файла Logstash для парсера логов, в данной статье перейдем к самому важному с точки зрения аналитики, то что вы хотите увидеть от системы и ради чего все создавалось — это графики и таблицы объединенные в дашборды. Сегодня мы поближе ознакомимся с системой визуализации Kibana, рассмотрим как создавать графики, таблицы, и в результате построим простенький дашборд на основе логов с межсетевого экрана Check Point.
Читать полностью »

2. Elastic stack: анализ security логов. Logstash

2019-12-26 в 6:47, admin, рубрики: big data, check point, data analysis, elastic stack, elasticsearch, logstash, security, ts solution, анализ логов, Блог компании TS Solution, информационная безопасность, системное администрирование

2. Elastic stack: анализ security логов. Logstash - 1

В прошлой статье мы познакомились со стеком ELK, из каких программных продуктов он состоит. И первая задача с которой сталкивается инженер при работе с ELK стеком это отправление логов для хранения в elasticsearch для последующего анализа. Однако, это просто лишь на словах, elasticsearch хранит логи в виде документов с определенными полями и значениями, а значит инженер должен используя различные инструменты распарсить сообщение, которое отправляется с конечных систем. Сделать это можно несколькими способами — самому написать программу, которая по API будет добавлять документы в базу либо использовать уже готовые решения. В рамках данного курса мы будем рассматривать решение Logstash, которое является частью ELK stack. Мы посмотрим как можно отправить логи с конечных систем в Logstash, а затем будем настраивать конфигурационный файл для парсинга и перенаправления в базу данных Elasticsearch. Для этого в качестве входящей системы берем логи с межсетевого экрана Check Point.
Читать полностью »

Информация

Комментарии

Рекомендуем