Рубрика «big data» - 27

«Золотое сечение» в экономике – что это?

2019-08-16 в 17:48, admin, рубрики: big data, data mining, Диаграмма Лоренца, доля рынка, распределение расходов, рентабельность, рынок, спираль Фибоначчи, стар-апы, Читальный зал, экономика

Несколько слов о «золотом сечении» в традиционном смысле

Считается, что если отрезок разделить на части таким образом, что меньшая его часть будет относиться к большей, как бОльшая – к целому отрезку, то такое разделение дает пропорцию 1/1,618, которую древние греки, позаимствовав ее у еще более древних египтян, назвали «золотым сечением». И что многие архитектурные сооружения – соотношения контуров строений, соотношение между их ключевыми элементами — начиная с египетских пирамид и кончая теоретическими построениями Ле Корбюзье — основывались на этой пропорции.
Ей же соответствуют числа Фибоначчи, спираль которого дает развернутую геометрическую иллюстрацию этой пропорции.

Более того, размеры человеческого тела (от подошв до пупка, от пупка до головы, от головы до пальцев поднятой руки), начиная от идеальных пропорций, увиденных в Средневековье (витрувианский человек и проч.), и кончая антропометрическими измерения населения СССР, довольно-таки близки к этой пропорции.
Читать полностью »

Применение машинного обучения и Data Science в промышленности

2019-08-15 в 13:52, admin, рубрики: big data, data mining, python, Блог компании Mail.Ru Group, искусственный интеллект, машинное обучение, наука и данных, промышленность

Хабр, привет. Написал пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.
Читать полностью »

Число Зверя, или Новый властный класс

2019-08-15 в 12:28, admin, рубрики: big data, базы данных, безопасность, Госвеб, законотворчество, кейсы, Нам пишут, персональные данные, метки: big data, базы данных, безопасность, Госвеб, законотворчество, кейсы, Нам пишут, персональные данные

В продолжение возникшей в обществе и СМИ
дискуссии о единой государственной базе персональных данных
о гражданах, хотелось бы сказать следующее

В первую очередь этот разговор обычно начинают с безопасности данных. Не будет ли центральная база наиболее уязвима, что с риском утечек и т. п. Давайте начнём с этого, хотя это точно не главное:

1. Вопросы безопасности данных

Есть мнение,Читать полностью »

PVS-Studio в гостях у Apache Hive

2019-08-15 в 7:12, admin, рубрики: Apache Hive, big data, bugs, devops, DevSecOps, errors, Hadoop, Hive, java, open source, pvs-studio, pvsstudio, SAST, source code, static code analysis, static code analyzer, баги, базы данных, Блог компании PVS-Studio, информационная безопасность, открытые проекты, ошибки, статический анализ кода

Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не только усиливается в виде роста количественных показателей, но происходит и изменение его качественного позиционирования на IT-рынке в целом. Не сидя сложа руки, бравая команда PVS-Studio активно способствует закреплению позиций open source проектов, находя затаившиеся баги в огромных толщах кодовых баз и предлагая для таких проектов бесплатные лицензии. Эта статья не исключение! Сегодня речь пойдет об Apache Hive! Отчет получен — есть на что посмотреть!
Читать полностью »

1.1 миллиард поездок на такси: 108-ядерный кластер ClickHouse

2019-08-14 в 12:23, admin, рубрики: big data, clickhouse, data engineering, Администрирование баз данных, базы данных, Блог компании OTUS. Онлайн-образование

Перевод статьи подготовлен специально для студентов курса «Data Engineer».

ClickHouse — это колоночная база данных с открытым исходным кодом. Это великолепная среда, где сотни аналитиков могут быстро запрашивать развернутые данные, даже когда вводятся десятки миллиардов новых записей в день. Расходы на инфраструктуру для поддержки такой системы могут достигать 100 тыс. долларов США в год, и потенциально вдвое меньше, в зависимости от использования. В какой-то момент инсталяция ClickHouse от Яндекс Метрики содержала 10 триллионов записей. Помимо Яндекса, ClickHouse также снискала успех у Bloomberg и Cloudflare.Читать полностью »

Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей

2019-08-12 в 12:12, admin, рубрики: big data, data mining, emocontext, emotion detection, FastText, glove, keras, LSTM, python, semeval, semeval-2019, TensorFlow, word embeddings, word2vec, Блог компании Mail.Ru Group, векторное представление слов, долгая краткосрочная память, машинное обучение, рекуррентная нейронная сеть

Одна из основных задач диалоговых систем состоит не только в предоставлении нужной пользователю информации, но и в генерации как можно более человеческих ответов. А распознание эмоций собеседника – уже не просто крутая фича, это жизненная необходимость. В этой статье мы рассмотрим архитектуру рекуррентной нейросети для определения эмоций в текстовых беседах, которая принимала участие в SemEval-2019 Task 3 “EmoContext”, ежегодном соревновании по компьютерной лингвистике. Задача состояла в классификации эмоций (“happy”, “sad”, “angry” и “others”) в беседе из трех реплик, в которой участвовали чат-бот и человек.

В первой части статьи мы рассмотрим поставленную в EmoContext задачу и предоставленные организаторами данные. Во второй и третьей частях разберём предварительную обработку текста и способы векторного представления слов. В четвёртой части мы опишем архитектуру LSTM, которую мы использовали в соревновании. Код написан на языке Python с использованием библиотеки Keras.
Читать полностью »

Как было устроено хранилище DWH в TELE2

2019-08-11 в 15:54, admin, рубрики: apex, big data, database design, dwh, edw, oracle, oracle application express, Tele2 Россия, архитектура, база дынных, биллинг, биллинговая система, биллинговые системы, теле2, телекоммуникации и связь, хранение данных, хранилища данных, хранилище данных

Здравствуйте, дорогие друзья.

Сегодня хочу поделиться историей из жизни, как было устроено хранилище DWH в Tele2 до внедрения КХД (EDW). А в следующих статьях рассказать, как внедрялись ETL-инструменты, EDW и BI решения в Tele2.

Поступил я в ИТ подразделение Tele2 в 2012 в отдел по системам отчетности. На тот момент в компании уже было создано хранилище DWH, на котором уже крутилось много процессов по предоставлению отчетности и не только.

Немного по поводу технического стека, который там использовался на тот момент. Для хранилища использовалась Оракловая база объемом 60-100 Тб сервер T4-4 c оперативой под 1 Тб. Туда загружались данные из различных источников. Но основными из них были 4 оракловые биллинговые базы, которые были по сути платформой тарификации. И был отдел ЕРЦ (Единый расчетный центр), который занимался поддержкой этих баз и предоставлением сервисов. Разделение этих баз было по макрорегионам. Причина: слишком большие объемы. Т.е если абонент звонит, скажем, из Московской сим-карты то и расчет стоимости звонка производится в соответствующем биллинге.

Читать полностью »

Большим данным большой биллинг: о BigData в телекоме

2019-08-10 в 12:21, admin, рубрики: big data, BigData, будущее здесь, Исследования и прогнозы в IT, телеком, телекоммуникации и связь

В 2008 BigData была новым термином и модным трендом. В 2019 BigData – это объект продажи, источник прибыли и повод для новых законопроектов.

Осенью прошлого года российское правительство инициировало законопроект о регулировании больших данных. Запрещается идентифицировать по информации людей, но разрешается делать это по запросу федеральных органов. Обработка BigData для третьих лиц – только после уведомления Роскомнадзора. Под закон попадают компании, в распоряжении которых больше 100 тысяч сетевых адресов. И, конечно, куда без реестров – предполагается создание такового со списком операторов БД. И если до этого BigData не всеми воспринималась всерьез, то теперь с ней придется считаться.

Не могу обойти стороной БД и я, как директор компании-разработчика биллинга, который эту самую BigData обрабатывает. Поразмышляю о больших данных через призму операторов связи, через чьи биллинговые системы ежедневно проходят потоки информации о тысячах абонентов.
Читать полностью »

Белый шум рисует черный квадрат. Часть 2. Решение

2019-08-09 в 20:15, admin, рубрики: big data, data analysis, data mining, machine learning, Алгоритмы, анализ данных, декомпозиция баз данных, математика, открытые данные, теорема Эрдёша-Реньи

В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной log_2{N}. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать полностью »

Data and Models Version control in Computer Vision meetup

2019-08-09 в 13:09, admin, рубрики: big data, BigData, catalyst, computer vision, data scientist, dvc, machine learning, meetups, ml-repa, mlflow, open source, raiffeisenIT, Блог компании Райффайзенбанк, конференции, машинное обучение

Сообщество ML-REPA приглашает на открытый митап по вопросам воспроизводимости и управлению экспериментами в computer vision, который пройдет 15 августа в офисе Райффайзенбанк в Нагатино.

На митапе будем разбираться с особенностями обеспечения воспроизводимости экспериментов в Computer Vision, автоматизации пайплайнов и версионирование моделей. Где может пригодиться DVC или MLFlow? А где лучше написать свой “велосипед“? Также глубже посмотрим на реализацию Catalyst и его применение.

Data and Models Version control in Computer Vision meetup - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 27

«Золотое сечение» в экономике – что это?

Несколько слов о «золотом сечении» в традиционном смысле

Применение машинного обучения и Data Science в промышленности

Число Зверя, или Новый властный класс

1. Вопросы безопасности данных

PVS-Studio в гостях у Apache Hive

1.1 миллиард поездок на такси: 108-ядерный кластер ClickHouse

Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей

Как было устроено хранилище DWH в TELE2

Большим данным большой биллинг: о BigData в телекоме

Белый шум рисует черный квадрат. Часть 2. Решение

Data and Models Version control in Computer Vision meetup

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 27

Несколько слов о «золотом сечении» в традиционном смысле

1. Вопросы безопасности данных

Новости

Актуальные темы

Архив