Рубрика «BigData» - 4

Multiprocessing и реконсиляция данных из различных источников

2020-01-04 в 17:17, admin, рубрики: big data, BigData, multiprocessing, postgresql, python, sql, Алгоритмы, Программирование

Привет!

В условиях многообразия распределенных систем, наличие выверенной информации в целевом хранилище является важным критерием непротиворечивости данных.

На этот счет существует немало подходов и методик, а мы остановимся на реконсиляции, теоретические аспекты которой были затронуты вот в этой статье. Предлагаю рассмотреть практическую реализацию данной системы, масштабируемой и адаптированной под большой объем данных.

Как реализовать этот кейс на старом-добром Python — читаем под катом! Поехали!

Multiprocessing и реконсиляция данных из различных источников - 1

(Источник картинки)
Читать полностью »

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data

2019-12-19 в 12:11, admin, рубрики: analytics, big data, big data analytics, BigData, cassandra, data base, data mining, elasticsearch, presto, Talend, анализ данных, аналитические системы, Блог компании Plarium, визуализация данных, инструменты, инструменты анализа данных, обработка данных, работа с данными, сбор данных

Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data - 1

Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.Читать полностью »

Большим данным большой биллинг: о BigData в телекоме

2019-08-10 в 12:21, admin, рубрики: big data, BigData, будущее здесь, Исследования и прогнозы в IT, телеком, телекоммуникации и связь

В 2008 BigData была новым термином и модным трендом. В 2019 BigData – это объект продажи, источник прибыли и повод для новых законопроектов.

Осенью прошлого года российское правительство инициировало законопроект о регулировании больших данных. Запрещается идентифицировать по информации людей, но разрешается делать это по запросу федеральных органов. Обработка BigData для третьих лиц – только после уведомления Роскомнадзора. Под закон попадают компании, в распоряжении которых больше 100 тысяч сетевых адресов. И, конечно, куда без реестров – предполагается создание такового со списком операторов БД. И если до этого BigData не всеми воспринималась всерьез, то теперь с ней придется считаться.

Не могу обойти стороной БД и я, как директор компании-разработчика биллинга, который эту самую BigData обрабатывает. Поразмышляю о больших данных через призму операторов связи, через чьи биллинговые системы ежедневно проходят потоки информации о тысячах абонентов.
Читать полностью »

Data and Models Version control in Computer Vision meetup

2019-08-09 в 13:09, admin, рубрики: big data, BigData, catalyst, computer vision, data scientist, dvc, machine learning, meetups, ml-repa, mlflow, open source, raiffeisenIT, Блог компании Райффайзенбанк, конференции, машинное обучение

Сообщество ML-REPA приглашает на открытый митап по вопросам воспроизводимости и управлению экспериментами в computer vision, который пройдет 15 августа в офисе Райффайзенбанк в Нагатино.

На митапе будем разбираться с особенностями обеспечения воспроизводимости экспериментов в Computer Vision, автоматизации пайплайнов и версионирование моделей. Где может пригодиться DVC или MLFlow? А где лучше написать свой “велосипед“? Также глубже посмотрим на реализацию Catalyst и его применение.

Data and Models Version control in Computer Vision meetup - 1
Читать полностью »

Извлечение данных при машинном обучении

2019-07-19 в 12:15, admin, рубрики: big data, BigData, data mining, data science, jupyter notebook, mashine learning, python, Блог компании Plarium, дата-майнинг, машинное обучение, наука о данных, новичкам, сбор данных

Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Извлечение данных при машинном обучении - 1

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »

Data Science Digest (July 2019)

2019-07-02 в 10:19, admin, рубрики: AI, big data, BigData, data science, machine learning, python, R, Алгоритмы, анализ данных, Большие данные, видео, дайджест, искусственный интеллект, машинное обучение, Мероприятия, Новости, статьи

Data Science Digest (July 2019) - 1

Приветствую всех!

Лето в полном разгаре, и если вы планируете быть в Одессе 5-го июля, приглашаю вас на ODS митап и дата-бар, который организовывает одесская ODS.ai команда. Напоминаю, что у дайджеста есть свой Telegram-канал и страницы в соцсетях (Facebook, Twitter, LinkedIn, Medium), где я ежедневно публикую ссылки на полезные материалы. Присоединяйтесь!

А пока предлагаю свежую подборку материалов под катом.
Читать полностью »

Освобождаем руки нескольким аналитикам: API Livy для автоматизации типовых банковских задач

2019-06-21 в 15:30, admin, рубрики: analytics, automatization, big data, BigData, Hadoop, livy, machine learning, python, spark, Блог компании ООО «Хоум Кредит Энд Финанс Банк», машинное обучение

Привет!

Не секрет, что для оценки платежеспособности клиентов банки используют данные из различных источников (кредитное бюро, мобильные операторы и т.д.). Количество внешних партнёров может достигать нескольких десятков, а аналитиков в нашей команде наберётся лишь несколько человек. Возникает задача оптимизации работы небольшой команды и передачи рутинных задач вычислительным системам.

Как данные попадают в банк, и как команда аналитиков следит за этим процессом, разберём в данной статье.
Читать полностью »

Big data, deus ex machina

2019-03-18 в 9:00, admin, рубрики: big data, BigData, data mining, Hadoop, machine learning, Блог компании Mail.Ru Group, машинное обучение

Big data, deus ex machina - 1

Источник

«Данные — это новая нефть». Эту фразу на выступлении для PopTech произнёс несколько лет назад Джер Торп (Jer Thorp), художник и эксперт в вопросах анализа и визуализации данных, один из основателей «Бюро креативных исследований». Сегодня мы хотим поговорить не просто о данных, а о больших данных. Разбираемся, какие данные big, а какие нет, как они работают и как на этом зарабатывает бизнес.

Читать полностью »

Финтех-дайджест: робот ЦБ против финансовых пирамид, банки проверяют данные абонентов сотовых операторов

2019-02-22 в 10:28, admin, рубрики: BigData, Альфа-Банк, Блог компании «Альфа-Банк», дайджест, Евросеть, ИИ, Исследования и прогнозы в IT, Связной, сотовые операторы, финансы в IT, финтех, цб, Центробанк

Привет. Сегодня мы расскажем вот о чем:

Робот ЦБ занимается поиском финансовых пирамид;
Банки проверяют данные абонентов сотовых операторов;
В России количество мобильных платежей выросло в пять раз;
РФ заняла 9 место среди граждан стран G20 в рейтинге финансовой грамотности населения;
Финтех-индустрия постоянно растет.

Читать полностью »

Обзор NeurIPS-2018

2018-12-28 в 12:34, admin, рубрики: BigData, data mining, neurips, nips, Блог компании МТС, искусственный интеллект, конференция, математика, машинное обучение, монреаль, МТС

В начале декабря в Монреале прошла 32-ая ежегодная конференция Neural Information Processing Systems, посвященная машинному обучению. По неофициальному табелю о рангах эта конференция является топ-1 событием подобного формата в мире. Все билеты на конференцию в этом году были раскуплены за рекордные 13 минут. У нас большая команда data scientist’ов МТС, но лишь одному из них – Марине Ярославцевой (magoli) – посчастливилось попасть в Монреаль. Вместе с Данилой Савенковым (danila_savenkov), который остался без визы и следил за конференцией из Москвы, мы расскажем о работах, показавшихся нам наиболее интересными. Эта выборка очень субъективна, но, надеемся, она заинтересует вас.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «BigData» - 4

Multiprocessing и реконсиляция данных из различных источников

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data

Большим данным большой биллинг: о BigData в телекоме

Data and Models Version control in Computer Vision meetup

Извлечение данных при машинном обучении

Data Science Digest (July 2019)

Освобождаем руки нескольким аналитикам: API Livy для автоматизации типовых банковских задач

Big data, deus ex machina

Финтех-дайджест: робот ЦБ против финансовых пирамид, банки проверяют данные абонентов сотовых операторов

Обзор NeurIPS-2018