Рубрика «big data» - 43

Обзор Hadoop от Google (dataproc)

2018-10-27 в 18:51, admin, рубрики: big data, dataproc, Hadoop

Некоторое время назад я активировал у гугла бесплатный триал под их клауд, задачку я свою не решил, оказалось гугл дает $300 на 12 месяцев под триал, однако вопреки моим ожиданиям кроме лимита бюджета накладываются и другие лимиты. Например не позволил использовать виртуалки более 8 vcpu в одном регионе. Спустя пол года решил использовать триальный бюджет на знакомство с dataproc, предустановленный хадуп кластер от гугла. Задача — попытаться оценить на сколько просто было бы мне запустить проект на гугловом хадупе, есть ли в нем смысл или лучше сразу ориентироваться на свое железо и продумывать администрирование. Есть у меня смутное ощущение, что современное железо и бигдата стек уже легко должен адаптироваться и под небольшие базы данных в десятки или сотни Гб, брутально загружая если не весь датасет, то подавляющую часть в память кластера. Какие-то отдельные субд под витрины данных уже могут и не потребоваться.
Если в вкратце то в dataproc впечатлила простота запуска и настроек, на фоне Oracle и Cloudera. На первом этапе я играл с one node cluster на 8 vCpu, максимум какой позволяет совсем бесплатный триал. Если смотреть на простоту, то их технологии уже позволяют совсем индусу в 15 минут запустить кластер, загрузить сампл данные и подготовить отчетик обычным BI инструментом, без каких либо промежуточных субд под витрины. Каких-то глубоких знаний о хадупе уже совсем не требуется.
Читать полностью »

Использование данных пользователей и продажу big data предложили узаконить

2018-10-23 в 16:16, admin, рубрики: big data, Госдума, данные, Законодательство в IT, законопроекты, персонализация, Регулирование

Использование данных пользователей и продажу big data предложили узаконить - 1

Сегодня стало известно о появлении нового законопроекта, который уже внесен в Госдуму и опубликован в базе документов ее законодательной деятельности. Он вводит понятие регулирования больших данных, содержимое документа доступно для обсуждения на площадке regulation.gov.ru, о чем сообщают «Ведомости».

Речь идет о пользовательских данных, собираемых телекоммуникационными компаниями. Они деперсонализированы, то есть личность человека которому они принадлежат определить нельзя. Обработкой же данных такого рода считаются любые действия с ними — от сбора и систематизации до передачи и удаления. Автор документа предлагает предоставить компаниям использовать данные для своих нужд, либо же передавать другим компаниям, включая продажу.
Читать полностью »

Бизнес на персональных данных: как добиться успеха и не преступить закон?

2018-10-22 в 10:29, admin, рубрики: big data, бизнес, бизнес-модели, Блог компании Digital Rights Center, Большие данные, большие пользовательские данные, данные, Законодательство в IT, персональные данные, хранение данных, хранилища данных, центр цифровых прав

«Данные – нефть цифровой экономики» — выражение, которое уже стало афоризмом. Действительно, в современном мире пользовательские данные превратились в один из наиболее ценных и востребованных ресурсов. Так, по данным компании PwC, в 2018 году мировая выручка от использования пользовательских данных достигнет $300 млрд. Что касается России, то по данным журнала РБК в 2017 году оборот рынка продажи и покупки персональных данных в России составил не менее 3,3 млрд рублей. Более того, эксперты прогнозируют дальнейший интенсивный рост этого рынка.

Тем не менее, использование персональных данных в бизнесе пока не имеет должного правового регулирования. Текущее законодательство оставляет открытым вопрос об оборотоспособности данных и возможности их монетизации. Также в судебной практике пока не сформированы универсальные критерии, позволяющие найти баланс между необходимостью защиты частной жизни пользователей и потребностями бизнес-сообщества в условиях цифровой экономики.

Читать полностью »

31 октября, Москва — BI MeetUP

2018-10-22 в 10:03, admin, рубрики: BI, big data, Business Intelligence, data mining, oracle, Альфа-Банк, Блог компании «Альфа-Банк», визуализация данных, конференции, митап, транзакции, финтех

Привет! В этот раз мы сделали митап не для разработчиков или дизайнеров, а по менее популярной (но не менее важной) теме — BI, Business intelligence.

Ребята из BI занимаются тем, что переводят поток транзакционных данных в информацию, которую можно нормально анализировать и обрабатывать на последующих этапах работы.

Вход бесплатный, но надо заранее зарегистрироваться. Подробности — под катом.
Читать полностью »

Как мы научили нейросеть определять документы

2018-10-19 в 14:48, admin, рубрики: big data, machine learning, Алгоритмы, Блог компании ВКонтакте, Вконтакте, детекторы лиц, машинное обучение, нейросети, распознавание документов, распознавание изображений

Как мы научили нейросеть определять документы - 1

Этим летом мы научили нейронную сеть определять, присутствует ли на изображении документ, и если да — то какой именно.

Для чего это понадобилось

Чтобы разгрузить сотрудников и обезопасить людей от мошенников. Мы применяем новую нейросеть в двух сферах: когда пользователь восстанавливает доступ к странице и для скрытия личных документов из общего поиска.

Читать полностью »

10 трюков для продвинутого дашбординга в Splunk. Часть 1

2018-10-19 в 7:14, admin, рубрики: big data, Bootstrap, dashboard, html, splunk, usability, XML, Блог компании TS Solution, визуализация данных

10 трюков для продвинутого дашбординга в Splunk. Часть 1 - 1

Добрый день!

Сегодня мы хотим поделиться с вами инсайдом с ежегодного масштабного мероприятия Splunk .conf18, которое проходило в начале октября. Splunk .conf – это то место, где эксперты и разработчики Splunk делятся своим опытом, разными фишками и полезными инструментами для работы.

В двух статьях мы расскажем о 10 лайфхаках для разработчиков дашбордов, которые были предложены на конференции. Почему говорим именно про это? Потому что чем лучше выглядит приложение, тем лучше воспринимается информация в нем. Для того, чтобы сделать действительно хорошие дашборды уже существует множество встроенных или легко интегрируемых инструментов, правда далеко не все знают, где и как их найти. Подробнее про них и как их использовать, смотрите под катом.
Читать полностью »

«Мегафон», Mail.ru Group и «Яндекс» создали Ассоциацию больших данных

2018-10-17 в 12:34, admin, рубрики: big data, mail.ru group, банки, законотворчество, запуск, Мегафон, Россия, Ростелеком, Сбербанк, сотовые операторы, Текучка, тинькофф банк, яндекс, метки: big data, mail.ru group, банки, законотворчество, запуск, Мегафон, Россия, Ростелеком, Сбербанк, сотовые операторы, Текучка, тинькофф банк, яндекс

«Мегафон», Mail.ru Group, oneFactor, Тинькофф Банк, «Яндекс» и «Сбербанк» учредили Ассоциацию участников рынка больших данных, сообщил «Роем!» представитель oneFactor. Президентом организации стала операционный ди⁠ректор «Мегафона» Анна Серебряникова. Ассоциация займется созданием единых принципов и стандартов обработки, Читать полностью »

Engie и Ledger разработали аппаратное блокчейн-решение для хранения данных, генерируемых источниками «зеленой» энергии

2018-10-16 в 10:18, admin, рубрики: big data, ledger, Madrobots, Блог компании Madrobots, блокчейн, данные, распределённые вычисления, энергетика, Энергия и элементы питания

Engie и Ledger разработали аппаратное блокчейн-решение для хранения данных, генерируемых источниками «зеленой» энергии - 1

Несколько лет назад выражение «все становится лучше с Bluetooth» стало, можно сказать, мемом. В наше время Bluetooth заменил блокчейн — не в смысле замены одной технологии другой, а в плане модификации мема. Слово «блокчейн» используют все кому не лень, кстати или не кстати.

Но бывают и случаи, когда эта технология используется вполне обоснованно. Например, ее внедряют в кадастровые решения, используют для работы с разного рода реестрами, не говоря уже о криптовалютах. Сейчас блокчейн пытаются поставить на службу себе и энергетики, для того, чтобы информация с источников электроэнергии поступала в безопасное хранилище, откуда ее можно было бы забирать для использования в разного рода приложениях — в основном, имеются в виду промышленные решения.
Читать полностью »

Облачные сервисы Amazon и анализ инвестиционного портфеля

2018-10-15 в 16:13, admin, рубрики: Amazon Web Services, AWS, big data, data mining, etl, python, sql, акции, Анализ и проектирование систем, Облачные вычисления, облачные сервисы, отчеты, Программирование, финансы в IT, ценные бумаги

В последнее время на фондовых рынках наблюдается высокая волатильность, когда, например, стабильная бумага известной компании может враз потерять сразу несколько процентов на новостях о санкциях против ее руководства или наоборот взлететь до небес на позитивном отчете и ожиданиях инвесторов о сверхприбыльных дивидендах.

Как же определить, принесло ли владение данной ценной бумагой доход или одни лишь убытки и разочарование?

Облачные сервисы Amazon и анализ инвестиционного портфеля - 1

(Источник)

В этой статье я расскажу Вам как определять и визуализировать скорректированный финансовый результат по ценным бумагам.

На примере клиентской отчетности Открытие Брокер мы рассмотрим парсинг и консолидацию брокерских отчетов для фондового рынка, построение архитектуры облачной отчетной системы с последующим простым и удобным анализом в AWS Quicksight.
Читать полностью »

Ликбез по работе с перфокартами (или история о том, как с 1890-го по 1970-й «большие данные» обрабатывались)

2018-10-15 в 16:00, admin, рубрики: big data, антиквариат, математика, перфокарты, сортировка, старое железо

В период 1890-1970 вся обработка больших данных осуществлялась через перфокарты. Перфокарты в свою очередь обрабатывались при помощи т.н. «регистрирующей аппаратурой», центральным звеном которой был электромеханический «сортировщик перфокарт». Перфокарты и сопутствующую аппаратуру применяли для решения самых разнообразных задач: перепись населения, бухгалтерский учёт, инвентаризация, расчёт заработной платы и т.д.

Как люди работали с перфокартами? Какому алгоритму следовал электромеханический сортировщик перфокарт? Как осуществлялась сортировка по числовым полям данных? А по строковым? Обо всём этом – ниже.

Ликбез по работе с перфокартами (или история о том, как с 1890-го по 1970-й «большие данные» обрабатывались) - 1

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 43

Обзор Hadoop от Google (dataproc)

Использование данных пользователей и продажу big data предложили узаконить

Бизнес на персональных данных: как добиться успеха и не преступить закон?

31 октября, Москва — BI MeetUP

Как мы научили нейросеть определять документы

Для чего это понадобилось

10 трюков для продвинутого дашбординга в Splunk. Часть 1

«Мегафон», Mail.ru Group и «Яндекс» создали Ассоциацию больших данных

Engie и Ledger разработали аппаратное блокчейн-решение для хранения данных, генерируемых источниками «зеленой» энергии

Облачные сервисы Amazon и анализ инвестиционного портфеля

Ликбез по работе с перфокартами (или история о том, как с 1890-го по 1970-й «большие данные» обрабатывались)

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 43

Для чего это понадобилось

Новости

Актуальные темы

Архив