Некоторое время назад я активировал у гугла бесплатный триал под их клауд, задачку я свою не решил, оказалось гугл дает $300 на 12 месяцев под триал, однако вопреки моим ожиданиям кроме лимита бюджета накладываются и другие лимиты. Например не позволил использовать виртуалки более 8 vcpu в одном регионе. Спустя пол года решил использовать триальный бюджет на знакомство с dataproc, предустановленный хадуп кластер от гугла. Задача — попытаться оценить на сколько просто было бы мне запустить проект на гугловом хадупе, есть ли в нем смысл или лучше сразу ориентироваться на свое железо и продумывать администрирование. Есть у меня смутное ощущение, что современное железо и бигдата стек уже легко должен адаптироваться и под небольшие базы данных в десятки или сотни Гб, брутально загружая если не весь датасет, то подавляющую часть в память кластера. Какие-то отдельные субд под витрины данных уже могут и не потребоваться.
Если в вкратце то в dataproc впечатлила простота запуска и настроек, на фоне Oracle и Cloudera. На первом этапе я играл с one node cluster на 8 vCpu, максимум какой позволяет совсем бесплатный триал. Если смотреть на простоту, то их технологии уже позволяют совсем индусу в 15 минут запустить кластер, загрузить сампл данные и подготовить отчетик обычным BI инструментом, без каких либо промежуточных субд под витрины. Каких-то глубоких знаний о хадупе уже совсем не требуется.
Читать полностью »
Рубрика «big data» - 43
Использование данных пользователей и продажу big data предложили узаконить
2018-10-23 в 16:16, admin, рубрики: big data, Госдума, данные, Законодательство в IT, законопроекты, персонализация, Регулирование
Сегодня стало известно о появлении нового законопроекта, который уже внесен в Госдуму и опубликован в базе документов ее законодательной деятельности. Он вводит понятие регулирования больших данных, содержимое документа доступно для обсуждения на площадке regulation.gov.ru, о чем сообщают «Ведомости».
Речь идет о пользовательских данных, собираемых телекоммуникационными компаниями. Они деперсонализированы, то есть личность человека которому они принадлежат определить нельзя. Обработкой же данных такого рода считаются любые действия с ними — от сбора и систематизации до передачи и удаления. Автор документа предлагает предоставить компаниям использовать данные для своих нужд, либо же передавать другим компаниям, включая продажу.
Читать полностью »
Бизнес на персональных данных: как добиться успеха и не преступить закон?
2018-10-22 в 10:29, admin, рубрики: big data, бизнес, бизнес-модели, Блог компании Digital Rights Center, Большие данные, большие пользовательские данные, данные, Законодательство в IT, персональные данные, хранение данных, хранилища данных, центр цифровых прав
«Данные – нефть цифровой экономики» — выражение, которое уже стало афоризмом. Действительно, в современном мире пользовательские данные превратились в один из наиболее ценных и востребованных ресурсов. Так, по данным компании PwC, в 2018 году мировая выручка от использования пользовательских данных достигнет $300 млрд. Что касается России, то по данным журнала РБК в 2017 году оборот рынка продажи и покупки персональных данных в России составил не менее 3,3 млрд рублей. Более того, эксперты прогнозируют дальнейший интенсивный рост этого рынка.
Тем не менее, использование персональных данных в бизнесе пока не имеет должного правового регулирования. Текущее законодательство оставляет открытым вопрос об оборотоспособности данных и возможности их монетизации. Также в судебной практике пока не сформированы универсальные критерии, позволяющие найти баланс между необходимостью защиты частной жизни пользователей и потребностями бизнес-сообщества в условиях цифровой экономики.
31 октября, Москва — BI MeetUP
2018-10-22 в 10:03, admin, рубрики: BI, big data, Business Intelligence, data mining, oracle, Альфа-Банк, Блог компании «Альфа-Банк», визуализация данных, конференции, митап, транзакции, финтехПривет! В этот раз мы сделали митап не для разработчиков или дизайнеров, а по менее популярной (но не менее важной) теме — BI, Business intelligence.
Ребята из BI занимаются тем, что переводят поток транзакционных данных в информацию, которую можно нормально анализировать и обрабатывать на последующих этапах работы.
Вход бесплатный, но надо заранее зарегистрироваться. Подробности — под катом.
Читать полностью »
Как мы научили нейросеть определять документы
2018-10-19 в 14:48, admin, рубрики: big data, machine learning, Алгоритмы, Блог компании ВКонтакте, Вконтакте, детекторы лиц, машинное обучение, нейросети, распознавание документов, распознавание изображений
Этим летом мы научили нейронную сеть определять, присутствует ли на изображении документ, и если да — то какой именно.
Для чего это понадобилось
Чтобы разгрузить сотрудников и обезопасить людей от мошенников. Мы применяем новую нейросеть в двух сферах: когда пользователь восстанавливает доступ к странице и для скрытия личных документов из общего поиска.
10 трюков для продвинутого дашбординга в Splunk. Часть 1
2018-10-19 в 7:14, admin, рубрики: big data, Bootstrap, dashboard, html, splunk, usability, XML, Блог компании TS Solution, визуализация данных
Добрый день!
Сегодня мы хотим поделиться с вами инсайдом с ежегодного масштабного мероприятия Splunk .conf18, которое проходило в начале октября. Splunk .conf – это то место, где эксперты и разработчики Splunk делятся своим опытом, разными фишками и полезными инструментами для работы.
В двух статьях мы расскажем о 10 лайфхаках для разработчиков дашбордов, которые были предложены на конференции. Почему говорим именно про это? Потому что чем лучше выглядит приложение, тем лучше воспринимается информация в нем. Для того, чтобы сделать действительно хорошие дашборды уже существует множество встроенных или легко интегрируемых инструментов, правда далеко не все знают, где и как их найти. Подробнее про них и как их использовать, смотрите под катом.
Читать полностью »
«Мегафон», Mail.ru Group и «Яндекс» создали Ассоциацию больших данных
2018-10-17 в 12:34, admin, рубрики: big data, mail.ru group, банки, законотворчество, запуск, Мегафон, Россия, Ростелеком, Сбербанк, сотовые операторы, Текучка, тинькофф банк, яндекс, метки: big data, mail.ru group, банки, законотворчество, запуск, Мегафон, Россия, Ростелеком, Сбербанк, сотовые операторы, Текучка, тинькофф банк, яндекс«Мегафон», Mail.ru Group, oneFactor, Тинькофф Банк, «Яндекс» и «Сбербанк» учредили Ассоциацию участников рынка больших данных, сообщил «Роем!» представитель oneFactor. Президентом организации стала операционный директор «Мегафона» Анна Серебряникова. Ассоциация займется созданием единых принципов и стандартов обработки, Читать полностью »
Engie и Ledger разработали аппаратное блокчейн-решение для хранения данных, генерируемых источниками «зеленой» энергии
2018-10-16 в 10:18, admin, рубрики: big data, ledger, Madrobots, Блог компании Madrobots, блокчейн, данные, распределённые вычисления, энергетика, Энергия и элементы питания
Несколько лет назад выражение «все становится лучше с Bluetooth» стало, можно сказать, мемом. В наше время Bluetooth заменил блокчейн — не в смысле замены одной технологии другой, а в плане модификации мема. Слово «блокчейн» используют все кому не лень, кстати или не кстати.
Но бывают и случаи, когда эта технология используется вполне обоснованно. Например, ее внедряют в кадастровые решения, используют для работы с разного рода реестрами, не говоря уже о криптовалютах. Сейчас блокчейн пытаются поставить на службу себе и энергетики, для того, чтобы информация с источников электроэнергии поступала в безопасное хранилище, откуда ее можно было бы забирать для использования в разного рода приложениях — в основном, имеются в виду промышленные решения.
Читать полностью »
Облачные сервисы Amazon и анализ инвестиционного портфеля
2018-10-15 в 16:13, admin, рубрики: Amazon Web Services, AWS, big data, data mining, etl, python, sql, акции, Анализ и проектирование систем, Облачные вычисления, облачные сервисы, отчеты, Программирование, финансы в IT, ценные бумагиВ последнее время на фондовых рынках наблюдается высокая волатильность, когда, например, стабильная бумага известной компании может враз потерять сразу несколько процентов на новостях о санкциях против ее руководства или наоборот взлететь до небес на позитивном отчете и ожиданиях инвесторов о сверхприбыльных дивидендах.
Как же определить, принесло ли владение данной ценной бумагой доход или одни лишь убытки и разочарование?
В этой статье я расскажу Вам как определять и визуализировать скорректированный финансовый результат по ценным бумагам.
На примере клиентской отчетности Открытие Брокер мы рассмотрим парсинг и консолидацию брокерских отчетов для фондового рынка, построение архитектуры облачной отчетной системы с последующим простым и удобным анализом в AWS Quicksight.
Читать полностью »
Ликбез по работе с перфокартами (или история о том, как с 1890-го по 1970-й «большие данные» обрабатывались)
2018-10-15 в 16:00, admin, рубрики: big data, антиквариат, математика, перфокарты, сортировка, старое железоВ период 1890-1970 вся обработка больших данных осуществлялась через перфокарты. Перфокарты в свою очередь обрабатывались при помощи т.н. «регистрирующей аппаратурой», центральным звеном которой был электромеханический «сортировщик перфокарт». Перфокарты и сопутствующую аппаратуру применяли для решения самых разнообразных задач: перепись населения, бухгалтерский учёт, инвентаризация, расчёт заработной платы и т.д.
Как люди работали с перфокартами? Какому алгоритму следовал электромеханический сортировщик перфокарт? Как осуществлялась сортировка по числовым полям данных? А по строковым? Обо всём этом – ниже.