Рубрика «данные» - 4

Пользу от ИИ (и всех связанных с ним технологий) сложно переоценить. Правильно обученные нейросети способны и подогреть интерес к самой технологии, например, создавая маски для социальных сетей или сгенерированные песни в стилистике любимых исполнителей, и показать практическую пользу в реальных делах — от предсказания событий на производстве до поиска пропавших людей.

В этом посте мы как раз и поговорим о практическом применении ИИ в тяжелой промышленности (да, мы не только приложения делать умеем), а именно о том, как технологии помогли одному производству по переработке руды существенно повысить эффективность работы и перестать гонять человека пару раз в день просеивать куски породы через большое сито.

Как мы забрали у человека сито и помогли мельнице - 1

В 1949 году советский пилот-геологоразведчик Михаил Сургутанов пролетал над одной из территорий Казахстана (урочище Сарбай) и, взглянув на компас, заметил, что стрелка стала игнорировать Север и зажила своей жизнью. Да, как в кино при обнаружении каких-то магнитных аномалий.
Читать полностью »

Обезл***вание д***ных — это не просто рандомизация - 1

В банке есть проблема: нужно давать доступ к базе данных разработчикам и тестировщикам. Есть куча клиентских данных, которые по PCI DSS требованиям Центробанка и законам о персональных данных вообще нельзя использовать для раскрытия на отделы разработки и тестирования.

Казалось бы, достаточно просто поменять всё на какие-нибудь несимметричные хеши, и всё будет хорошо.

Так вот, не будет.

Дело в том, что база данных банка — это множество связанных между собой таблиц. Где-то они связаны по ФИО и номеру счёта клиента. Где-то по его уникальному идентификатору. Где-то (тут начинается боль) через хранимую процедуру, которая вычисляет сквозной идентификатор на основе этой и соседней таблицы. И так далее.

Обычная ситуация, что разработчик первой версии системы уже десять лет как умер или уехал, а системы ядра, запущенные в старом гипервизоре внутри нового гипервизора (чтобы обеспечить совместимость) ещё в проде.

То есть прежде чем всё это обезличить, сначала надо разобраться в базе данных. Читать полностью »

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных» - 1

Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.

Читать полностью »

В Сбербанке снова утечка данных — новая информация о клиентах банка выставлена на продажу - 1

Согласно информации издания «Известия», с 12 февраля 2020 года в даркнете появились новые объявления о продаже базы данных, в каждой строке содержащих такую информацию о клиентах Сбербанка: название банковского подразделения, полное ФИО, номер счета, паспортные данные, дата рождения и номер телефона.
Читать полностью »

Драйвер графического планшета Wacom собирает данные об открытых пользователем приложениях и отправляет производителю - 1

В январе 2020 года инженер-программист Роберт Хитон подключил свой графический планшет Wacom на новый макбук. В процессе установки нового драйвера для планшета ему было предложено принять политику конфиденциальности Wacom.

«Почему устройству, которое по сути является мышью, нужна политика конфиденциальности?» — такой вопрос задал себе инженер-программист Роберт Хитон. Он при обновлении драйвера графического планшета Wacom на своем Apple Mac заметил текст мелким шрифтом в политике конфиденциальности, принимая который Роберт фактически дал Wacom разрешение на слежку за его действиями, когда он работает с планшетом.

И вот после этого клика Роберт почувствовал себя недовольным таким отношением производителя к пользователям, в нем проснулся инженер-детектив. Роберт Хитон решил выяснить, какие данные собирает графический планшет Wacom и куда он их отсылает.
Читать полностью »

Георгий Потапов: «Я — профессиональный потребитель данных OpenStreetMap» - 1

Георгий Потапов — инженер-исследователь и руководитель проектов, который сейчас работает в Сколковском институте науки и технологий. Он увлеченно занимается стартапом GeoAlert, где их команда разрабатывает нейросети для автоматического картирования по спутниковым снимкам. Как ему в этом помогает OSM, почему компании должны открывать свои данные и когда человек станет не нужен — обо всем этом он рассказал в интервью.Читать полностью »

Массивно-параллельная база данных Greenplum — короткий ликбез - 1

Для Hadoop и Greenplum есть возможность получить готовый SaaS. И если Хадуп — известная штука, то Greenplum (он лежит в основе продукта АrenadataDB, про который далее пойдёт речь) — интересная, но уже менее «на слуху».

Arenadata DB — это распределённая СУБД на базе опенсорсного Greenplum. Как и у других решений MPP (параллельной обработки данных), для массивно-параллельных систем архитектура облака далека от оптимальной. Это может снижать производительность аж до 30 % (обычно меньше). Но, тем не менее, эту проблему можно нивелировать (о чём речь пойдёт ниже). Кроме того, стоит покупать такую услугу из облака, часто это удобно и выгодно в сравнении с развёртыванием собственного кластера.

В гайдах явно указывается on-premise, но сейчас многие осознают масштаб удобства облака. Все понимают, что некая деградация производительности будет, но это настолько всё равно супер по удобству и скорости, что уже есть проекты, где этим жертвуют на каких-то этапах вроде проверки гипотез.

Если у вас есть хранилище данных больше 1 ТБ и транзакционные системы — не ваш профиль по нагрузке, то ниже — рассказ, что можно сделать как вариант. Почему 1 ТБ? Начиная с этого объёма использование MPP эффективнее по соотношению производительность/стоимость, если сравнивать с классическими СУБД. Читать полностью »

Владимир Маршинин aka mavl: «Призыв “Не копируйте другие карты” позволяет избежать OpenStreetMap проблем с лицензиями» - 1
mavl попросил разместить этот снимок — Марьино ущелье, одно из наиболее красивых мест Тюменской области

mavl — представляет Россию в рабочей группе по данным Фонда OSM (DWG), той самой, которая удаляет нелицензионные правки из проекта. Зачем он вошел в состав DWG, почему нельзя копировать все подряд и как ему удается всегда сохранить спокойствие — обо всем этом Владимир рассказал в интервью.
Читать полностью »

Pizza as a service: как Amazon на Redshift мигрировал - 1

Привет, меня зовут Виктория, и я отвечаю за маркетинг в КРОК Облачные сервисы. Теперь мы регулярно проводим у себя облачные митапы. Я недавно попала на крутейшее выступление Дмитрия Аношина, который сейчас работает в Amazon, и хочу им поделиться.

У меня появилось стойкое ощущение, что крупные коммерческие компании решили собрать вообще все возможные данные в мире, до которых могут дотянуться. С одной стороны, это выливается в продвинутую аналитику, повышение продаж и привлекательность продуктов. С другой — данные стали настолько жирными и всеобъемлющими, что анекдоты про грузовики с CD-дисками уже давно обыденность.

Посмотрим, зачем может понадобиться миграция в облако, и что получила Amazon от переезда внутренней инфраструктуры на Redshift и NoSQL DynamoDB. Разберём разницу между концепциями SMP и MPP, ETL и ELT и попробуем понять, зачем нужны облака для больших данных.

Ну а если вы в курсе того, что происходило в индустрии в последние годы, то листайте сразу к конкретному кейсу. Заходите под кат, я подготовила конспект основных моментов выступления.Читать полностью »

Воры проникли в автомобиль бухгалтера Facebook и украли из него жесткие диски с данными 29 тыс. сотрудников компании - 1Парковка около офиса Facebook.

Согласно информации издания Bloomberg, в Сан-Франциско, США, у одного из сотрудников бухгалтерии компании Facebook в ноябре 2019 года воры, проникнув в его личный автомобиль, украли некоторые вещи, включая корпоративные жесткие диски, содержавшие банковские данные двадцати девяти тысяч сотрудников компании, которые работали на Facebook в 2018 году. На нескольких незашифрованных дисках хранилась персональная информация о сотрудниках, включая номера их банковских счетов, ФИО, последние четыре цифры номеров социального страхования, данные о заработной плате, бонусы, а также данные об имеющихся у них акциях и инвестициях.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js