Рубрика «данные» - 5

Массивно-параллельная база данных Greenplum — короткий ликбез - 1

Для Hadoop и Greenplum есть возможность получить готовый SaaS. И если Хадуп — известная штука, то Greenplum (он лежит в основе продукта АrenadataDB, про который далее пойдёт речь) — интересная, но уже менее «на слуху».

Arenadata DB — это распределённая СУБД на базе опенсорсного Greenplum. Как и у других решений MPP (параллельной обработки данных), для массивно-параллельных систем архитектура облака далека от оптимальной. Это может снижать производительность аж до 30 % (обычно меньше). Но, тем не менее, эту проблему можно нивелировать (о чём речь пойдёт ниже). Кроме того, стоит покупать такую услугу из облака, часто это удобно и выгодно в сравнении с развёртыванием собственного кластера.

В гайдах явно указывается on-premise, но сейчас многие осознают масштаб удобства облака. Все понимают, что некая деградация производительности будет, но это настолько всё равно супер по удобству и скорости, что уже есть проекты, где этим жертвуют на каких-то этапах вроде проверки гипотез.

Если у вас есть хранилище данных больше 1 ТБ и транзакционные системы — не ваш профиль по нагрузке, то ниже — рассказ, что можно сделать как вариант. Почему 1 ТБ? Начиная с этого объёма использование MPP эффективнее по соотношению производительность/стоимость, если сравнивать с классическими СУБД. Читать полностью »

Владимир Маршинин aka mavl: «Призыв “Не копируйте другие карты” позволяет избежать OpenStreetMap проблем с лицензиями» - 1
mavl попросил разместить этот снимок — Марьино ущелье, одно из наиболее красивых мест Тюменской области

mavl — представляет Россию в рабочей группе по данным Фонда OSM (DWG), той самой, которая удаляет нелицензионные правки из проекта. Зачем он вошел в состав DWG, почему нельзя копировать все подряд и как ему удается всегда сохранить спокойствие — обо всем этом Владимир рассказал в интервью.
Читать полностью »

Pizza as a service: как Amazon на Redshift мигрировал - 1

Привет, меня зовут Виктория, и я отвечаю за маркетинг в КРОК Облачные сервисы. Теперь мы регулярно проводим у себя облачные митапы. Я недавно попала на крутейшее выступление Дмитрия Аношина, который сейчас работает в Amazon, и хочу им поделиться.

У меня появилось стойкое ощущение, что крупные коммерческие компании решили собрать вообще все возможные данные в мире, до которых могут дотянуться. С одной стороны, это выливается в продвинутую аналитику, повышение продаж и привлекательность продуктов. С другой — данные стали настолько жирными и всеобъемлющими, что анекдоты про грузовики с CD-дисками уже давно обыденность.

Посмотрим, зачем может понадобиться миграция в облако, и что получила Amazon от переезда внутренней инфраструктуры на Redshift и NoSQL DynamoDB. Разберём разницу между концепциями SMP и MPP, ETL и ELT и попробуем понять, зачем нужны облака для больших данных.

Ну а если вы в курсе того, что происходило в индустрии в последние годы, то листайте сразу к конкретному кейсу. Заходите под кат, я подготовила конспект основных моментов выступления.Читать полностью »

Воры проникли в автомобиль бухгалтера Facebook и украли из него жесткие диски с данными 29 тыс. сотрудников компании - 1Парковка около офиса Facebook.

Согласно информации издания Bloomberg, в Сан-Франциско, США, у одного из сотрудников бухгалтерии компании Facebook в ноябре 2019 года воры, проникнув в его личный автомобиль, украли некоторые вещи, включая корпоративные жесткие диски, содержавшие банковские данные двадцати девяти тысяч сотрудников компании, которые работали на Facebook в 2018 году. На нескольких незашифрованных дисках хранилась персональная информация о сотрудниках, включая номера их банковских счетов, ФИО, последние четыре цифры номеров социального страхования, данные о заработной плате, бонусы, а также данные об имеющихся у них акциях и инвестициях.
Читать полностью »

Привет! Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за ноябрь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за октябрь, можете прочесть его здесь.

Итак, а теперь дайджест за ноябрь:

1. MIT разработал новый тип робота, который может расти как растение когда ему требуется дополнительная досягаемость.

image Читать полностью »

Привет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.

Data Mesh: как работать с данными без монолита - 1Читать полностью »

Привет! Отфильтровав для вас большое количество источников и подписок, собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за октябрь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за сентябрь, можете прочесть его здесь.

Итак, а теперь дайджест за октябрь:

1. Фотореалистичная 3D-модель человека выступила на TED. Нейросеть динамически восстанавливает 3D-модель человека на основе распознавания движения лицевых мышц. С помощью данных с камеры нейросеть распознает и восстанавливает эмоции и действия человека.

Читать полностью »

Привет! Сегодня мы начинаем серию статей, в которую войдет 5 подборок бесплатных обучающих курсов от компании Microsoft. В этой статье у нас самые крутые курсы для разработчиков, которые сильнее всего нравятся программистам.

Кстати!

  • Все курсы бесплатные (вы даже сможете попробовать платные продукты бесплатно);
  • 6/7 на русском языке;
  • Начать обучение можно мгновенно;
  • По окончании вы получите бейдж об успешном прохождении обучения.

Присоединяйтесь, подробности под катом!

Все статьи из серии

Этот блок будет обновляться с выходом новых статей

  1. 7 бесплатных курсов для разработчиков
  2. * бесплатных курсов для *T-А***н*******ров
  3. 7 бесплатных курсов для ************ *******
  4. 6 ***** ****** ****** по Azure
  5. ** ***** ********** ****** ** ********* ** *******

7 бесплатных курсов для разработчиков от Microsoft - 1Читать полностью »

ОK, а мне точно нужен Kubernetes? - 1

В большой компании часто очень тяжело согласовывать выделение ресурсов под рабочие задачи. Весь Agile с хрустом разбивается о стену трёхнедельного согласования с ИБ новой инфраструктуры. Поэтому к нам часто приходят запросы на перевод инфраструктуры на контейнеры, чтобы выкатывать изменения не раз в три месяца, а когда нужно бизнесу. Просят при этом настроить/внедрить Kubernetes как самый популярный инструмент оркестрации, хотя, как показывает практика, из 10 проектов он нужен максимум в трёх. А по факту стоит или использовать не Kubernetes, а OpenShift, или работать с ним не в своей инфраструктуре, а в публичном облаке, например. Я попробую рассказать про реальные бизнес-кейсы, которые мы решали, опишу основные различия между Kubernetes и OpenShift. А ещё о том, как мы согласование ИБ до 30 минут урезали, и все остались живы.

У нас было несколько интересных внедрений, в которых мы разгребали накопившиеся проблемы заказчика. Например, к нам пришла розничная компания, которой надо было выкатывать новые фишки непрерывно. Конкуренция дикая! А у них только инфраструктура под разработку каждый раз готовится от шести до десяти дней, из-за чего возникают простои. Решать вопрос с помощью закупки нового железа для тестирования и разработки — дорого и путь в никуда. В итоге мы перевели ИТ-инфраструктуру на контейнерную виртуализацию. В результате благодаря контейнерам нагрузка сократилась на 40 %, а инфраструктура под новую разработку теперь готовится от одного до четырёх часов. Бонус — экономия, так как все процессы можно было продолжать вести на базе имеющихся мощностей без покупки новых.Читать полностью »

По информации издания «Коммерсантъ», на одном из теневых ресурсов 13 октября 2019 года появилось объявление о продаже персональных данных клиентов Сбербанка на миллион строк, накопленных с 2015 года. В объявлении утверждалось, что база содержит полные данные клиентов банка, имеющих кредиты или кредитные карты: паспорт, прописка, адреса проживания, телефоны, счета, сумма остатка или задолженности. Правда теперь, помимо данных о кредитных картах, к продаже предлагалась еще дополнительная информация о клиентах — выгрузка последнего звонка клиента в банк, причем продавец предлагает покупателю именно запись разговора клиентов с колл-центром финансового учреждения.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js