Рубрика «базы данных» - 17

ok.tech: Cassandra meetup - 1

Работаете с NoSQL-хранилищем Apache Cassandra?

23 мая Одноклассники приглашают опытных разработчиков в свой офис в Петербурге на митап, посвященный работе с Apache Cassandra. Важен лишь ваш опыт работы с Cassandra и желание им поделиться.
Зарегистрироваться на мероприятие
Читать полностью »

Государственным компаниям запретят работать с зарубежными базами данных - 1
Источник: Reuters

В законопроекте «О суверенном Рунете» оказалось положение, согласно которому госкомпаниям запретят использовать зарубежные базы данных. По мнению специалистов, этот запрет может оказать негативное влияние на «Ростелеком». Госструктурам (корпорациям, ФГУПам и т.п.) и другим государственным органам, которые управляют той либо иной информационной системой, нельзя будет использовать оборудование и базы данных, которые находятся за границей.

Если текущая формулировка сохранится, то законопроект негативно отразится на работе российских участников RIPE NCC. Это одна из пяти региональных организаций, которые распределяют IP-адреса и другие интернет-ресурсы по странам европейского региона и Ближнего Востока и оказывающих техническую поддержку работе глобальной сети. Одна из отечественных госкомпаний, которые могут столкнуться с трудностями — «Ростелеком».
Читать полностью »

Скажу сразу: я не пользователь OSM и, тем более, не участник проекта. Тем не менее, я считаю, что знаю о нём достаточно много, и хочу изложить свои соображения в виде обзорной заметки по статьям, которые мне удалось здесь обнаружить. Своего рода полемика с авторами этих статей и комментариев к ним. Точнее, с их тезисами — важно ведь не КТО сказал, а ЧТО сказано.

Часть первая: Начало

Началось это, видимо, с «The Shuttle Radar Topography Mission (SRTM) that flew onboard the Space Shuttle Endeavour during an 11-day mission in February of 2000». Затем Стив Кост, по примеру Википедии, в июле 2004 года создал проект OpenStreetMap (ещё до появления Google Maps, разумеется). После чего началось «триумфальное шествие советской власти»: для использования в OSM свои спутниковые снимки сделали доступными по лицензии CC-BY-SA компании NearMap, NOAA, GeoEye, DigitalGlobe, ErosB, Google (!), US Census TIGER, AND, MassGIS, GeoBase и многие другие. Поголовье волонтёров тоже растёт, как на дрожжах. Ещё немного, ещё чуть-чуть — и вся планета будет оцифрована и предоставлена в безвозмездное пользование всем-всем-всем!

Часть вторая. Наши дни

Хотели как лучше, а получилось как всегда. Навалились гурьбой, стали руки вязать, а потом уже все позабавились.

Так называемый «крупный бизнес» явно почуял поживуЧитать полностью »

(Управляющие карты)
(Посвящается Международному году Периодической таблицы химических элементов)

image
(Цветок Менделеева, Источник)

Помнится, мы проходили утку. Это были сразу три урока: география, естествознание и русский. На уроке естествознания утка изучалась как утка какие у нее крылышки, какие лапки, как она плавает и так далее. На уроке географии та же утка изучалась как житель земного шара: нужно было на карте показать, где она живет и где ее нет. На русском Серафима Петровна учила нас писать «у-т-к-а» и читала что-нибудь об утках из Брема. Мимоходом она сообщала нам, что по-немецки утка так-то, а по-французски так-то. Кажется, это называлось тогда «комплексным методом». В общем, все выходило «мимоходом».

Вениамин Каверин, Два капитана

В приведенной цитате Вениамин Каверин мастерски показал недостатки комплексного метода обучения, однако в некоторых (может быть, довольно редких) случаях элементы этого метода бывают оправданы. Один из таких случаев — это Периодическая таблица Д.И.Менделеева на уроках школьной информатики. Задача программной автоматизации типовых действий с таблицей Менделеева наглядна для школьников, начавших изучать химию, и разбивается на многие типовые химические задачи. В то же время в рамках информатики эта задача позволяет в простой форме продемонстрировать способ управляющих карт, который можно отнести к графическому программированию, понимаемому в широком смысле слова как программирование с помощью графических элементов.
Читать полностью »

Привет! Посмотрим на новые штуки в — DataGrip 2019.1. Напомним, что функциональность DataGrip включена и в другие наши платные IDE, кроме WebStorm.

imageЧитать полностью »

Архитектурный шаблон “Macro Shared Transactions for Microservices” - 1

Автор: Денис Цыплаков, Solution Architect, DataArt

Постановка задачи

Одной из проблем при построении микросервисных архитектур и особенно при миграции монолитной архитектуры на микросервисы часто становятся транзакции. Каждый микросервис отвечает за собственную группу функций, возможно, управляет данным, ассоциированными с этой группой, и может обслуживать запросы пользователя либо автономно, либо посылая запросы другим микросервисам. Все это прекрасно работает, пока нам не требуется обеспечить консистентность данных, которыми управляют разные микросервисы. Читать полностью »

Продуктовая аналитика ВКонтакте на базе ClickHouse - 1

Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.
Читать полностью »

Телемедицинский сервис DOC+ связал утечку персональных данных, о которой стало широко известно в минувшие выходные, с ошибкой сотрудника. DOC+ выступает одним из медицинских провайдеров в маркетплейсе Яндекс.Здоровье — данные клиентов этого сервиса в отрытый доступ не попали, подчеркнули в PR-службе, в отличие от собственных:

Появление данных из ClickHouse в открытом доступе произошло из-за ошибки, Читать полностью »

Графики, отчеты и аналитика – все это так или иначе присутствует в back-office любого, даже совсем маленького, предприятия. Когда в обычных таблицах в Excel/Numbers/Libre становится уже тесно, но data все еще не очень big, традиционные решения для внутренних потребностей компании часто строятся с помощью реляционных баз данных, таких как PostgreSQL, MySQL или MariaDB.

Эти базы данных бесплатны, благодаря SQL удобно интегрируются с остальными компонентами в системе, они популярны и с ними умеют работать большинство разработчиков и аналитиков. Нагрузку (трафик и объемы) они могут переварить достаточно объемную, чтобы спокойно продержаться до того момента, когда компания сможет позволить себе более сложные (и дорогие) решения для аналитики и отчетов.
Читать полностью »

5 лайфхаков оптимизации SQL-запросов в Greenplum - 1

Любые процессы, связанные с базой, рано или поздно сталкиваются с проблемами производительности запросов к этой базе.

Хранилище данных Ростелекома построено на Greenplum, большая часть вычислений (transform) производится sql-запросами, которые запускает (либо генерирует и запускает) ETL-механизм. СУБД имеет свои нюансы, существенно влияющие на производительность. Данная статья — попытка выделить наиболее критичные, с точки зрения производительности, аспекты работы с Greenplum и поделиться опытом.

В двух словах о Greenplum

Greenplum — MPP сервер БД, ядро которого построено на PostgreSql.

Представляет собой несколько разных экземпляров процесса PostgreSql (инстансы). Один из них является точкой входа для клиента и называется master instance (master), все остальные — Segment instanсe (segment, Независимые инстансы, на каждом из которых хранится своя порция данных). На каждом сервере (segment host) может быть запущено от одного до нескольких сервисов (segment). Делается это для того, чтобы лучше утилизировать ресурсы серверов и в первую очередь процессоры. Мастер хранит метаданные, отвечает за связь клиентов с данными, а также распределяет работу между сегментами.

5 лайфхаков оптимизации SQL-запросов в Greenplum - 2

Подробнее можно почитать в официальной документации.

Далее в статье будет много отсылок к плану запроса. Информацию для Greenplum можно получить тут.

Как писать хорошие запросы на Greenplum (ну или хотя бы не совсем печальные)

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js