Рубрика «базы данных» - 18

Bitmap-индексы в Go: поиск на дикой скорости

2019-05-16 в 12:01, admin, рубрики: bitmap, Go, go assembler, index, pilosa, базы данных, Блог компании Badoo, Программирование, хранение данных

Bitmap-индексы в Go: поиск на дикой скорости - 1

Вступительное слово

Я выступил с этим докладом на английском языке на конференции GopherCon Russia 2019 в Москве и на русском — на митапе в Нижнем Новгороде. Речь в нём идёт о bitmap-индексе — менее распространённом, чем B-tree, но не менее интересном. Делюсь записью выступления на конференции на английском и текстовой расшифровкой на русском.

Мы рассмотрим, как устроен bitmap-индекс, когда он лучше, когда — хуже других индексов и в каких случаях он значительно быстрее них; увидим, в каких популярных СУБД уже есть bitmap-индексы; попробуем написать свой на Go. А «на десерт» мы воспользуемся готовыми библиотеками, чтобы создать свою супербыструю специализированную базу данных.

Очень надеюсь, что мои труды окажутся для вас полезными и интересными. Поехали!
Читать полностью »

MongoDB, Elastic, кривые руки программистов госструктур и законы открывают данные россиян злоумышленникам

2019-05-15 в 12:26, admin, рубрики: devicelock dlp, Ашот Оганесян, базы данных, безопасность, взлом, Госвеб, законотворчество, Иван Бегтин, кадры, персональные данные, Роскомнадзор, статистика, Текучка, утечки, метки: DeviceLock DLP, Ашот Оганесян, базы данных, безопасность, взлом, Госвеб, законотворчество, Иван Бегтин, кадры, персональные данные, Роскомнадзор, статистика, Текучка, утечки

Иван Бегтин, председатель Ассоциации участников рынков данных, и Ашот Оганесян, технический директор DeviceLock DLP, показали массовую информационную дырявость, как сайтов государственных структур, так и частного бизнеса. Самым существенным недостатком выявленных уязвимостей является то, что никто не реагирует на выявляемые проблемы до тех пор, пока они не становятся публичными. Более того, Роскомнадзор, как регулятор, в ряде случаев (см. ниже) просто констатирует, что формального нарушения закона нет и то или иное раскрытие ПД правомерно.

Основных вариантов утечек два:

Читать полностью »

Искусственный интеллект, великий и ужасный. Часть третья

2019-05-05 в 9:14, admin, рубрики: Алгоритмы, базы данных, искусственный интеллект, нейронные сети, Программирование

Начало Предыдущая

Нейронные сети

В последнее время про НС говорят очень много. Я бы даже сказал, неприлично много. Я никогда не считал НС даже намёком на ИИ и, судя по многочисленным комментариям, это мнение разделяет немало людей. Некоторые высказывания: Читать полностью »

ok.tech: Cassandra meetup

2019-04-25 в 14:43, admin, рубрики: cassandra, nosql, ok.ru, Администрирование баз данных, базы данных, Блог компании Одноклассники, одноклассники, распределенные системы, хранилища данных

ok.tech: Cassandra meetup - 1

Работаете с NoSQL-хранилищем Apache Cassandra?

23 мая Одноклассники приглашают опытных разработчиков в свой офис в Петербурге на митап, посвященный работе с Apache Cassandra. Важен лишь ваш опыт работы с Cassandra и желание им поделиться.
Зарегистрироваться на мероприятие
Читать полностью »

Государственным компаниям запретят работать с зарубежными базами данных

2019-04-25 в 9:59, admin, рубрики: базы данных, Законодательство в IT, Сетевые технологии, Совет Федерации, Суверенный интернет

Государственным компаниям запретят работать с зарубежными базами данных - 1
Источник: Reuters

В законопроекте «О суверенном Рунете» оказалось положение, согласно которому госкомпаниям запретят использовать зарубежные базы данных. По мнению специалистов, этот запрет может оказать негативное влияние на «Ростелеком». Госструктурам (корпорациям, ФГУПам и т.п.) и другим государственным органам, которые управляют той либо иной информационной системой, нельзя будет использовать оборудование и базы данных, которые находятся за границей.

Если текущая формулировка сохранится, то законопроект негативно отразится на работе российских участников RIPE NCC. Это одна из пяти региональных организаций, которые распределяют IP-адреса и другие интернет-ресурсы по странам европейского региона и Ближнего Востока и оказывающих техническую поддержку работе глобальной сети. Одна из отечественных госкомпаний, которые могут столкнуться с трудностями — «Ростелеком».
Читать полностью »

OpenStreetMap: прошлое, настоящее и будущее

2019-04-17 в 13:01, admin, рубрики: OpenStreetMap, OSM, базы данных, Геоинформационные сервисы, картография, Программирование

Скажу сразу: я не пользователь OSM и, тем более, не участник проекта. Тем не менее, я считаю, что знаю о нём достаточно много, и хочу изложить свои соображения в виде обзорной заметки по статьям, которые мне удалось здесь обнаружить. Своего рода полемика с авторами этих статей и комментариев к ним. Точнее, с их тезисами — важно ведь не КТО сказал, а ЧТО сказано.

Часть первая: Начало

Началось это, видимо, с «The Shuttle Radar Topography Mission (SRTM) that flew onboard the Space Shuttle Endeavour during an 11-day mission in February of 2000». Затем Стив Кост, по примеру Википедии, в июле 2004 года создал проект OpenStreetMap (ещё до появления Google Maps, разумеется). После чего началось «триумфальное шествие советской власти»: для использования в OSM свои спутниковые снимки сделали доступными по лицензии CC-BY-SA компании NearMap, NOAA, GeoEye, DigitalGlobe, ErosB, Google (!), US Census TIGER, AND, MassGIS, GeoBase и многие другие. Поголовье волонтёров тоже растёт, как на дрожжах. Ещё немного, ещё чуть-чуть — и вся планета будет оцифрована и предоставлена в безвозмездное пользование всем-всем-всем!

Часть вторая. Наши дни

Хотели как лучше, а получилось как всегда. Навалились гурьбой, стали руки вязать, а потом уже все позабавились.

Так называемый «крупный бизнес» явно почуял поживуЧитать полностью »

Таблица Менделеева на школьной информатике

2019-04-06 в 8:45, admin, рубрики: Delphi, Pascal, Алгоритмы, базы данных, Википедия, графическое программирование, Занимательные задачки, Икусственный интеллект, интернет, информатика в школе, комплексный метод обучения, машинное обучение, Настольные компьютеры, образование, периодическая таблица элементов, поисковые технологии, Программирование, Софт, стиль программирования, СУБД, Управляющие карты, Учебный процесс в IT, физика, химия, хранение данных, читабельность кода

(Управляющие карты)
(Посвящается Международному году Периодической таблицы химических элементов)

(Цветок Менделеева, Источник)

Помнится, мы проходили утку. Это были сразу три урока: география, естествознание и русский. На уроке естествознания утка изучалась как утка какие у нее крылышки, какие лапки, как она плавает и так далее. На уроке географии та же утка изучалась как житель земного шара: нужно было на карте показать, где она живет и где ее нет. На русском Серафима Петровна учила нас писать «у-т-к-а» и читала что-нибудь об утках из Брема. Мимоходом она сообщала нам, что по-немецки утка так-то, а по-французски так-то. Кажется, это называлось тогда «комплексным методом». В общем, все выходило «мимоходом».

Вениамин Каверин, Два капитана

В приведенной цитате Вениамин Каверин мастерски показал недостатки комплексного метода обучения, однако в некоторых (может быть, довольно редких) случаях элементы этого метода бывают оправданы. Один из таких случаев — это Периодическая таблица Д.И.Менделеева на уроках школьной информатики. Задача программной автоматизации типовых действий с таблицей Менделеева наглядна для школьников, начавших изучать химию, и разбивается на многие типовые химические задачи. В то же время в рамках информатики эта задача позволяет в простой форме продемонстрировать способ управляющих карт, который можно отнести к графическому программированию, понимаемому в широком смысле слова как программирование с помощью графических элементов.
Читать полностью »

DataGrip 2019.1: поддержка новых баз, инициализационные скрипты, новые инспекции и другое

2019-04-03 в 13:58, admin, рубрики: db2, Hive, intellij idea, Microsoft SQL Server, mysql, postgresql, Snowflake, sql, Vertica, Администрирование баз данных, базы данных, Блог компании JetBrains

Привет! Посмотрим на новые штуки в — DataGrip 2019.1. Напомним, что функциональность DataGrip включена и в другие наши платные IDE, кроме WebStorm.

Читать полностью »

Архитектурный шаблон “Macro Shared Transactions for Microservices”

2019-04-01 в 11:14, admin, рубрики: java, Анализ и проектирование систем, базы данных, Блог компании DataArt, Микросервисная архитектура, микросервисы, Программирование, складская логистика

Архитектурный шаблон “Macro Shared Transactions for Microservices” - 1

Автор: Денис Цыплаков, Solution Architect, DataArt

Постановка задачи

Одной из проблем при построении микросервисных архитектур и особенно при миграции монолитной архитектуры на микросервисы часто становятся транзакции. Каждый микросервис отвечает за собственную группу функций, возможно, управляет данным, ассоциированными с этой группой, и может обслуживать запросы пользователя либо автономно, либо посылая запросы другим микросервисам. Все это прекрасно работает, пока нам не требуется обеспечить консистентность данных, которыми управляют разные микросервисы. Читать полностью »

Продуктовая аналитика ВКонтакте на базе ClickHouse

2019-03-26 в 10:52, admin, рубрики: big data, big data analytics, clickhouse, sql, анализ данных, аналитика, базы данных, Блог компании ВКонтакте, Вконтакте, продуктовая аналитика, статистический анализ

Продуктовая аналитика ВКонтакте на базе ClickHouse - 1

Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «базы данных» - 18

Bitmap-индексы в Go: поиск на дикой скорости

Вступительное слово

MongoDB, Elastic, кривые руки программистов госструктур и законы открывают данные россиян злоумышленникам