Рубрика «базы данных» - 20

Kafka на Kubernetes — это хорошо?

2019-08-02 в 8:02, admin, рубрики: Apache, big data, kubernetes, Администрирование баз данных, базы данных, Блог компании Издательский дом «Питер», высокая производительность, книги, облачные технологии

Приветствуем вас!

В свое время мы первыми вывели на российский рынок тему Kafka и продолжаем следить за ее развитием. В частности, нам показалась интересной тема взаимодействия Kafka и Kubernetes. Обзорная (и довольно осторожная) статья на эту тему выходила в блоге компании Confluent еще в октябре прошлого года под авторством Гвен Шапиры. Сегодня же мы хотим обратить ваше внимание на более свежую, апрельскую статью Йоханна Гайгера (Johann Gyger), который, хотя и не обошелся без вопросительного знака в названии, рассматривает тему в более предметном ключе, сопровождая текст интересными ссылками. Простите нам пожалуйста вольный перевод «chaos monkey», если сможете!

Читать полностью »

Как мы тестировали несколько баз данных временных рядов

2019-08-01 в 6:28, admin, рубрики: cassandra, clickhouse, diy или сделай сам, influxdb, ITSumma, prometheus, TSBD, Администрирование баз данных, базы данных, Блог компании ITSumma, тест, тестирование, Тестирование IT-систем, хранение данных

Как мы тестировали несколько баз данных временных рядов - 1

За последние несколько лет базы данных временных рядов (Time-series databases) превратились из диковинной штуки (узкоспециализированно применяющейся либо в открытых системах мониторинга (и привязанной к конкретным решениям), либо в Big Data проектах) в «товар народного потребления». На территории РФ отдельное спасибо за это надо сказать Яндексу и ClickHouse’у. До этого момента, если вам было необходимо сохранить большое количество time-series данных, приходилось либо смириться с необходимостью поднять монструозный Hadoop-стэк и сопровождать его, либо общаться с протоколами, индивидуальными для каждый системы.

Может показаться, что в 2019-м году статья про то, какую TSDB стоит использовать, будет состоять лишь из одного предложения: «просто используйте ClickHouse». Но… есть нюансы.

Действительно, ClickHouse активно развивается, пользовательская база растет, а поддержка ведется очень активно, но не стали ли мы заложниками успешной публичности ClickHouse-а, которая затмила другие, возможно, более эффективные/надежные решения?
В начале прошлого года мы занялись переработкой нашей собственной системы мониторинга, в процессе которой встал вопрос о выборе подходящей базы для хранения данных. Об истории этого выбора я и хочу здесь рассказать.
Читать полностью »

DataGrip 2019.2: Управление соединениями, поиск по данным, фильтрация в навигации

2019-07-30 в 14:13, admin, рубрики: DataGrip, docker, intellij idea, Microsoft SQL Server, mysql, postgresql, sql, sql server, базы данных, Блог компании JetBrains

Привет! Рассказываем о том, что мы сделали в DataGrip за четыре месяца. Если вы используете поддержку баз данных в других наших IDE, этот пост для вас тоже.

DataGrip 2019.2: Управление соединениями, поиск по данным, фильтрация в навигации - 1
Читать полностью »

Налоговая получит единую базу данных о населении РФ

2019-07-24 в 10:25, admin, рубрики: базы данных, Госвеб, госуслуги, законотворчество, налоги, Россия, статистика, Текучка, метки: базы данных, Госвеб, госуслуги, законотворчество, налоги, Россия, статистика, Текучка

Правительство внесло в Думу законопроект «О едином федеральном информационном ресурсе, содержащем сведения о населении Российской Федерации». Документ реализует президентский указ 2016 года «О дополнительных мерах по укреплению платежной дисциплины». Оператором системы назначены налоговые органы России, ресурс поможет их контрольным функциям. Правительство надеется, что закон Читать полностью »

WSJ: $5 млрд — размер штрафа для Facebook из-за Cambridge Analytica

2019-07-13 в 10:13, admin, рубрики: big data, Cambridge Analytica, Facebook, базы данных, выборы, Госвеб, Доверие к соцсетям, Дональд Трамп, Медиа, персональные данные, политика, соцсети, США, Текучка, утечки, метки: big data, Cambridge Analytica, Facebook, базы данных, выборы, Госвеб, Доверие к соцсетям, Дональд Трамп, медиа, персональные данные, политика, соцсети, США, Текучка, утечки

По данным WSJ, власти США одобрили соглашение с компанией Марка Цукерберга о выплате штрафа для урегулирования скандала с утечкой данных через компанию Cambridge Analytica [Roem.ru: термин «утечка» в данном случае политизированный шаблон, а не IT-шный факт]. Это рекордная сумма для технологических компаний в Штатах, передал РБК.

Cambridge Analytica, Читать полностью »

По следам Highload++ Siberia 2019 — 8 задач по Oracle

2019-07-12 в 11:04, admin, рубрики: highload, oracle, smlab, sql, Администрирование баз данных, базы данных, Блог компании Sportmaster Lab, Спортмастер

Привет!

24-25 июня в Новосибирске прошла конференция Highload++ Siberia 2019. Наши ребята тоже там были докладом «Контейнерные базы Oracle (CDB/PDB) и их практическое использование для разработки ПО», мы выложим текстовую версию немного позже. Было круто, спасибо olegbunin за организацию, а также всем, кто пришёл.

По следам Highload++ Siberia 2019 — 8 задач по Oracle - 1

В этом посте мы хотели бы поделиться с вами задачами, которые были на нашем стенде, чтобы вы могли проверить свои знания в Oracle. Под катом — 8 задач, варианты ответов и объяснение.
Читать полностью »

Анализ производительности запросов в ClickHouse. Доклад Яндекса

2019-07-08 в 13:05, admin, рубрики: big data, clickhouse, highload, open source, perf, performance, базы данных, Блог компании Яндекс, высокая производительность, Серверное администрирование

Что делать, если ваш запрос к базе выполняется недостаточно быстро? Как узнать, оптимально ли запрос использует вычислительные ресурсы или его можно ускорить? На последней конференции HighLoad++ в Москве я рассказал об интроспекции производительности запросов — и о том, что даёт СУБД ClickHouse, и о возможностях ОС, которые должны быть известны каждому.

Анализ производительности запросов в ClickHouse. Доклад Яндекса - 1

Каждый раз, когда я делаю запрос, меня волнует не только результат, но и то, что этот запрос делает. Например, он работает одну секунду. Много это или мало? Я всегда думаю: а почему не полсекунды? Потом что-нибудь оптимизирую, ускоряю, и он работает 10 мс. Обычно я доволен. Но все-таки я стараюсь в этом случае сделать недовольное выражение лица и спросить: «Почему не 5 мс?» Как можно выяснить, на что тратится время при обработке запроса? Можно ли его в принципе ускорить?

Читать полностью »

Дайджест новостей из мира PostgreSQL. Выпуск №16

2019-07-05 в 14:13, admin, рубрики: dbms, postgres, postgresql, rdbms, базы данных, Блог компании Postgres Professional, СУБД

Дайджест новостей из мира PostgreSQL. Выпуск №16 - 1

Мы продолжаем знакомить вас с самыми интересными новостями по PostgreSQL.

Главная новость июня

EnterpriseDB приобретена инвестиционным фондом Great Hill Partners. Сумма сделки не разглашается. Майкл Стоунбрейкер назначен техническим советником. Энди Палмер вошел в совет директоров EDB. Он известный ИТ-инвестор, сооснователь Vertica и автор главы в книге Making Databases Work: The Pragmatic Wisdom of Michael Stonebraker. Great Hill Partners — частный (непубличный) фонд, управляющий $2.7 млрд. Событие не менее впечатляющее, чем недавняя покупка Citus Microsoft-ом: из 5 участников Core Team двое сотрудники EDB.

Релизы

PostgreSQL 11.4, 10.9, 9.6.14, 9.5.18, 9.4.23 и 12 Beta 2

Этих релизов ждали не из-за новых фич, а из-за того, что надо было закрывать обнаруженную дырку в безопасности под кодовым названием CVE-2019-10164. Любой прошедший проверку при аутентификации по методу scram-sha-256 пользователь мог переполнить буфер в стеке, сменяя свой пароль на специально сконструированную строку. Этим способом можно было не только уронить сервер, но и выполнить произвольный код от имени пользователя ОС, запускающего PostgreSQL.

Подобная возможность переполнения существовала и в libpq, и эксплуатируя её, подставной сервер мог уронить клиентское приложение или выполнить коварный код на клиенте от имени пользователя, запускавшего это приложение.

Эта уязвимость проявилась только в относительно новых версиях PostgreSQL: 10 и выше, когда появилась SCRAM-аутентификация. На сайте сообщества можно увидеть «особую благодарность» Александру Лахину (Postgres Professional), который обнаружил проблему.

Можно почитать статью на эту тему: eVOL Monkey. Who's affected and how to protect your systems.

Postgres Pro Standard 11.4.1, 10.9.1, 9.6.14.1, 9.5.17.1 и Postgres Pro Enterprise 11.4.1

В этих версиях дыра в безопасности уже закрыта. Об этом и о других багфиксах можно прочитать в документации к соответствующей версии. Читать полностью »

Обфускация данных для тестов производительности

2019-06-24 в 9:17, admin, рубрики: big data, c++, clickhouse, compression, data obfuscation, encryption, machine learning, open source, testing, Алгоритмы, базы данных, Блог компании Яндекс, машинное обучение

Пользователи ClickHouse знают, что его главное преимущество — высокая скорость обработки аналитических запросов. Но как мы можем выдвигать такие утверждения? Это должно подтверждаться тестами производительности, которым можно доверять. О них мы сегодня и поговорим.

Такие тесты мы начали проводить в 2013 году, задолго до того, как продукт стал доступным в опенсорсе. Как и сейчас, тогда нас больше всего интересовала скорость работы данных сервиса Яндекс.Метрика. Мы уже хранили данные в ClickHouse с января 2009 года. Часть данных записывалась в базу с 2012 года, а часть — была переконвертирована из OLAPServer и Metrage — структур данных, которые использовались в Яндекс.Метрике раньше. Поэтому для тестов мы взяли первое попавшееся подмножество из 1 миллиарда данных о просмотрах страниц. Запросов в Метрике ещё не было, и мы придумали запросы, больше всего интересные нам самим (всевозможные виды фильтрации, агрегации и сортировки).

ClickHouse тестировался в сравнении с похожими системами, например, Vertica и MonetDB. Для честности тестирования его проводил сотрудник, который до этого не был разработчиком ClickHouse, а частные случаи в коде не оптимизировались до получения результатов. Похожим образом мы получили набор данных и для функциональных тестов.

После того, как ClickHouse вышел в опенсорс в 2016 году, к тестам стало больше вопросов.

Читать полностью »

Make Your Database Dream of Electric Sheep: Designing for Autonomous Operation

2019-06-18 в 13:17, admin, рубрики: autonomous system, machine learning, mysql, postgresql, Алгоритмы, Анализ и проектирование систем, базы данных, Блог компании Конференции Олега Бунина (Онтико), высокая производительность

Как вы думаете, кто лучше настроит PostgreSQL — DBA или ML алгоритм? И если второй, то пора ли нам задуматься, чем заняться, когда нас заменят машины. Или до этого не дойдет, и важные решения все-таки должен принимать человек. Наверное, уровень изоляции и требования к устойчивости транзакций должны оставаться в ведении администратора. Но индексы уже скоро можно будет доверить машине определять самостоятельно.

Make Your Database Dream of Electric Sheep: Designing for Autonomous Operation - 1

Энди Павло на HighLoad++ рассказал про СУБД будущего, которые можно «потрогать» уже сейчас. Если пропустили это выступление или предпочитаете получать информацию на русском языке — под катом перевод выступления.

Речь пойдет о проекте университета Карнеги-Меллона, посвященном созданию автономных СУБД. Под термином «автономный» подразумевается система, которая может автоматически развертывать, настраивать, конфигурировать себя без какого-либо вмешательства человека. Возможно, потребуется около десяти лет, чтобы разработать что-то подобное, но именно этим заняты Энди и его студенты. Конечно, для создания автономной СУБД необходимы алгоритмы машинного обучения, однако, в этой статье сосредоточимся только на инженерной стороне темы. Рассмотрим, как проектировать программное обеспечение, чтобы сделать его автономным.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «базы данных» - 20

Kafka на Kubernetes — это хорошо?

Как мы тестировали несколько баз данных временных рядов

DataGrip 2019.2: Управление соединениями, поиск по данным, фильтрация в навигации

Налоговая получит единую базу данных о населении РФ

WSJ: $5 млрд — размер штрафа для Facebook из-за Cambridge Analytica

По следам Highload++ Siberia 2019 — 8 задач по Oracle

Анализ производительности запросов в ClickHouse. Доклад Яндекса

Дайджест новостей из мира PostgreSQL. Выпуск №16

Главная новость июня

Релизы

Обфускация данных для тестов производительности

Make Your Database Dream of Electric Sheep: Designing for Autonomous Operation