Рубрика «базы данных» - 37

На Хабре не утихают споры о том, какие базы данных лучше и круче, дискуссии о перспективах SQL и NoSQL. Я не удержался и решил порассуждать о том, где могут быть полезны именно графовые БД.

Графовые базы данных: святой Грааль для разработчиков? - 1


Прежде чем начать, давайте задумаемся, какая информация имеется у нас сегодня на повестке дня? Это уже не просто данные – это весьма непредсказуемая структура, которая со временем может превратиться либо в BigData, либо в сложную семантическую сеть, и часто разработчик не может заранее сказать, какой она будет. Так как же выбрать базу данных – или хотя бы ее архитектуру, чтобы создать действительно быстрое и эффективно работающее приложение?
Читать полностью »

Привет всем!

Сегодня я рада анонсировать курс “Hacking PostgreSQL” из 16 занятий, на которых мы вместе будем исследовать особенности архитектуры открытой СУБД и вносить изменения на уровне исходного кода. Курс будет проходить в Москве, на площадке компании Postgres Professional. Начало курса запланировано на февраль 2016 года. Лекции начнутся сразу после февральской конференции pgconf.ru и будут проходить один раз в неделю вечером. Видеозаписи и материалы лекций мы будем выкладывать по мере обработки.

Курс собран из личного опыта разработчиков нашей компании, материалов с конференций, статей и вдумчивого чтения документации и исходников. В первую очередь он адресован начинающим разработчикам ядра PostgreSQL. Но он будет интересен и DBA, которым иногда приходится влезать в код, и просто всем неравнодушным к архитектуре большой системы, желающим узнать “А как это работает на самом деле?”

Курс «Hacking PostgreSQL» — уже скоро - 1
Читать полностью »

Примечание переводчика: На Хабре и в нашем блоге о корпоративном IaaS мы много пишем об облачных технологиях, и рассматриваем интересные инфраструктурные проекты различных компаний. Ранее мы рассказывали о масштабировании Apache Storm в Spotify, создании 20- и 30-гигабитных соединений в сетях Ethernet командой проекта 45 Drives, а сегодня речь пойдет о том, как инженеры Aribnb занимались разбиением основной базы данных проекта.

Как команда инженеров Airbnb «разбила» основную БД проекта за пару недель - 1

Каждый год трафик Airbnb растет в 3,5 раза быстрее, а его пик приходится на летний период

В этом году в преддверии летнего сезона путешествий команда по обслуживанию инфраструктуры Airbnb усердно работала над масштабированием наших баз данных. Компании необходимо было подготовитсья к летним пикам нагрузки.

Целью одного особенно важного проекта было разбиение определенных таблиц на секции (партиции) в соответствии с выполняемыми ими функциями и помещение их в отдельные базы данных. Этот проект, наверняка, потребовал бы крупных технических вложений, включая внесение изменений на уровне приложений, перенос данных и полноценное тестирование, которое бы гарантировало целостность данных и минимальное время простоя.Читать полностью »

Яндекс.Метрика сегодня это не только система веб-аналитики, но и AppMetrica — система аналитики для приложений. На входе в Метрику мы имеем поток данных — событий, происходящих на сайтах или в приложениях. Наша задача — обработать эти данные и представить их в подходящем для анализа виде.

Эволюция структур данных в Яндекс.Метрике - 1

Но обработка данных — это не проблема. Проблема в том, как и в каком виде сохранять результаты обработки, чтобы с ними можно было удобно работать. В процессе разработки нам приходилось несколько раз полностью менять подход к организации хранения данных. Мы начинали с таблиц MyISAM, использовали LSM-деревья и в конце концов пришли к column-oriented базе данных. В этой статье я хочу рассказать, что нас вынуждало это делать.

Яндекс.Метрика работает с 2008 года — более семи лет. Каждый раз изменение подхода к хранению данных было обусловлено тем, что то или иное решение работало слишком плохо — с недостаточным запасом по производительности, недостаточно надёжно и с большим количеством проблем при эксплуатации, использовало слишком много вычислительных ресурсов, или же просто не позволяло нам реализовать то, что мы хотим.
Читать полностью »

Релиз mongodb 3.2 немного подробностей - 1
На днях вышел новый стабильный релиз mongodb. В этой версии был добавлен ряд нововведений таких как новый GUI для визуальной работы с mongodb, LEFT JOIN, валидация документа и т.д. некоторые из этих свойств мы и рассмотрим на небольших примерах ниже.

Читать полностью »

Тестируем PostgreSQL на SSD RAID-0 массиве с таблицей в 10 миллиардов записей. (Часть 3, заключительная) - 1

Пора провести финальные тесты и подвести итоги цикла статей. Сегодня мы рассмотрим влияние размера shared_buffers на производительность БД. Первые части можно почитать здесь и здесь.

В ходе развития сервиса оптимизации затрат на сотовую связь Dr. Tariff (iOS, Android) для совместного пилота с одним из партнеров нам потребовалась большая и производительная реляционная база данных.

Читать полностью »

Тестируем PostgreSQL на SSD RAID-0 массиве с таблицей в 10 миллиардов записей. (Часть 2) - 1

Итак, продолжим исследовать характеристики работы PostgreSQL на SSD и HDD дисках с целью повышения производительности системы. Первую часть можно почитать здесь.

В ходе развития сервиса оптимизации затрат на сотовую связь Dr. Tariff (iOS, Android) для совместного пилота с одним из партнеров нам потребовалась большая и производительная реляционная база данных.

В этот раз мы протестировали PostgreSQL на RAID-0 массиве из двух SSD дисков. RAID массив собирался с помощью mdadm. Размер страйпа (блока информации, который распределяется на все диски массива) – 512k.
Читать полностью »

Тестируем PostgreSQL на SSD RAID-0 массиве с таблицей в 10 миллиардов записей. (Часть 1) - 1

В ходе развития сервиса оптимизации затрат на сотовую связь Dr. Tariff (iOS, Android) для совместного пилота с одним из партнеров нам потребовалась большая и производительная реляционная база данных.

Производительности HDD диска было явно недостаточно. Размер базы должен был составить несколько сотен гигабайт, поэтому размещение ее в оперативной памяти было бы слишком дорого. SSD диск наилучшим образом подходит для этой задачи. Но одного SSD диска могло не хватить, поэтому было решено собрать RAID-0 массив из двух дисков. Пользуясь случаем мы решили провести тестирование производительности PostgreSQL на одном и двух SSD дисках.

Основные цели тестирования

1. Сравнить производительность PostgreSQL на SSD RAID-0 массиве с производительностью на одиночном SSD.
2. Изучить производительность базовых операций (SELECT и UPDATE) в зависимости от размера таблицы, количества подключений, настроек сервера и других параметров.

Тестирование проводилось в несколько итераций. По каждой части решено было написать подробную статью с отчетами:

  1. Тестирование одного SSD диска
  2. Тестирование RAID-0 массива из 2-х SSD дисков
  3. Влияние настроек сервера на производительность БД
  4. Сравнение SSD с HDD

Читать полностью »

image

Дождливым полднем 1968 года молодой австралийский выпускник Бойд Рэйворд зашёл в заброшенный офис в здании Парк Леопольд в Брюсселе. Внутри был «захламлённый, затхлый, весь в паутине офис, который заливало дождём». Кипы бумаг, книг и рукописей высились до потолка – интеллектуальные «остатки кораблекрушения» от, на первый взгляд неорганизованного, учёного.

Предыдущий хозяин офиса, Поль Отле, был к тому времени мёртв уже 25 лет. Библиограф, пацифист и предприниматель, в своё время он был признанным гением, наслаждался компанией нобелевских лауреатов и принимал участие в создании Лиги Наций. Ко времени смерти в 1944 году он увидел, как закатилась его репутация, как разрушились его планы и как нацисты растащили и уничтожили крупную часть его работы. Когда он умер, незадолго до конца войны, вряд ли кто-нибудь это заметил.

Кто же такой был Поль Отле? Встречайте забытого отца информационной архитектуры.

Веб, которого не было

imageВ 1934 году, годами ранее изобретения Вэниваром Бушем концепции «мемекса» (прообраза гипертекстового устройства), десятилетиями до изобретения Тэдом Нельсоном термина «гипертекст», Поль Отле придумал новый вид рабочей станции учёного – движущийся стол в форме колеса, работающий с набором спиц на шарнирах, расположенных под несколькими движущимися поверхностями. Машина позволяла бы пользователю искать, читать и вносить новые записи в огромную механическую базу данных, хранящую сведения на индексных карточках размера 3х5.

Система позволяла бы не только получать документы – можно было бы также обозначать связи между ними, «связи, который каждый документ имеет со всеми другими, и который бы создавали нечто, что можно было бы назвать Универсальной Книгой».

Отле представлял себе, как пользователи когда-нибудь получат доступ к базе данных с любого расстояния посредством «электрического телескопа», соединяющегося с ней по телефонной линии и получающего факсимильное изображение, проецируемое на плоский экран.
Читать полностью »

Жизненный цикл документа в профессиональной справочной системе. Немного сказочный пост о том, как кипа бумаги превращается в систему. Часть 2 - 1
Добрый день, друзья!

В первой части нашей статьи мы начали рассказывать о том, как работает наш производственный департамент и как наши системы «Кодекс» и «Техэксперт» пополняются документами. Мы остановились на этапе набивки и сверки. В сегодняшнем посте закончим этапы корректорской проверки, обработаем тексты скриптами, пройдем юридическую проверку, снабдим нормативно-правовые и нормативно-технические документы интеллектуальными сервисами… одним словом, закончим наше путешествие с документом на его пути к пользователю.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js