Рубрика «nosql» - 13

Эффективное хранение: как мы из 50 Пб сделали 32 Пб

2016-12-06 в 8:39, admin, рубрики: mail.ru, nosql, Анализ и проектирование систем, Блог компании Mail.Ru Group, высокая производительность, оптимизация, почта

Эффективное хранение: как мы из 50 Пб сделали 32 Пб - 1

Изменения курса рубля два года назад заставили нас задуматься о способах снижения стоимости железа для Почты Mail.Ru. Нам понадобилось уменьшить количество закупаемого железа и цену за хостинг. Чтобы найти, где сэкономить, давайте посмотрим, из чего состоит почта.

Эффективное хранение: как мы из 50 Пб сделали 32 Пб - 2

Индексы и тела писем составляют 15 % объёма, файлы — 85 %. Место для оптимизаций надо искать в файлах (аттачах в письмах). На тот момент у нас не была реализована дедупликация файлов; по нашим оценкам, она может дать экономию в 36 % всего объёма почты: многим пользователям приходят одинаковые письма (рассылки социальных сетей с картинками, магазинов с прайсами и т.д.). В этом посте я расскажу про реализацию такой системы, сделанной под руководством PSIAlt.
Читать полностью »

Класс удаленного прокси — это не (очень) больно

2016-11-14 в 13:24, admin, рубрики: big data, MapReduce, nosql, remote proxy, Блог компании InterSystems, метки: remote proxy

(Динамическая диспетчеризация спешит на помощь)

После нескольких статей про MapReduce нам показалось необходимым еще раз отойти в сторону и поговорить про инфраструктуру, которая поможет облегчить построение решения MapReduce. Мы, по-прежнему, говорим про InterSystems Caché, и, по-прежнему, пытаемся построить MapReduce систему на базе имеющихся в системе подручных материалов.

На определенном этапе написания системы, типа MapReduce, встает задача удобного вызова удаленных методов и процедур (например, посылка управляющих сообщений с контроллера на сторону управляемых узлов). В среде Caché есть несколько простых, но не очень удобных методов достичь этой цели, тогда как хочется бы получить именно удобный.

Читать полностью »

Как запустить ClickHouse своими силами и выиграть джекпот

2016-11-07 в 4:29, admin, рубрики: big data, clickhouse, columnar database, nosql, olap, php, sql, базы данных, Блог компании СМИ2, веб-аналитика, структуры данных

Мы решили описать простой и проверенный путь для тех, кто хочет внедрить аналитическую СУБД ClickHouse своими силами или просто испробовать ClickHouse на собственных данных. Именно этот путь прошли мы сами в новостном агрегаторе СМИ2 и добились впечатляющих результатов.

Clickhouse-client

В предисловии статьи — небольшой рассказ о наших попытках внедрить Druid и InfluxDB. Почему после успешного запуска ClickHouse мы смогли отказаться от использования InfiniDB и Cassandra.

Читать полностью »

Как подружить Bagri и MongoDB

2016-10-28 в 15:58, admin, рубрики: big data, java, mongodb, nosql, open source, базы данных

Примерно месяц назад, я рассказал Хабру о проекте Bagri: NoSQL базе данных с открытым кодом, построенной поверх распределенного кэша.

После достаточно неплохого отклика, решил написать статью о том как можно наращивать функционал Bagri путем написания расширений (extensions) используя встроенный API системы.

Читать полностью »

MapReduce из подручных материалов. Часть III – собираем все вместе

2016-10-17 в 10:37, admin, рубрики: big data, DIY, intersystems cache, MapReduce, mapreduce на коленке, nosql, sql, Блог компании InterSystems, здравый смысл

В первой (достаточно капитанской) части этой серии мы рассказали про базовые концепции MapReduce почему это плохо, почему это неизбежно, и как с этим жить в других средах разработки (если вы не про Си++ или Java). Во второй части мы-таки начали рассказывать про базовые классы реализации MapReduce на Caché ObjectScript, введя абстрактные интерфейсы и их первичные реализации.
Сегодня пришел наш день! – мы покажем первый пример собранный в парадигме MapReduce, да, он будет странный и не самый эффективный, и совсем не распределенный, но вполне MapReduce.
Читать полностью »

Над RethinkDB сгущаются тучи?

2016-10-10 в 3:03, admin, рубрики: Gotta Believe, nosql, rethinkdb, rip, sad, базы данных, нереляционные базы данных, Разработка веб-сайтов, метки: rethinkdb

Над RethinkDB сгущаются тучи? - 1

Подозреваю, что у нас мало кто использует продукты этой компании. Хотя, как минимум, их одноимённая СУБД стоит внимания. На хабре видел пару статей всего.

К сожалению, компания RethinkDB, развивающая одноимённую СУБД и web-платформу Horizon, объявила о закрытии. После 7 лет разработки из-за неспособности организовать устойчивый бизнес основатели были вынуждены свернуть свою деятельность. СУБД RethinkDB и платформа Horizon передаются в руки сообщества. Код RethinkDB распространяется под лицензией AGPLv3, а Horizon под лицензией MIT.
Читать полностью »

Как выбрать In-memory NoSQL базу данных с умом. Тестируем производительность

2016-10-07 в 15:26, admin, рубрики: nosql, tarantool, Анализ и проектирование систем, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, дмитрий калугин-балашов, метки: дмитрий калугин-балашов

Дмитрий Калугин-Балашов (Mail.RU)

Доклад у меня по базам данных In-Memory NoSQL. Кто знает, что такое In-Memory NoSQL база данных? Поднимите руки, пожалуйста… Как вам не стыдно? Зал по базам данных, и только половина знает, что это такое.

Если вы выбираете базу данных, ориентируясь на ее популярность, то так делать не надо. Как, вообще, выбираем базы данных?

Как выбрать In-memory NoSQL базу данных с умом. Тестируем производительность - 2
Читать полностью »

Встречайте Dictator! Маленький и добрый

2016-10-05 в 15:45, admin, рубрики: nosql, python, redis, Питон

Пролог

В своей работе у меня, время от времени, возникает желание изменить поведение того или иного инструмента: сделать работу с ним привычней, API прозрачней и т. п. Так случилось и когда мне в наследство достался проект, где в качестве хранилища использовался Redis. Несомненно, Python имеет достаточно библиотек для удобной работы с Redis, однако вспоминая, что это именно key-value хранилище, мне не могла не прийти в голову мысль о том, как было бы замечательно работать с ним как с обычным Python-словарём (dict).

Читать полностью »

MapReduce из подручных материалов. Часть II – базовые интерфейсы реализации

2016-10-04 в 10:24, admin, рубрики: big data, cache, DIY, mapreduce на коленке, nosql, Алгоритмы, Блог компании InterSystems, здравый смысл, Программирование, метки: mapreduce на коленке

В предыдущей части серии мы (в 100500й раз) попытались рассказать про основные приемы и стадии подхода Google MapReduce, должен признаться, что первая часть была намерено "капитанской", чтобы дать знать о MapReduce целевой аудитории последующих статей. Мы не успели показать ни строчки того, как всё это мы собираемся реализовывать в Caché ObjectScript. И про это наша рассказ сегодня (и в последующие дни).

Напомним первоначальный посыл нашего мини-проекта: вы всё еще планируем реализовать MapReduce алгоритм используя те подручные средства, что есть в Caché ObjectScript. При создании интерфейсов, мы попытаемся придерживаться того API, что мы описали в предыдущей статье про оригинальную реализацию Google MapReduce, любые девиации будут озвучены соответствующе.

Читать полностью »

Tarantool: как сэкономить миллион долларов на базе данных на высоконагруженном проекте

2016-09-22 в 10:54, admin, рубрики: highload, Lua, nosql, tarantool, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, денис аникин

Аникин Денис ( danikin, Mail.Ru)

Денис Аникин

Сегодня я расскажу, как сэкономить на базах данных огромные деньги, например, миллион долларов, как это сделали мы. Для начала вопрос: почему чаще используют именно базы данных, а не файлики?

Базы данных – это хранилище, более структурированное, чем файл, и обладающее рядом некоторых фич, которых у файла нет.

Tarantool: как сэкономить миллион долларов на базе данных на высоконагруженном проекте - 2

Там можно делать запросы, там есть транзакции, индексирование, таблицы, устойчивые, более-менее надежные хранилища. На самом деле, базы данных – это более удобно, чем файлы.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «nosql» - 13

Эффективное хранение: как мы из 50 Пб сделали 32 Пб

Класс удаленного прокси — это не (очень) больно

(Динамическая диспетчеризация спешит на помощь)

Как запустить ClickHouse своими силами и выиграть джекпот

Как подружить Bagri и MongoDB

MapReduce из подручных материалов. Часть III – собираем все вместе

Над RethinkDB сгущаются тучи?

Как выбрать In-memory NoSQL базу данных с умом. Тестируем производительность

Дмитрий Калугин-Балашов (Mail.RU)

Встречайте Dictator! Маленький и добрый

Пролог

MapReduce из подручных материалов. Часть II – базовые интерфейсы реализации

Tarantool: как сэкономить миллион долларов на базе данных на высоконагруженном проекте

Аникин Денис ( danikin, Mail.Ru)

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «nosql» - 13

(Динамическая диспетчеризация спешит на помощь)

Дмитрий Калугин-Балашов (Mail.RU)

Пролог

Аникин Денис ( danikin, Mail.Ru)

Новости

Актуальные темы

Архив