Рубрика «cassandra» - 4

AWS объявила о новых инстансах. Теперь до 32 ядер, 244ГБ RAM, 8×800 ГБ SSD

2013-12-20 в 13:45, admin, рубрики: Amazon Web Services, AWS, cassandra, mongodb, nosql, высокая нагрузка, высокая производительность, метки: aws, cassandra, mongodb, nosql, высокая нагрузка, высокая производительность

Только что получил анонс, что на AWS стали доступны новое поколение Amazon EC2 High I/O инстансов. Данные типы инстансов базируются на новом поколении процессоров Intel Ivy Bridge. Каждый виртуальный CPU (vCPU) соответствует одному аппаратную потоку исполнения (hyperthread) процессора Intel Xeon E5-2670 v2 (Ivy Bridge).

Вот табличка:
Читать полностью »

Программа CassandraConf.ru

2013-12-03 в 12:01, admin, рубрики: cassandra, nosql, Администрирование баз данных, базы данных, Блог компании IT-People, конференция, метки: cassandra, nosql, базы данных, конференция, С++

Расписание и тезисы докладов готовы и доступны на сайте CassandraConf.ru. Итак, что нас ждет 9 декабря:

Читать полностью »

Моделирование данных в БД Cassandra 2.0 на CQL3

2013-11-24 в 5:36, admin, рубрики: big data, cassandra, CQL, CQL3, nosql, метки: cassandra, CQL, CQL3

Статья предназначена для людей пытающихся создать свою первую «таблицу» в БД Cassandra.

За посление несколько релизов Кассандры разработчики взяли правильный вектор направленный на простоту использования этой базы данных. Учитывая её достоинства, такие как скорость работы и отказоустойчиваость, её было сложно как администрировать, так и писать под неё. Сейчас же количество танцев с бубном, которые надо провести прежде чем запустить и начать разрабатывать, свели к минимуму — несколько комманд в bash или один .msi в Windows.
Более того, сильно облегчил жизнь разработчикам недавно обновлённый CQL (язык запросов), вытеснив бинарный и довольно сложный язык Thrift.
Лично я столкнулся с проблемой наличия отсуствия русскоязычных руководств по Кассандре. Самую, на мой взгляд, сложную тему мне бы хотелось поднять в этой статье. Как же дизайнить базу данных то?

Статья НЕ предназначена для людей, которые впервые видят слово Cassandra.
Статья НЕ служит как рекламный материал той или иной технологии.
Статья НЕ стремится доказать что-либо кому-либо.
Если скорость записи/чтения не так важна, и если «100% uptime» не сильно нужен, и если у вас всего лишь несколько миллионов записей, то, вероятно, эта статья, да и вся Cassandra в целом, — не то, что вам нужно.

Ликбез

Cassandra (далее C*) — распределённая NoSQL БД, поэтому все решения «почему так, а не вот так» всегда принимаются с оглядкой на кластеризацию.
CQL — это SQL-подобный язык. Аббревиатура от Cassandra Query Language.
Node (нода) — инстанс C*, или java процесс в терминах операционных систем. На одной машине можно запустить несколько нод, например.
Основная единица хранения — строка. Строка целиком хранится на нодах, т.е. нет ситуаций когда полстроки — на одной ноде, полстроки — на другой. Строка может динамически раширяться до 2 миллиардов колонок. Это важно.
cqlsh — коммандная строка для CQL. Все примеры ниже выполняются именно в ней. Является частью дистрибутива C*.

Основное правило моделирования данных в C*

Кассандра создавалась как распределённая БД с упором на максимальную скорость записи и чтения. Моделировать «таблицы» нужно в зависимости от SELECT запросов вашего приложения.
В SQL мы привыкли накидать таблиц, связей между ними, и потом уже SELECT ... JOIN ... чего хотим и как хотим. Именно JOIN-ы основная проблема с произвоидтельностью в RDBMS. Их нет в CQL.

Первый пример.

У нас есть сотрудники какой-то компании. Создадим таблицу (которые на самом деле называются Column Family, но для простоты перехода с SQL на CQL используют слово table) на CQL и заполним данными:

CREATE TABLE employees (
    name text,
    age int,
    role text,
    PRIMARY KEY (name)
);
INSERT INTO employees (name, age, role) VALUES ('john', 37, 'dev');
INSERT INTO employees (name, age, role) VALUES ('eric', 38, 'ceo');

Таблицы в C* обязаны иметь PRIMARY KEY. Он используется для поиска ноды, в которой хранится искомая строка.

Прочитаем данные:

SELECT * FROM employees;

Эта картинка — руками разукрашенный вывод cqlsh.
Моделирование данных в БД Cassandra 2.0 на CQL3

Выглядит как обычная таблица из реляционной БД. C* создаст две строки.
Моделирование данных в БД Cassandra 2.0 на CQL3
Внимание! Это две внутренние структуры строк, а не таблицы. Если чуть слукавить, то можно сказать, что каждая строка — это как маленькая таблица. Далее понятней.
Читать полностью »

CASSANDRA CONF 2013. Екатеринбург, 9 декабря

2013-11-19 в 9:15, admin, рубрики: big data, cassandra, nosql, Блог компании IT-People, конференция, метки: cassandra, nosql, конференция

9 декабря в Екатеринбурге пройдет первая в России конференция, посвященная NoSQL-хранилищу Cassandra. Мы уже сформировали программу CassandraConf.ru и приглашаем присоединиться как опытных разработчиков, так и тех, кто хочет познакомиться с Cassandra впервые!

Участие в конференции бесплатное — приезжайте!

Под катом — программа мероприятия и подробности

Читать полностью »

Стартует митап-группа «Moscow Cassandra Users»

2013-04-16 в 12:26, admin, рубрики: big data, cassandra, nosql, встречи, высокая производительность, события, метки: cassandra, встречи, события

Друзья,

рад сообщить, что в Москве при поддержке компании DataStax стартует группа, посвященная NoSQL-хранилищу Apache Cassandra.

Всего в рамках группы планируется проводить 6 встреч в году. Некоторые из них будут проходить с участием разработчиков и архитекторов DataStax, т.е. будет возможность задать свои вопросы и высказать наболевшее лично людям, которые активно развивают продукт.Читать полностью »

NoSQL и Big Data – обман трудящихся?

2013-02-19 в 10:50, admin, рубрики: big data, cassandra, cloud, cloud computing, cloud hosting, leveldb, mariadb, mysql, nosql, paas, platform as a service, sql, twitter, Блог компании Jelastic, метки: big data, cassandra, cloud, cloud computing, cloud hosting, leveldb, mariadb, mysql, nosql, paas, platform as a service, sql, twitter

Недавно нам удалось пообщаться с великим Монти — Майклом Видениусом, автором оригинальной версии открытой СУБД MySQL, который в настоящее время работает над ее ответвлением, MariaDB. (Кстати, обе эти базы поддерживаются в Jelastic.)

Как известно, мир производит и обрабатывает все больше данных (так называемый феномен «Big Data»). Общепринято мнение, что данных теперь так много, что обрабатывать их с помощью традиционных баз данных и программных методов трудно или невозможно. Это вызвало волну нереляционных баз данных (NoSQL), в которых упор делается на высокую масштабируемость. Эксперт в области баз данных, Монти, поделился с нами своими мыслями о текущем и будущем состоянии SQL, NoSQL и Big Data. Некоторые его ответы были несколько неожиданными, так что мы с радостью приводим здесь русский перевод расшифровки нашей беседы:Читать полностью »

Как устроена cassandra

2012-10-17 в 13:15, admin, рубрики: cassandra, nosql, метки: cassandra, nosql

В этом топике я хотел бы рассказать о том, как устроена кассандра (cassandra) — децентрализованная, отказоустойчивая и надёжная база данных “ключ-значение”. Хранилище само позаботится о проблемах наличия единой точки отказа (single point of failure), отказа серверов и о распределении данных между узлами кластера (cluster node). При чем, как в случае размещения серверов в одном центре обработки данных (data center), так и в конфигурации со многими центрами обработки данных, разделенных расстояниями и, соответственно, сетевыми задержками. Под надёжностью понимается итоговая согласованность (eventual consistency) данных с возможностью установки уровня согласования данных (tune consistency) каждого запроса.

NoSQL базы данных требуют в целом большего понимания их внутреннего устройства чем SQL. Эта статья будет описывать базовое строение, а в следующих статьях можно будет рассмотреть: CQL и интерфейс программирования; техники проектирования и оптимизации; особенности кластеров размещённых в многих центрах обработки данных.
Читать полностью »

Почему нужно 1000 раз подумать, прежде чем использовать nosql

2012-10-06 в 18:29, admin, рубрики: alfresco, cassandra, mongodb, mysql, nosql, nosql vs sql, riak, высокая производительность, жизнь без сложностей - это скучно, метки: alfresco, cassandra, mongodb, mysql, nosql, nosql vs sql, riak, жизнь без сложностей - это скучно

Зачем я пишу эту статью? Во-первых я хотел бы внести свой вклад в понимание людьми сути nosql и того, почему выбирать эту технологию нужно осознанно. Во-вторых, я буду рад встретить единомышленников, противников и, возможно, подискутировать. А если Вам понравилась эта статья, то буду рад услышать вопросы, которые можно раскрыть более подробно в новых статьях:)

Несмотря на то, что nosql решений сейчас тьма, люди неохотно переходят на новые типы хранилищ. Правильно ли это? На мой взгляд – да. И я постараюсь сказать почему, на примере разных nosql хранилищ, которые встретились на моём профессиональном пути.
Читать полностью »

Big Systems / Big Data в Москве

2012-07-13 в 11:37, admin, рубрики: cassandra, nosql, Vertica, Блог компании «LifeStreet Media», метки: cassandra, nosql, Vertica

В среду вечером мы провели мероприятие в формате meetup, посвященное большим системам и большим данным: habrahabr.ru/events/836/

Если среди читателей есть те, кто там был (а это 80-100 человек из примерно 150 зарегистрировавшихся), то огромное вам спасибо. И огромное спасибо всем, кто помогал в организации и проведении.

Я не знаю, как правильно перевести слово meetup на русский. Не митапом же называть. Это не еще одна конференция, это другое. На больших конференциях, типа HighLoad, РИТ и т.д., специалисты из крупных компаний рассказывают о задачах, проблемах и решениях, которые часто находятся за пределами горизонта возможностей компаний поменьше. Это бывает очень интересно и познавательно, но по большой части малополезно с практической точки зрения. Формат meetup — он совсем другой, и больше напоминает «круглый стол». Его цель — обменяться опытом с коллегами из других компанией, с клиентами и партнерами. Обменяться «шишками» и «граблями», чтобы учиться не только на своих, но и на чужих ошибках. В Силиконовой долине такие мероприятия обычно проходят либо в офисах компаний-организаторов, либо в каких-нибудь нейтральных кафе. В Москве мы попробовали собрать людей после работы в Digital October. И это вполне получилось.

Читать полностью »

Cassandra глазами Operations

2012-06-19 в 13:17, admin, рубрики: cassandra, nosql, Блог компании «LifeStreet Media», метки: cassandra

Основной проект компании, в которой я работаю, посвящен оптимизации показов рекламы в приложениях на фейсбуке и на мобильных устройствах. На сегодняшний день проект обслуживает до 400 миллионов уникальных посетителей в месяц, работает на тысяче с лишним виртуальных серверов. Количество серверов и обьемы данных, которые должны обрабатываться двадцать четыре часа в сутки, ставит перед разработчиками ряд интересных проблем, связанных с масштабируемостью и устойчивостью системы.

Оптимизация показов — большой процесс, одной из частей которого является сохранение и анализ цепочки событий, связанных с жизненным циклом баннера — показ, клик, конверсия, … всё это начинается с сохранения записей о событиях. Каждое из событий происходит на одном из множества серверов, причем, по понятной причине мы стараемся обслужить всю цепочку в одном месте — в этом случае не нужно заботиться о том как собрать в целое разбросанные части. Но в реальной жизни случается что угодно — сервера падают, сеть не работает, софт апгрейдится или перегружен — в общем, по многим причинам обслуживание последовательных событий иногда происходит на разных серверах и даже в разных датацентрах и к этому нужно быть готовым.

Задача которую нужно было решать — каким образом хранить, искать, модифицировать информацию о последовательности событий при следующих условиях:

события могут происходить на разных серверах и в разных датацентрах (восточный и западный берег США, Европа)
интервал между событиями — от долей секунды до нескольких дней
к моменту получения завершающего события (например конверсия) информация обо всей цепочке должна быть на руках
время жизни информации — примерно десять дней, после чего она должна быть удалена, желательно автоматически, через TTL
темп чтения/записи событий — сотни или тысячи в секунду
Время ответа: желательное — до 10мс, допустимое — в пределах 50мс, максимальное — до 100мс
информация должна быть доступна «всегда» — независимо от аварий железа, сети, апгрейдов
система должна легко масштабироваться: добавление новых серверов, датацентров должно происходить прозрачно для остальных сервисов (допустима деградация времени ответа в заданных пределах).

Последние два пункта очень важны для бизнеса и просто жизненно важны для опс инженеров если они хотят спокойно выполнять свои обязанности днём, и спокойно спать ночью.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «cassandra» - 4

AWS объявила о новых инстансах. Теперь до 32 ядер, 244ГБ RAM, 8×800 ГБ SSD

Программа CassandraConf.ru

Моделирование данных в БД Cassandra 2.0 на CQL3

Ликбез

Основное правило моделирования данных в C*

Первый пример.

CASSANDRA CONF 2013. Екатеринбург, 9 декабря

Стартует митап-группа «Moscow Cassandra Users»

Как устроена cassandra

Почему нужно 1000 раз подумать, прежде чем использовать nosql

Big Systems / Big Data в Москве

Cassandra глазами Operations

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «cassandra» - 4

Ликбез

Основное правило моделирования данных в C*

Первый пример.

Новости

Актуальные темы

Архив