Рубрика «cassandra»

Как правильно выбрать базу данных для разработки: понимание моделей репликации

2025-03-29 в 11:15, admin, рубрики: cassandra, mongodb, nosql, postgresql, sql, web scalability, базы данных, нагрузка на сервер, разработка, сервисы

Введение

Читать полностью »

Практика создания кастомных сборок Spark Kubernetes Executor

2025-03-24 в 10:16, admin, рубрики: cassandra, docker, dockerfile, executor, kubernetes, pyspark, spark

Поделюсь с коллегами практикой создания Docker-сборок на базе Spark разных версий, которые могут запускаться как Spark Kubernetes Executors для параллельного выполнения Spark-задач в кластере.

В нашем конкретном случае сборки включают Pyspark и Cassandra Connector, однако вы можете использовать этот материал как набор практических примеров, чтобы сконструировать собственные Docker-сборки для Spark на другом стеке или с другими приложениями.

Читать полностью »

Почему СУБД такие медленные

2024-10-21 в 9:01, admin, рубрики: cassandra, CedarDB, DuckDB, dynamodb, imdb, LeanStore, mongodb, mysql, NVMe, OrioleDB, pcie, postgresql, PostgreSQL 17, redis, ruvds_статьи, SATA, spdk, sqlite, ssd, TPC-DS, TPC-H, UmbraDB, Valkey, резидентная БД, соединение хеш-таблиц, структуры данных

Недавно на Хабре публиковался перевод статьи «Просто выберите Postgres» (оригинал, англ. яз) с аргументами, что Postgres — оптимальная БД для десктопных и мобильных приложений. Аналогичное мнение высказывают в других популярных статьях вроде «До свидания MongoDB, здравствуй PostgreSQL». Главным недостатком SQLite называют то, что данные хранятся в одном файле, а MongoDB (а также DynamoDB и Cassandra) — низкую производительность:

«Всё это связано с тем, что подобные базы данных, по сути, представляют собой огромную распределённую хеш-таблицу. Единственные операции, работающие без необходимости сканирования всей базы данных — это поиск по секционному ключу и сканы, при которых используется ключ сортировки.

…Если паттерны доступа существенно изменятся, то может потребоваться полная повторная обработка всех данных».

Более производительные резидентные БД хранят данные в памяти (Redis, Valkey), но их использование ограничено объёмом ОЗУ.

После такого заявления интересно посмотреть на независимые тесты производительности разных СУБД.Читать полностью »

Просто выберите Postgres

2024-08-19 в 16:56, admin, рубрики: cassandra, dynamodb, elasticsearch, mongodb, mssql, nosq, sql, sqlite, Valkey

Отчасти это действенный совет, отчасти — вопрос к читателям.

Совет: при создании нового приложения, требующего постоянного хранения данных, как это и бывает в случае большинства веб-приложений, по умолчанию следует выбирать Postgres.

Почему не sqlite?

sqlite — достаточно неплохая база данных, но данные хранятся в одном файле.

Читать полностью »

Сборка мусора в неисправных JVM, проактивный подход

2022-11-18 в 14:00, admin, рубрики: cassandra, cloud, data, elasticsearch, java, jvm, netflix, node.js, oom, python, timeweb_статьи_перевод, Блог компании Timeweb Cloud, дамп, Компиляторы, логи, ОС, Программирование, файл, хранение данных

Команда Netflix Cloud Data Engineering работает с различными приложениями для JVM, включая такие популярные хранилища данных, как Cassandra и Elasticsearch. Хотя большинство наших кластеров стабильно работают, обходясь выделенной им памятью, иногда «запрос смерти» или ошибка в самом хранилище данных приводят к перерасходу памяти, что может спровоцировать лишние циклы сборки мусора или даже привести к исчерпанию памяти в JVM.
Читать полностью »

Как одной строкой сделать 24-ядерный сервер медленнее ноутбука

2022-02-01 в 10:39, admin, рубрики: cassandra, Rust, базы данных, бенчмаркинг, Блог компании М.Видео-Эльдорадо, Клиентская оптимизация, мвидео, оптимизация программ, Параллелизм, параллельные вычисления, Серверная оптимизация, Эльдорадо

Лучше учиться на чужих ошибках, поэтому мы в М.Видео-Эльдорадо стремимся изучать зарубежный опыт. Предлагаем и вам посмотреть перевод статьи Петра Колачковского, получившего черный пояс по прокачке производительности своего железа.Читать полностью »

Наш опыт миграции Cassandra между Kubernetes-кластерами без потери данных

2020-04-22 в 9:05, admin, рубрики: cassandra, devops, kubernetes, kubernetes operator, Администрирование баз данных, Блог компании Флант, системное администрирование

Наш опыт миграции Cassandra между Kubernetes-кластерами без потери данных - 1

Последние ~полгода для работы с Cassandra в Kubernetes мы использовали Rook operator. Однако, когда нам потребовалось выполнить весьма тривиальную, казалось бы, операцию: поменять параметры в конфиге Cassandra, — обнаружилось, что оператор не обеспечивает достаточной гибкости. Чтобы внести изменения, требовалось склонировать репозиторий, внести изменения в исходники и пересобрать оператор (конфиг встроен в сам оператор, поэтому ещё пригодится знание Go). Всё это занимает много времени.

Обзор существующих операторов мы уже делали, и на сей раз остановились на CassKop от Orange, который поддерживает нужные возможности, а в частности — кастомные конфиги и мониторинг из коробки.Читать полностью »

ClickHouse – визуально быстрый и наглядный анализ данных в Tabix. Игорь Стрыхарь

2020-03-06 в 7:26, admin, рубрики: apache zeppelin, big data, cassandra, clickhouse, clickhouse-grafana, DataGrip, devops, druid, infiniDB, redash.io, Superset Airbnb, Tabix, Администрирование баз данных, визуализация данных

Предлагаю ознакомиться с расшифровкой доклада 2017 года Игорь Стрыхарь «ClickHouse – визуально быстрый и наглядный анализ данных в Tabix».

Веб-интерфейс для ClickHouse в проекте Tabix.
Основные возможности:

Работает с ClickHouse напрямую из браузера, без необходимости установки дополнительного ПО;
Редактор запросов с подсветкой синтаксиса;
Автодополнение команд;
Инструменты графического анализа выполнения запросов;
Цветовые схемы на выбор.

Читать полностью »

Почему Discord переходит с Go на Rust

2020-02-05 в 15:58, admin, рубрики: cassandra, Discord, Go, Rust, асинхронный Rust, владение памятью, высокая производительность, дженерики, Проектирование и рефакторинг, Разработка веб-сайтов, система типов, управление памятью

Почему Discord переходит с Go на Rust - 1

Rust становится первоклассным языком в самых разных областях. Мы в Discord успешно используем его и на серверной, и на клиентской стороне. Например, на стороне клиента в конвейере кодирования видео для Go Live, а на стороне сервера для функций Elixir NIF (Native Implemented Functions).

Недавно мы резко улучшили производительность одной службы, переписав её с Go на Rust. В этой статье объясним, почему для нас имело смысл переписать службу, как мы это сделали и насколько повысилась производительность.
Читать полностью »

Cassandra. Как не умереть, если знаешь только Oracle

2020-02-04 в 9:07, admin, рубрики: cassandra, nosql, oracle, Администрирование баз данных, базы данных, Блог компании QIWI, денормализация, масштабирование, хранение данных

Привет.

Меня зовут Миша Бутримов, я хотел бы хотел немного рассказать про Cassandra. Мой рассказ будет полезен тем, кто никогда не сталкивался с NoSQL-базами, — у нее есть очень много особенностей реализации и подводных камней, про которые нужно знать. И если кроме Oracle или любой другой реляционной базы вы ничего не видели, эти вещи спасут вам жизнь.

Чем хороша Cassandra? Это NoSQL-база данных, cпроектированная без единой точки отказа, которая хорошо масштабируется. Если вам нужно добавить пару терабайт для какой-нибудь базы, вы просто добавляете ноды в кольцо. Расширить ее на еще один дата-центр? Добавляете ноды в кластер. Увеличить обрабатываемый RPS? Добавляете ноды в кластер. В обратную сторону тоже работает.

В чем еще она хороша? В том, чтобы обрабатывать много запросов. Но много — это сколько? 10, 20, 30, 40 тысяч запросов в секунду — это немного. 100 тысяч запросов в секунду на запись — тоже. Есть компании, которые говорили, что они держат 2 млн. запросов в секунду. Вот им, наверное, придется поверить.

И в принципе у Cassandra есть одно большое отличие от реляционных данных — она вообще на них не похожа. И об этом очень важно помнить.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «cassandra»

Как правильно выбрать базу данных для разработки: понимание моделей репликации

Введение

Практика создания кастомных сборок Spark Kubernetes Executor

Почему СУБД такие медленные

Просто выберите Postgres

Почему не sqlite?

Сборка мусора в неисправных JVM, проактивный подход

Как одной строкой сделать 24-ядерный сервер медленнее ноутбука

Наш опыт миграции Cassandra между Kubernetes-кластерами без потери данных

ClickHouse – визуально быстрый и наглядный анализ данных в Tabix. Игорь Стрыхарь

Почему Discord переходит с Go на Rust

Cassandra. Как не умереть, если знаешь только Oracle

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «cassandra»

Введение

Почему не sqlite?

Новости

Актуальные темы

Архив