Рубрика «sql» - 66

Дополнительные техники физического моделирования в Teradata

2014-01-17 в 6:42, admin, рубрики: sql, teradata, Администрирование баз данных, Блог компании Teradata, СУБД, физическое моделирование, метки: teradata, СУБД, физическое моделирование

Продолжая публикацию материалов о техниках физического моделирования в СУБД Teradata мы, как и обещали в прошлой статье, хотим рассказать о дополнительных техниках, не относящихся напрямую к обычным индексам (хоть в этой статье мы и коснемся особых видов индексов, о которых следует знать).

Помимо обычных индексов в СУБД Teradata присутствует ряд специфичных и иногда тонких техник, которые могут применяться в физическом моделировании. Приведем описание большинства из техник, а если возникнут вопросы или желание узнать подробней, будем рады ответить в комментариях.
Читать полностью »

Распределение строк и доступ в СУБД Teradata (Primary Index)

2014-01-16 в 8:24, admin, рубрики: big data, sql, teradata, метки: teradata

Предыдущий пост: Что такое Teradata?

Как Teradata распределяет строки?

Teradata использует алгоритм хэширования для рандомного распределения строк таблицы между AMP-ами (преимущества: распределение одинаково, независимо от объема данных, и зависит от содержания строки, а не демографии данных)
Primary Index определяет, будут ли строки таблицы распределены равномерно или неравномерно между AMP-ами
Равномерное распределение строк таблицы ведет к равномерному распределению нагрузки
Каждый AMP отвечает только за свое подмножество строк каждой таблицы
Строки размещаются неупорядоченно (преимущества: не требуется поддержка сохранения порядка, порядок не зависит от любого представленного запроса)

Primary Key (PK) vs. Primary Index (PI)

Primary Key (первичный ключ) – это условность реляционной модели, которая однозначно определяет каждую строку.
Primary Index – это условность Teradata, которая определяет распределение строк и доступ.
Хорошо спроектированная база данных содержит таблицы, в которых PI такой же как и PK, а также таблицы, в которых PI определен в столбцах, отличных от PK, и может влиять на пути доступа.
Читать полностью »

Вычисление пересекающихся интервалов в линейных, и замкнутых системах счисления

2014-01-15 в 20:48, admin, рубрики: sql, метки: sql, новичкам

Здравствуйте! И сразу прошу прощение, за слишком мудрёное название, но оно наиболее полно отражает излагаемый ниже материал.

Я думаю многие из вас сталкивались с необходимостью вычисления пересекающихся интервалов. Но задача с которой я столкнулся на днях — оказалась не столь тривиальной. Но, обо всем по порядку.

Вычисление пересекающихся интервалов в линейной системе счисления

Если у вас уже есть представление о пересечении интервалов, то пройдите сразу сюда.

Вычисление пересечений временных интервалов (отрезков времени) на прямой линии времени не составляет особого труда. Мы можем условно иметь пять видов временных пересечений.
Обозначим один отрезок времени как " ", а другой "/ /"

Смещение вперед по оси времени "/ / "
Смещение назад по оси времени " / /"
Вхождение " / / "
Поглощение " / / "
Совпадение «X X»

Читать полностью »

10 потенциальных SQL ошибок, которые делают программисты

2014-01-08 в 10:34, admin, рубрики: java, jdbc, jooq, sql, ошибки, Программирование

Оригинал статьи носит название «10 SQL ошибок, которые делают Java разработчики», но, по большому счёту, приведённые в ней принципы можно отнести к любому языку.

10 потенциальных SQL ошибок, которые делают программисты

Java программисты мешают объектно-ориентированное и императивное мышление в зависимости от их уровня:
— мастерства (каждый может программировать императивно)
— догмы (шаблон для применения шаблонов где-либо и их именование)
— настроения (применять истинный объектный подход немного сложнее чем императивный)

Но всё меняется, когда Java разработчики пишут SQL код.
Читать полностью »

Быстрый выбор случайных значений из больших таблиц MySQL по условию

2013-12-23 в 17:23, admin, рубрики: big data, mysql performance, sql, метки: mysql performance, sql, рандом

Задача выбора случайных строчек из таблицы довольно часто возникает перед разработчиками.
В случае, если используется СУБД MySQL, обычно она решается примерно следующим способом:

SELECT * FROM users WHERE role_id=5 ORDER BY rand() LIMIT 10

Такой код работает крайне медленно для больших таблиц и когда задается условие WHERE, без WHERE или таблица небольшая, есть эффективные решения, например habrahabr.ru/post/54176/ или habrahabr.ru/post/55864/.
Но решений для случая большой таблицы и необходимости фильтровать по условию, получая при каждом запросе новые значения в сети я не нашел, поэтому описание моего способа под катом.
Читать полностью »

Performance issues with PIVOT

2013-12-19 в 10:55, admin, рубрики: performance tests, sql, метки: performance tests, пивот

В современных информационных системах, процесс принятие решения, зачастую, строится на основании консолидированной информации. На практике же, при разработке бизнес-логики, оперирующей подобной информацией, очень часто приходится преобразовать строки в столбцы.

В синтаксисе T-SQL для выполнения подобного преобразования предусмотрена отдельная конструкция PIVOT. Стоит заметить, что в SQL Server 2000 поддержки конструкции PIVOT еще не было, поэтому аналогичные задачи решались через множественные CASE WHEN.

Собственно, почему я упомянул о CASE WHEN, если есть PIVOT? Ведь, по определению, PIVOT более элегантная конструкция и, соответственно, должна быть более эффективной.

Проверим это на практике…
Читать полностью »

Как передать зашифрованные параметры в DataStage

2013-12-18 в 16:10, admin, рубрики: big data, datastage, etl, sql, Софт, метки: datastage, etl

Не секрет, что зашифрованные параметры (т.е. имеющие тип Encrypted), используемые в IBM DataStage в версиях до 8.7 очень легко расшифровать. Эти зашифрованные параметры часто используются для передачи паролей, необходимых для соединения с базами данных.
При постороении корпоративных ODS (а в некоторых случаях даже и в случае хранилищ данных) имеет смысл создавать универсальные джобы — так называемые генерики, которые полностью конфигурируются извне и не содержат специфичной для каждой таблицы информации, а поэтому их можно использовать для многих ETL процессов. Особенно это необходимо при извлечении данных из баз данных источников (Extraction). В таком случае необходимо хранить в файлах конфигураии пароли для каждого источника данных. И вам приходится, прогибаясь под политики безопасности различных предприятий, делать вид, что это надежный алгоритм шифрования и хранить пароли к корпоративным данным в зашифрованном DataStage виде.
Но проблемы возникают, если вы захотите передать такие параметры в джоб. Какие проблемы и как их решать я и напишу в этой статье.
Читать полностью »

Трудности округления в MS SQL Server

2013-12-13 в 12:54, admin, рубрики: sql, метки: sql

Доброго дня! Пришлось мне в проекте столкнуться с точностью вычислений в MS SQL Server и я обнаружил не совсем интуитивное поведение при выполнении казалось бы интуитивных операций.

Для затравки вопрос (попробуйте ответить на него, не выполняя):
Каков будет результат операции?

declare @var1 decimal(38,10) = 0.0000007,
        @var2 decimal(38,10) = 1;
select @var1 * @var2;

Ответ и объяснение под катом
Читать полностью »

Валидация Sql кода с помошью .net и git-hook

2013-12-13 в 8:25, admin, рубрики: .net, Git, sql, валидация, метки: .net, Git, sql, валидация

Здравствуй Хабр!

Совсем недавно в нашей компании проходил очередной Хакатон. И в его рамках мне захотелось ~~убить время поинтересней~~ сделать полезную вещь, как для себя так и для других разработчиков. Выбор пал на этакий валидатор sql кода, который бы проверял его на разные правила что не под силу компилятору и те что могут пропустить ребята которые делают Code Review. Таких правил можно придумать массу, начиная от простого “Добавлять GO в конце запроса” и заканчивая более сложными “Использовать View вместо Table”. И самое главное, этот валидатор никоим образом не должен добавлять время разработчику на его использование, т.е. попросту говоря, он должен валидировать себе где-то автоматически, вне зависимости от действий разработчика.

Так уж исторически сложилось, что весь sql-код перед тем как выйти в продакшн (т.е. исполнится на основной БД) сохраняется у нас в GIT репозитории, куда попадает напрямую от разработчиков (естественно после Code Review). Так вот, возникла идея добавить git-hook в этом репозитории который бы валидировал sql-код и если он не валидный то коммит бы возвращался разработчику на доработку. Немного тяжело представить, легче нарисовать:

Валидация Sql кода с помошью .net и git hook
Читать полностью »

Вы встречались с анализом леса популяции запросов SQL промышленного приложения (например, для оптимизации)?

2013-12-11 в 12:55, admin, рубрики: ERP-системы, sql, Анализ и проектирование систем, оптимизация запросов, метки: sql, оптимизация запросов

Хочу задать этот вопрос Хабровчанам.

Современные информационные системы строятся на различных видах СУБД и все же реляционные СУБД остаются самыми распространенными и используемыми. Интересная статистика на эту тему ТУТ и ТУТ.

При разработке и модификации систем уровень формализации знаний аналитиков и разработчиков остается небольшим (автоматизации создания умных запросов или с учетом ряда четких правил) и чаще всего результирующие SQL запросы написаны «нормально», «как привык», «так пишут у нас на фирме», а вопросы оптимизации остаются на этап выполнения запросов в СУБД и последующие этапы оптимизации (в худшем случае ждут, когда все начинает тормозить).

Объем ручного кода остается большим даже несмотря на Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «sql» - 66

Дополнительные техники физического моделирования в Teradata

Распределение строк и доступ в СУБД Teradata (Primary Index)

Primary Key (PK) vs. Primary Index (PI)

Вычисление пересекающихся интервалов в линейных, и замкнутых системах счисления

Вычисление пересекающихся интервалов в линейной системе счисления

10 потенциальных SQL ошибок, которые делают программисты

Быстрый выбор случайных значений из больших таблиц MySQL по условию

Performance issues with PIVOT

Как передать зашифрованные параметры в DataStage

Трудности округления в MS SQL Server

Валидация Sql кода с помошью .net и git-hook

Вы встречались с анализом леса популяции запросов SQL промышленного приложения (например, для оптимизации)?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «sql» - 66

Primary Key (PK) vs. Primary Index (PI)

Вычисление пересекающихся интервалов в линейной системе счисления

Новости

Актуальные темы

Архив