При разработке или исследовании готовых алгоритмов часто требуется определить качество их работы. Использовать для этой цели данные из реальных источников не всегда возможно, так как их свойства зачастую неизвестны и потому нельзя спрогнозировать результат выполнения исследуемых алгоритмов. В таком случае применяется моделирование данных по одному из хорошо известных законов распределения. Применяя исследуемый алгоритм к модельным данным, можно заранее предположить, каким окажется результат его выполнения. Если он окажется удовлетворительным, можно попробовать применить его и к реальным данным. Естественно, что это относится только к непараметрическим алгоритмам, то есть не зависящим от закона распределения данных.
Чаще всего используется моделирование данных, распределённых по нормальному закону. К сожалению, MS Excel и распространённые статистические пакетаы (SPSS, Statistica) позволяют моделировать только одномерные статистические распределения. Конечно, можно составить многомерное распределение из нескольких одномерных, но только в том случае, если переменные независимы. Если же нужно исследовать данные с зависящими друг от друга переменными, придётся писать программу.
Обычно указывают, что многомерное нормальное распределение описывается вектором математических ожиданий и положительно определённой ковариационной матрицей :
, где ;
i=1,2,3,…m, j=1,2,3,…, m;
m – количество признаков многомерной нормальной выборки.
Однако вместо ковариационной матрицы удобнее использовать корреляционную матрицу и вектор дисперсий , поскольку коэффициент корреляции показывает степень связи между переменными, в отличие от коэффициента ковариации. Корреляционная матрица имеет вид:
Преобразование коэффициентов матрицы к коэффициентам матрицы происходит по формуле:
Для моделирования вектора можно использовать линейное преобразование вектора , компоненты которого есть нормально распределенные случайные величины с параметрами математического ожидания, равного нулю, и дисперсии, равной единице (т. е. ). Для моделирования одномерной нормальной случайной величины есть множество способов, например, преобразование Бокса-Мюллера: при помощи двух случайных чисел и , распределенных на интервале (0;1], при котором получаются одновременно два числа, распределенных по нормальному закону с параметрами :
Преобразование в производится по формуле:
В данном преобразовании есть нижняя треугольная матрица, получающая из матрицы разложением Холецкого :
Каждый элемент матрицы определяется с помощью рекуррентной процедуры:
, где индексы изменяются в диапазоне , а суммы с верхним нулевым приделом равны нулю (то есть, если , то , ).
Описанное преобразование можно реализовать в виде двух функций на C++: основной функции normal_model(), реализующей алгоритм и вспомогательной matrix_determinant(), возвращающей определитель матрицы.
Функция normal_model() определяет количество требуемых переменных и значений из размерности матрицы с результатом. В случае успеха возвращает true, в случае неудачи – false.
//Функция моделирования многомерных данных, распределённых по нормальному закону.
//double MatrixMath [mq] - вектор мат. ожидания
//double MatrixDisp [mq] - вектор диперсии
//vector<vector<double> > &correlation_matrix - корреляционная матрица
//vector<vector<double> > &MatrixRes - массив с результатом
bool normal_model (double MatrixMath[], double MatrixVar[], vector<vector<double> > &correlation_matrix, vector<vector<double> > &MatrixRes){
int mq =MatrixRes[0].size();//количество переменных
int count=MatrixRes.size();//количество значений
double MatrixA[mq][mq]; //треугольная матрица преобразований A
double MatrixN[count][mq]; //матрица случайных чисел, распределенных по нормальному закону с параметрами 0, 1
int i,j,k;
double suma, sumaa;
double alfa1, alfa2; //углы. Случайные числа, распределенные на интервале (0;1]
vector<vector<double> > MatrixK(mq); //Ковариационная матрица K
for (i=0;i<mq;i++){
MatrixK[i].resize(mq);
}
//Преобразование корреляционной матрицы в ковариационную
for (i=0; i<mq; i++){
for (j=0; j<mq; j++){
MatrixK[i][j]= correlation_matrix[i][j]* sqrt(MatrixVar[i]*MatrixVar[j]);
}
}
if (matrix_determinant(MatrixK)<=0) return false; // ошибка. Определитель ковариационной матрицы должен быть положительным;
//Заполнение матрицы A
for (i=0; i<mq; i++){
for (j=0; j<=i; j++){
sumA=0;
sumAA=0;
for (k=0; k<j; k++){
sumA+= MatrixA[i][k] * MatrixA[j][k];
sumAA+= MatrixA[j][k] * MatrixA[j][k];
}
MatrixA[i][j]=(MatrixK[i][j] - sumA)/ sqrt(MatrixK[j][j] - sumAA);
}
}
//моделирование случайных чисел, распределенных по нормальному закону с параметрами 0, 1
srand(time(NULL));
for (i=0; i<count; i+=2){
for (j=0; j<mq; j++){
alfa1 = (double)rand()/(RAND_MAX+1.0);
alfa2 = (double)rand()/(RAND_MAX+1.0);
if (!alfa1 || !alfa2){
j--;
}else{
MatrixN[i][j] = sqrt(-2*log(alfa1))*sin(2*M_PI*alfa2);
if (i+1<count) MatrixN[i+1][j] = sqrt(-2*log(alfa1))*cos(2*M_PI*alfa2);
}
}
}
//преобразование матрицы случайных чисел, распределенных по нормальному закону с параметрами 0, 1 к матрице с конечными параметрами
for (i=0; i<count; i++){
for (j=0; j<mq; j++){
MatrixRes[i][j]=MatrixMath[j];
for (k=0; k<mq; k++){
MatrixRes[i][j]+=MatrixA[j][k] * MatrixN[i][k];
}
}
}
return true;
}
//функция возвращает определитель матрицы m размерности N x N
double matrix_determinant (vector<vector<double> > & m){
double result=0;
if (m.size()==1){
return m[0][0];
}else if(m.size()==2){
return m[0][0] * m[1][1] - m[0][1] * m[1][0];
}else if(m.size()==3){
return m[0][0] * m[1][1] * m[2][2] + m[0][1] * m[1][2] * m[2][0] + m[0][2] * m[1][0] * m[2][1] - m[2][0] * m[1][1] * m[0][2] - m[1][0] * m[0][1] * m[2][2] - m[0][0] * m[2][1] * m[1][2];
}else{
vector<vector<double> > m1(m.size()-1);//массив N-1 x N-1, значения элементов матрицы порядка N-1
for (int i=0; i<m.size()-1; i++){
m1[i].resize(m.size()-1);
}
for (int i=0; i< m.size(); i++){
for (int j=1; j<m.size(); j++){
for (int k=0; k<m.size(); k++){
if (k<i){
m1[j-1][k] = m[j][k];
}else if(k>i){
m1[j-1][k-1] = m[j][k];
}
}
}
result+= pow(-1,i) *m[0][i] * matrix_determinant(m1);
}
}
return result;
}
Результат работы можно посмотреть тут. Обращение к функции происходит через механизм fastcgi.
Используемая литература:
- Мартышенко C.Н., Мартышенко Н.С., Кустов Д.А. Моделирование многомерных данных и компьютерный эксперимент. Техника и технология, 2007. – №2. С. 47–52.
- Ермаков С.М., Михайлов Г.А., Статистическое моделирование.М.: Наука, 1982.
- Феллер В., Введение в теорию вероятностей и ее приложения, пер. с англ., т. 1-2, М., 1964-67.
- Rencher, Alvin C. (2002), Methods of Multivariate Analysis, Second Edition, John Wiley & Sons.
Автор: egorov_ea