Учебная работа. Курсовая работа: Исследование алгоритма SSA-метода при анализе временных последовательностей данных с шумом по известному

(5 оценок, среднее: 4,80 из 5)

Загрузка...

Учебная работа. Курсовая работа: Исследование алгоритма SSA-метода при анализе временных последовательностей данных с шумом по известному

Министерство образования Республики Беларусь

Министерство образования и науки Российской Федерации

Федеральное агентство по образованию

Государственное учреждение высшего профессионального образования

БЕЛОРУССКО–РОССИЙСКИЙ УНИВЕРСИТЕТ

Кафедра «Автоматизированные системы управления»

Курсовая работа на тему:

«Исследование алгоритма SSA-метода при анализе временных последовательностей данных с шумом по известному закону распределения»

по дисциплине

«Математическая логика и теория алгоритмов»

051.23 02 01.081446.23.81-01

2010

Задание на курсовую работу по дисциплине «Математическая логика и теория алгоритмов»

1 Тема работы
: Исследование алгоритма SSA-метода при анализе временных последовательностей данных с шумом по известному закону распределения.

2 Срок сдачи студентом законченной работы ‑ 25.05.2010 г.

3 Исходные данные для работы:
1) технология исследования SSA-метода с использованием пакетов MS Excel, Mathcad, Statistica. 2) Алгоритм генерации временной последовательности данных по заданному закону распределения:

Pearson Type V

Rayleigh

Постановка задачи.
Исследовать свойства SSA-метода при декомпозиции временной последовательности данных на трендовую, гармоническую и шумовую составляющие. Оценить погрешность SSA-метода при декомпозиции временной последовательности данных для разных значений тренда, гармоники и шума. Восстановление шумовой составляющей оценить по критериям хи-квадрат Пирсона, лямбда Колмогорова, омега-квадрат Мизеса.

4 Содержание расчётно-пояснительной записки.

Титульный лист.

Задание на курсовую работу. Аннотация.

Содержание. Перечень условных обозначений. Введение. 1 анализ и теоретическое исследование алгоритма. 2 Разработка технологии экспериментального исследования алгоритма. 3 Описание разработанного программного обеспечения. 4 Экспериментальное исследование алгоритма. Заключение. Список использованных источников. приложение.

5. Дата выдачи задания 22.02.2010 г.

6. Научный консультант: канд. техн. наук, доц. Альховик С. А.

7. Календарный график работы на весь период проектирования.

Оглавление

Введение

1. Распределение Pearson Type V

1.1 Формализованное описание закона Pearson Type V

1.2 Примеры использования закона распределения Pearson Type V

1.3 Числовые характеристики закона распределения Pearson Type V

1.4 Получение выборки с распределением Pearson Type V

1.5 Формулировка гипотезы о законе распределения Pearson Type V

1.6 Проверка гипотезы о законе распределения Pearson Type V

1.7 программа для проверки гипотезы о законе распределения

2. Распределение Rayleigh

2.1 Формализованное описание закона Rayleigh

2.2 Примеры использования закона распределения Rayleigh

2.3 Числовые характеристики закона распределения Rayleigh

2.4 Получение выборки с распределением Rayleigh

2.5 Формулировка гипотезы о законе распределения Rayleigh

2.6 Проверка гипотезы о законе распределения Rayleigh

2.7 программа для проверки гипотезы о законе распределения

3. SSA-метод

3.1 Определение собственных чисел матрицы

3.2 Содержательное описание SSA-метода

3.3 методика исследования SSA-метода на основе информационных технологий

4. исследование временных рядов с шумом заданным Pearson Type V

4.1 Постановка эксперимента

4.2 Экспериментальная часть (тренд)

4.3 Экспериментальная часть (гармонический ряд)

4.4 Экспериментальная часть (рандом)

4.5 Результаты и их обсуждение

5. Исследование временных рядов с шумом заданным Rayleigh

5.1 Постановка эксперимента

5.2 Экспериментальная часть (тренд)

5.3 Экспериментальная часть (гармонический ряд)

5.4 Экспериментальная часть (рандом)

5.5 Результаты и их обсуждение

6. Экспериментальное исследование средней трудоемкости Pirson Type V

7. Экспериментальное исследование средней трудоемкости Rayleigh

Заключение

Список использованных источников

Введение

В процессе интеллектуального анализа данных (ИАД) центральное место занимает автоматическое порождение характеризующих анализируемые данные моделей, правил и/или функциональных зависимостей. В целом процесс извлечения знаний в ИАД условно делят на следующие этапы, которые в совокупности предложено использовать на этапе эксплуатации имитационной модели (ИМ) сложного объекта.

Шаг 1. Отбор данных: анализ задач пользователя, выбор целевого множества данных, определение переменных.

Шаг 2. Предобработка данных: устранение зашумленности, обработка пропущенных значений, итоговые показатели по группам данных.

Шаг 3. Редукция и системы, основанные на знаниях.

Для разработки технологии извлечения знаний из временных последовательностей данных исследован сингулярный спектральный метод (SSA-метод), включающий этапы вложения, сингулярного разложения, группировки, диагонального усреднения. Исследуем Pearson Type V и Rayleigh законы распределения.

1. Распределение Pearson Type V

1.1 Формализованное описание закона Pearson Type V распределения случайной величины

Плотность вероятности

если x>0;

в противном случае

Функция распределения

если x>0;

где функция распределения случайной величины с распределением gamma(,1/)

График функции плотностей распределения вероятностей PT5(α,1) представлен на рисунке 1.1.

Рисунок 1.1. Функции плотностей распределения вероятностей PT5(α,1)

1.2 Примеры использования закона распределения Pearson Type V

Варианты применения: время выполнения какой-либо задачи (График функции плотности принимает форму, подобную форме графика плотности логнормального распределения, но может иметь большой острый “выступ” ближе к х=0)

1.3 Числовые характеристики закона распределения Pearson Type V

Параметр формы α > 0, масштабный параметр β > 0

Область[0,∞)

Среднеедля α > 1

Дисперсиядля α > 2

Мода

Оценка максимального правдоподобия

При наличии данных Х
1, Х
2, …, Х
n
подборка распределения gamma(,) к 1/Х
1, 1/Х
2, …, 1/Х
n
,
в результате дает оценки по методу максимального правдоподобия и . Оценки максимального правдоподобия для PT5(α,β) составляют =
и =

Примечания1. Тогда и только тогда X~ PT5(α,β), когда Y=1/X~gamma(,1/). Поэтому распределение Пирсона типа V называют обращенным гамма — распределением.

2. Заметьте, среднее и дисперсия существуют только для определенных значений параметров формы.

1.4 Получение выборки с распределением Pearson Type V

текст программы на C++

//kursml.cpp : main project file.

#include «stdafx.h»

#include «Pearson5.h»

using namespace System;

using namespace Variates;

using namespace System::IO;

int main(array<System::String ^> ^args)

{

TextWriter ^tr = File::CreateText(L»numbers.txt»);

for(int i=0;i<100;i++)

{

tr->WriteLine((Pearson5::Sample(1,1).ToString());

}

tr->Close();

return 0;

}

Pearson5.h

#pragma once

#include «Rng.h»

#include «Gamma.h»

using namespace System;

namespace Variates

{

public ref class Pearson5 : public Rng

{

private:

double m_alpha;

double m_beta;

public:

Pearson5(double alpha, double beta) : m_alpha(alpha), m_beta(beta)

{}

virtual double Sample() override

{

return Sample(m_alpha, m_beta);

}

static double Sample(double alpha, double beta)

{

return 1 / Gamma::Sample(alpha, 1 / beta);

}

//FG(x) функция распределения случайной велечины с распределением GAMMA(gamma,1/beta)

virtual double DistributionFunction(double x) override

{return Pearson5::DistributionFunction(x, m_alpha, m_beta);}

//функция распределения F(x)

static double DistributionFunction(double x, double alpha, double beta)

{if (x > 0)

{return 1 — Gamma::DistributionFunction(1/x, alpha, 1/beta);//F(x)=1-FG(1/x)

}

else {return 0;}

}

virtual double DensityFunction(double x) override

{return Pearson5::DensityFunction(x, m_alpha, m_beta);}

//плотность f(x)

static double DensityFunction(double x, double alpha, double beta)

{if (x > 0)

{return Math::Pow(x, -(alpha + 1)) * Math::Exp(-beta / x) / Math::Pow(beta, -alpha) / Gamma::GammaFunction(alpha);}

else {return 0;}

}

};

}

Полученный по этой функции ряд представлен следующими значениями: (Объем выборки равен 43. Это ограничение обусловлено последующим использованием пакета Mathcad, в котором общее число элементов матрицы не должно превышать числа 600)

1,4898437906868

0,155118334154153

0,61232084606753

2,93030830346735

0,805146083946738

9,56457213164303

1,27783343504077

0,251137603293805

3,5276740403232

1,87120717537695

1,32530533009446

0,580380148657655

2,75653644757967

1,17443969975235

40,4251902165006

0,819370739897353

0,76435890601386

0,294787757136549

7,05592655012343

2,66917981096155

8,79281345418844

0,580093474185326

1,39633930229403

2,53700526140079

0,770494926092603

1,93265448451382

1,18590055703106

1,0792114387216

0,82818491346851

1,7150955462617

2,95934460597946

2,25523634892915

0,235192957404532

1,90816102397495

0,459223533552272

1,2301015212362

0,461599593338555

5,8725267553485

0,405012588940358

0,697295973424586

1,10547514222875

5,24774803293084

0,650277052201361

1.5 Формулировка гипотезы о законе распределения Pearson Type V

Пусть f0
(x) – известная плотность вероятности распределения Pearson Type V и fξ
(x) – плотность вероятности генеральной совокупности.

гипотеза вида

{H0
: fξ
(x) = f0
(x); H1
: fξ
(x) ≠ f0
(x);}

Является двухальтернативной непараметрической сложной гипотезой о законе распределения. здесь проверяется утверждение о том, что исследуемая выборка извлечена из распределения f0
(x)

Для проверки согласия полученных случайных величин теоретическому распределению используется λ-критерий Колмогорова–Смирнова. Критерий Колмогорова–Смирнова применяется с наибольшей эффективностью, когда есть основание предположить, что частоты каждого из порядковых значений будут располагаться не случайным образом, а в соответствии с некоторой предсказуемой схемой.

Процедура, связанная с вычислением тестовой статистики λ, требует накапливания частот по всем порядковым значениям. Затем сравниваются два распределения накопленных частот – теоретическое распределение, имеющее место при справедливой H0
, и наблюдаемое распределение. Таким образом, проверяется гипотеза

H0
: Fξ
(x) = F0
(x),

против альтернативы

H1
: Fξ
(x) ≠ F0
(x),

где Fξ
(x) – функция распределения генеральной совокупности, F0
(x) – непрерывная гипотетическая функция распределения.

Для проверки гипотезы используется статистика

где Δ – максимальный модуль отклонения гипотетической функции распределения от эмпирической функции распределения

Если гипотеза H0
верна, то статистика λ имеет распределение, приближающееся при к распределению Колмогорова–Смирнова. Критерий для проверки гипотезы имеет следующий вид:

P(λ > λα
) = α,

где α – 100α-процентное отклонение распределения Колмогорова–Смирнова. например, для α = 0,01 критическое значение статистики λα
= 1,627.

Для последовательности (выборки) данные сгруппированы для проведения расчетов по критерию согласия Колмогорова–Смирнова.

Г. Стерджес (Herbert Sturges, 1926) предложил правило для определения числа интервалов k при построении гистограммы распределения случайной величины. При этом i-й интервал является биномиальным коэффициентом . Общий объем выборки

отсюда число интервалов для построения гистограммы с нормальными данными

где n – количество значений случайной величины в исследуемой выборке. Полученное закону. В общем случае оно может быть использовано без корректировки для n < 200 [6]. При использовании десятичного логарифма, соответственно, используется формула

Для построения гистограммы и проверки гипотезы о законе распределения Pearson Type V построена таблица 1.

Таблица 1 – Исходные данные для построения гистограммы и проверки гипотезы о законе распределения Pearson Type V

№

ξi

0-5,857

5,857-11,714

11,714-17,571

17,571-23,428

23,428-29,285

29,285-35,142

35,142-41

Fξ

1.6 Проверка гипотезы о законе распределения Pearson Type V

Для проверки гипотезы о законе распределения выполняется следующая последовательность шагов.

Шаг 1. Находим ожидаемую частоту ni
0
путем вычисления в Mathcad интеграла функции плотности вероятности на каждом из интервалов. Результат представлен на рисунках 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8.

Рисунок 1.2. Ожидаемая вероятность на интервале 0 — 5,857

Рисунок 1.3. Ожидаемая вероятность на интервале 5,857-11,714

Рисунок 1.4. Ожидаемая вероятность на интервале 11,714-17,571

Рисунок 1.5. Ожидаемая вероятность на интервале 17,571-23,428

Рисунок 1.6. Ожидаемая вероятность на интервале 23,428-29,285

Рисунок 1.7. Ожидаемая вероятность на интервале 29,285-35,142

Рисунок 1.8. Ожидаемая вероятность на интервале 35,142 – 41

Шаг 2. Выражаем каждую наблюдаемую и каждую ожидаемую частоту в виде отношения:

частота клетки

Шаг 3. Вычисляем накопленные значения наблюдаемых и ожидаемых отношений путем их суммирования слева направо (суммирование справа налево также приводит к статистике λ).

Шаг 4. Находим абсолютные значения разности между накопленными наблюдаемыми отношениями и накопленными ожидаемыми отношениями.

Шаг 5. Находим наибольшее отношение и выражаем его в виде десятичной дроби. Полученное

Шаг 6. В таблице Е [4, с. 141] (критические значения Δα
в критерии Колмогорова–Смирнова для одной выборки) при объеме выборки свыше 35 предлагается определять критическое

Если наблюдаемое

1.7 программа для проверки гипотезы о законе распределения

Проверка гипотезы о законе распределения выполнена в электронной таблице MS Excel. Случайные величины эмпирического распределения расположены в ячейках B2:B44. Рабочее поле для выполнения расчетов расположено в ячейках E4:K11.