Учебная работа. Курсовая работа: Исследование алгоритма SSA-метода при анализе временных последовательностей данных с шумом по известному
Министерство образования и науки Российской Федерации
Федеральное агентство по образованию
Государственное учреждение высшего профессионального образования
БЕЛОРУССКО–РОССИЙСКИЙ УНИВЕРСИТЕТ
Кафедра «Автоматизированные системы управления»
Курсовая работа на тему:
«Исследование алгоритма SSA-метода при анализе временных последовательностей данных с шумом по известному закону распределения»
по дисциплине
«Математическая логика и теория алгоритмов»
051.23 02 01.081446.23.81-01
2010
Задание на курсовую работу по дисциплине «Математическая логика и теория алгоритмов»
1 Тема работы
: Исследование алгоритма SSA-метода при анализе временных последовательностей данных с шумом по известному закону распределения.
2 Срок сдачи студентом законченной работы ‑ 25.05.2010 г.
3 Исходные данные для работы:
1) технология исследования SSA-метода с использованием пакетов MS Excel, Mathcad, Statistica. 2) Алгоритм генерации временной последовательности данных по заданному закону распределения:
Pearson Type V
Rayleigh
Постановка задачи.
Исследовать свойства SSA-метода при декомпозиции временной последовательности данных на трендовую, гармоническую и шумовую составляющие. Оценить погрешность SSA-метода при декомпозиции временной последовательности данных для разных значений тренда, гармоники и шума. Восстановление шумовой составляющей оценить по критериям хи-квадрат Пирсона, лямбда Колмогорова, омега-квадрат Мизеса.
4 Содержание расчётно-пояснительной записки.
Титульный лист.
Задание на курсовую работу. Аннотация.
Содержание. Перечень условных обозначений. Введение. 1 анализ и теоретическое исследование алгоритма. 2 Разработка технологии экспериментального исследования алгоритма. 3 Описание разработанного программного обеспечения. 4 Экспериментальное исследование алгоритма. Заключение. Список использованных источников. приложение.
5. Дата выдачи задания 22.02.2010 г.
6. Научный консультант: канд. техн. наук, доц. Альховик С. А.
7. Календарный график работы на весь период проектирования.
Оглавление
Введение
1. Распределение Pearson Type V
1.1 Формализованное описание закона Pearson Type V
1.2 Примеры использования закона распределения Pearson Type V
1.3 Числовые характеристики закона распределения Pearson Type V
1.4 Получение выборки с распределением Pearson Type V
1.5 Формулировка гипотезы о законе распределения Pearson Type V
1.6 Проверка гипотезы о законе распределения Pearson Type V
1.7 программа для проверки гипотезы о законе распределения
2. Распределение Rayleigh
2.1 Формализованное описание закона Rayleigh
2.2 Примеры использования закона распределения Rayleigh
2.3 Числовые характеристики закона распределения Rayleigh
2.4 Получение выборки с распределением Rayleigh
2.5 Формулировка гипотезы о законе распределения Rayleigh
2.6 Проверка гипотезы о законе распределения Rayleigh
2.7 программа для проверки гипотезы о законе распределения
3. SSA-метод
3.1 Определение собственных чисел матрицы
3.2 Содержательное описание SSA-метода
3.3 методика исследования SSA-метода на основе информационных технологий
4. исследование временных рядов с шумом заданным Pearson Type V
4.1 Постановка эксперимента
4.2 Экспериментальная часть (тренд)
4.3 Экспериментальная часть (гармонический ряд)
4.4 Экспериментальная часть (рандом)
4.5 Результаты и их обсуждение
5. Исследование временных рядов с шумом заданным Rayleigh
5.1 Постановка эксперимента
5.2 Экспериментальная часть (тренд)
5.3 Экспериментальная часть (гармонический ряд)
5.4 Экспериментальная часть (рандом)
5.5 Результаты и их обсуждение
6. Экспериментальное исследование средней трудоемкости Pirson Type V
7. Экспериментальное исследование средней трудоемкости Rayleigh
Заключение
Список использованных источников
Введение
В процессе интеллектуального анализа данных (ИАД) центральное место занимает автоматическое порождение характеризующих анализируемые данные моделей, правил и/или функциональных зависимостей. В целом процесс извлечения знаний в ИАД условно делят на следующие этапы, которые в совокупности предложено использовать на этапе эксплуатации имитационной модели (ИМ) сложного объекта.
Шаг 1. Отбор данных: анализ задач пользователя, выбор целевого множества данных, определение переменных.
Шаг 2. Предобработка данных: устранение зашумленности, обработка пропущенных значений, итоговые показатели по группам данных.
Шаг 3. Редукция и системы, основанные на знаниях.
Для разработки технологии извлечения знаний из временных последовательностей данных исследован сингулярный спектральный метод (SSA-метод), включающий этапы вложения, сингулярного разложения, группировки, диагонального усреднения. Исследуем Pearson Type V и Rayleigh законы распределения.
1. Распределение Pearson Type V
1.1 Формализованное описание закона Pearson Type V распределения случайной величины
Плотность вероятности
если x>0;
в противном случае
Функция распределения
если x>0;
где функция распределения случайной величины с распределением gamma(,1/)
График функции плотностей распределения вероятностей PT5(α,1) представлен на рисунке 1.1.
Рисунок 1.1. Функции плотностей распределения вероятностей PT5(α,1)
1.2 Примеры использования закона распределения Pearson Type V
Варианты применения: время выполнения какой-либо задачи (График функции плотности принимает форму, подобную форме графика плотности логнормального распределения, но может иметь большой острый “выступ” ближе к х=0)
1.3 Числовые характеристики закона распределения Pearson Type V
Параметр формы α > 0, масштабный параметр β > 0
Область[0,∞)
Среднеедля α > 1
Дисперсиядля α > 2
Мода
Оценка максимального правдоподобия
При наличии данных Х
1, Х
2, …, Х
n
подборка распределения gamma(,) к 1/Х
1, 1/Х
2, …, 1/Х
n
,
в результате дает оценки по методу максимального правдоподобия и . Оценки максимального правдоподобия для PT5(α,β) составляют =
и =
Примечания1. Тогда и только тогда X~ PT5(α,β), когда Y=1/X~gamma(,1/). Поэтому распределение Пирсона типа V называют обращенным гамма — распределением.
2. Заметьте, среднее и дисперсия существуют только для определенных значений параметров формы.
1.4 Получение выборки с распределением Pearson Type V
текст программы на C++
//kursml.cpp : main project file.
#include «stdafx.h»
#include «Pearson5.h»
using namespace System;
using namespace Variates;
using namespace System::IO;
int main(array<System::String ^> ^args)
{
TextWriter ^tr = File::CreateText(L»numbers.txt»);
for(int i=0;i<100;i++)
{
tr->WriteLine((Pearson5::Sample(1,1).ToString());
}
tr->Close();
return 0;
}
Pearson5.h
#pragma once
#include «Rng.h»
#include «Gamma.h»
using namespace System;
namespace Variates
{
public ref class Pearson5 : public Rng
{
private:
double m_alpha;
double m_beta;
public:
Pearson5(double alpha, double beta) : m_alpha(alpha), m_beta(beta)
{}
virtual double Sample() override
{
return Sample(m_alpha, m_beta);
}
static double Sample(double alpha, double beta)
{
return 1 / Gamma::Sample(alpha, 1 / beta);
}
//FG(x) функция распределения случайной велечины с распределением GAMMA(gamma,1/beta)
virtual double DistributionFunction(double x) override
{return Pearson5::DistributionFunction(x, m_alpha, m_beta);}
//функция распределения F(x)
static double DistributionFunction(double x, double alpha, double beta)
{if (x > 0)
{return 1 — Gamma::DistributionFunction(1/x, alpha, 1/beta);//F(x)=1-FG(1/x)
}
else {return 0;}
}
virtual double DensityFunction(double x) override
{return Pearson5::DensityFunction(x, m_alpha, m_beta);}
//плотность f(x)
static double DensityFunction(double x, double alpha, double beta)
{if (x > 0)
{return Math::Pow(x, -(alpha + 1)) * Math::Exp(-beta / x) / Math::Pow(beta, -alpha) / Gamma::GammaFunction(alpha);}
else {return 0;}
}
};
}
Полученный по этой функции ряд представлен следующими значениями: (Объем выборки равен 43. Это ограничение обусловлено последующим использованием пакета Mathcad, в котором общее число элементов матрицы не должно превышать числа 600)
1,4898437906868
0,155118334154153
0,61232084606753
2,93030830346735
0,805146083946738
9,56457213164303
1,27783343504077
0,251137603293805
3,5276740403232
1,87120717537695
1,32530533009446
0,580380148657655
2,75653644757967
1,17443969975235
40,4251902165006
0,819370739897353
0,76435890601386
0,294787757136549
7,05592655012343
2,66917981096155
8,79281345418844
0,580093474185326
1,39633930229403
2,53700526140079
0,770494926092603
1,93265448451382
1,18590055703106
1,0792114387216
0,82818491346851
1,7150955462617
2,95934460597946
2,25523634892915
0,235192957404532
1,90816102397495
0,459223533552272
1,2301015212362
0,461599593338555
5,8725267553485
0,405012588940358
0,697295973424586
1,10547514222875
5,24774803293084
0,650277052201361
1.5 Формулировка гипотезы о законе распределения Pearson Type V
Пусть f0
(x) – известная плотность вероятности распределения Pearson Type V и fξ
(x) – плотность вероятности генеральной совокупности.
гипотеза вида
{H0
: fξ
(x) = f0
(x); H1
: fξ
(x) ≠ f0
(x);}
Является двухальтернативной непараметрической сложной гипотезой о законе распределения. здесь проверяется утверждение о том, что исследуемая выборка извлечена из распределения f0
(x)
Для проверки согласия полученных случайных величин теоретическому распределению используется λ-критерий Колмогорова–Смирнова. Критерий Колмогорова–Смирнова применяется с наибольшей эффективностью, когда есть основание предположить, что частоты каждого из порядковых значений будут располагаться не случайным образом, а в соответствии с некоторой предсказуемой схемой.
Процедура, связанная с вычислением тестовой статистики λ, требует накапливания частот по всем порядковым значениям. Затем сравниваются два распределения накопленных частот – теоретическое распределение, имеющее место при справедливой H0
, и наблюдаемое распределение. Таким образом, проверяется гипотеза
H0
: Fξ
(x) = F0
(x),
против альтернативы
H1
: Fξ
(x) ≠ F0
(x),
где Fξ
(x) – функция распределения генеральной совокупности, F0
(x) – непрерывная гипотетическая функция распределения.
Для проверки гипотезы используется статистика
,
где Δ – максимальный модуль отклонения гипотетической функции распределения от эмпирической функции распределения
.
Если гипотеза H0
верна, то статистика λ имеет распределение, приближающееся при к распределению Колмогорова–Смирнова. Критерий для проверки гипотезы имеет следующий вид:
P(λ > λα
) = α,
где α – 100α-процентное отклонение распределения Колмогорова–Смирнова. например, для α = 0,01 критическое значение статистики λα
= 1,627.
Для последовательности (выборки) данные сгруппированы для проведения расчетов по критерию согласия Колмогорова–Смирнова.
Г. Стерджес (Herbert Sturges, 1926) предложил правило для определения числа интервалов k при построении гистограммы распределения случайной величины. При этом i-й интервал является биномиальным коэффициентом . Общий объем выборки
,
отсюда число интервалов для построения гистограммы с нормальными данными
,
где n – количество значений случайной величины в исследуемой выборке. Полученное закону. В общем случае оно может быть использовано без корректировки для n < 200 [6]. При использовании десятичного логарифма, соответственно, используется формула
.
Для построения гистограммы и проверки гипотезы о законе распределения Pearson Type V построена таблица 1.
Таблица 1 – Исходные данные для построения гистограммы и проверки гипотезы о законе распределения Pearson Type V
№
1
2
3
4
5
6
7
ξi
0-5,857
5,857-11,714
11,714-17,571
17,571-23,428
23,428-29,285
29,285-35,142
35,142-41
Fξ
38
4
0
0
0
0
1
1.6 Проверка гипотезы о законе распределения Pearson Type V
Для проверки гипотезы о законе распределения выполняется следующая последовательность шагов.
Шаг 1. Находим ожидаемую частоту ni
0
путем вычисления в Mathcad интеграла функции плотности вероятности на каждом из интервалов. Результат представлен на рисунках 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8.
Рисунок 1.2. Ожидаемая вероятность на интервале 0 — 5,857
Рисунок 1.3. Ожидаемая вероятность на интервале 5,857-11,714
Рисунок 1.4. Ожидаемая вероятность на интервале 11,714-17,571
Рисунок 1.5. Ожидаемая вероятность на интервале 17,571-23,428
Рисунок 1.6. Ожидаемая вероятность на интервале 23,428-29,285
Рисунок 1.7. Ожидаемая вероятность на интервале 29,285-35,142
Рисунок 1.8. Ожидаемая вероятность на интервале 35,142 – 41
Шаг 2. Выражаем каждую наблюдаемую и каждую ожидаемую частоту в виде отношения:
частота клетки
n
Шаг 3. Вычисляем накопленные значения наблюдаемых и ожидаемых отношений путем их суммирования слева направо (суммирование справа налево также приводит к статистике λ).
Шаг 4. Находим абсолютные значения разности между накопленными наблюдаемыми отношениями и накопленными ожидаемыми отношениями.
Шаг 5. Находим наибольшее отношение и выражаем его в виде десятичной дроби. Полученное
Шаг 6. В таблице Е [4, с. 141] (критические значения Δα
в критерии Колмогорова–Смирнова для одной выборки) при объеме выборки свыше 35 предлагается определять критическое
.
Если наблюдаемое
1.7 программа для проверки гипотезы о законе распределения
Проверка гипотезы о законе распределения выполнена в электронной таблице MS Excel. Случайные величины эмпирического распределения расположены в ячейках B2:B44. Рабочее поле для выполнения расчетов расположено в ячейках E4:K11.
Рисунок 1.9. Проверка гипотезы о законе распределения, выполненная в электронной таблице MS Excel
2. Распределение Rayleigh
2.1 Формализованное описание закона Rayleigh распределения случайной величины
Плотность вероятности
где a – параметр масштаба, мода (а>0)
Функция распределения
Функция риска
График функции плотностей распределения вероятностей Rayleigh представлен на рисунке 2.1.
Рисунок 2.1. Функции плотностей распределения вероятностей Rayleigh
2.2 Примеры использования закона распределения Rayleigh
Варианты применения: время выполнения какой-либо задачи.
2.3 Числовые характеристики закона распределения Rayleigh
Математическое ожидание
Медиана
Мода
Дисперсия
Стандартное отклонение
Коэффициент вариации
Асимметрия
Эксцесс
р-квантиль
2.4 Получение выборки с распределением Rayleigh
Генерирование случайных чисел
x=
текст программы на C++
#include<stdio.h>
#include<stdlib.h>
#include<conio.h>
#include<time.h>
#include<math.h>
int main()
{FILE *f;
int i;
const int a=1;
float m[43];
if((f=fopen(«43.txt