Учебная работа. Реферат: Дисперсийный анализ

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...
Контрольные рефераты

Учебная работа. Реферат: Дисперсийный анализ

Содержание

Введение…………………….………………………………………………3

1 Дисперсионный анализ…………………………………………………5

1.1Основные понятия дисперсионного анализа…………………..….. 5

1.2Однофакторный дисперсионный анализ……………………………8

1.3 Многофакторный дисперсионный анализ……………………….17

Заключение………………………………………………………… ……. 23

Перечень использованных источников……………………………… .… 24

Введение

Цель работы: познакомится с таковым статистическим способом, как дисперсионный анализ.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический способ, позволяющий рассматривать воздействие разных причин на исследуемую переменную. способ был разработан биологом Р. Фишером в 1925 году и применялся сначало для оценки тестов в растениеводстве. В предстоящем выяснилась общенаучная значимость дисперсионного анализа для тестов в психологии, педагогике, медицине и др. [6]

Целью дисперсионного анализа является проверка значимости различия меж средними при помощи сопоставления дисперсий. Дисперсию измеряемого признака разлагают на независящие слагаемые, каждое из которых охарактеризовывает воздействие того либо другого фактора либо их взаимодействия. Следующее сопоставление таковых слагаемых дозволяет оценить значимость всякого изучаемого фактора, также их композиции .

При истинности нулевой догадки (о равенстве средних в нескольких группах наблюдений, избранных из генеральной совокупы), оценка дисперсии, связанной с внутригрупповой изменчивостью, обязана быть близкой к оценке межгрупповой дисперсии.

При проведении исследования рынка нередко встает вопросец о сопоставимости результатов. К примеру, проводя опросы по поводу употребления какого-нибудь продукта в разных регионах страны, нужно создать выводы, на сколько данные опроса различаются либо не различаются друг от друга. Сопоставлять отдельные характеристики не имеет смысла и потому процедура сопоставления и следующей оценки делается по неким усредненным значениям и отклонениям от данной усредненной оценки. Изучается вариация признака. За меру варианты быть может принята дисперсия. Дисперсия σ2 – мера варианты, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике нередко появляются задачки наиболее общего нрава – задачки проверки существенности различий средних выборочных нескольких совокупностей. к примеру, требуется оценить воздействие различного сырья на свойство производимой продукции, решить задачку о воздействии количества удобрений на урожайность с/х продукции.

время от времени дисперсионный анализ применяется, чтоб установить однородность нескольких совокупностей (дисперсии этих совокупностей схожи по предполо­жению; если дисперсионный анализ покажет, что и математические ожидания схожи, то в этом смысле сово­купности однородны). Однородные же совокупы можно соединить в одну и тем получить о ней наиболее полную информацию, как следует, и наиболее надежные выводы [2].

1 Дисперсионный анализ

1.1 Главные понятия дисперсионного анализа

В процессе наблюдения за исследуемым объектом высококачественные причины произвольно либо данным образом меняются. Определенная реализация фактора (к примеру, определенный температурный режим, выбранное оборудование либо материал) именуется уровнем фактора либо методом обработки. Модель дисперсионного анализа с фиксированными уровнями причин именуют моделью I, модель со случайными факторами — моделью II. Благодаря варьированию фактора можно изучить его воздействие на величину отклика. В истинное время общая теория дисперсионного анализа разработана для моделей I.

Зависимо от количества причин, определяющих вариацию действенного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.

Главными схемами организации начальных данных с 2-мя и наиболее факторами являются:

— перекрестная систематизация, соответствующая для моделей I, в каких любой уровень 1-го фактора смешивается при планировании опыта с каждой градацией другого фактора;

— иерархическая (гнездовая) систематизация, соответствующая для модели II, в какой любому случайному, наудачу избранному значению 1-го фактора соответствует свое подмножество значений второго фактора.

Если сразу исследуется зависимость отклика от высококачественных и количественных причин, т.е. причин смешанной природы, то употребляется ковариационный анализ.

При обработке данных опыта более разработанными и потому всераспространенными числятся две модели. Их различие обосновано специфи­кой планирования самого опыта. В модели дисперсионного анализа с фик­сированными эффектами исследователь преднамеренно устанавли­вает строго определенные уровни изучаемого фактора. Тер­мин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количе­ство уровней фактора и различия меж ними. При повторе­нии опыта он либо иной исследователь изберет те же самые уровни фактора. В модели со случайными эффек­тами уровни значения фактора выбираются исследователем случаем из широкого спектра значений фактора, и при повторных опытах, естественно, этот спектр бу­дет остальным.

Таковым образом, данные модели различаются меж собой методом выбора уровней фактора, что, разумеется, в пер­вую очередь влияет на возможность обобщения приобретенных экспериментальных результатов. Для дисперсионного анализа однофакторных эк­спериментов различие этих 2-ух моделей не настолько существен­но, но в многофакторном дисперсионном анализе оно может оказаться очень принципиальным.


При проведении дисперсионного анализа должны производиться последующие статистические допущения: независимо от уровня фактора величины отклика имеют обычный (Гауссовский) законраспределения и схожую дисперсию. Такое равенство дисперсий именуется гомогенностью. Таковым образом, изменение метода обработки сказывается только на положении случайной величины отклика, которое характеризуется средним значением либо медианой. Потому все наблюдения отклика принадлежат сдвиговому семейству обычных распределений.

молвят, что техника дисперсионного анализа является «робастной». Этот термин, применяемый статистиками, значит, что данные допущения могут быть в некой степени нарушены, но невзирая на это, технику можно употреблять.

При неведомом законе распределения величин отклика употребляют непараметрические (почаще всего ранговые) способы анализа.

В базе дисперсионного анализа лежит разделение дисперсии на части либо составляющие. Вариацию, обусловленную воздействием фактора, положенного в базу группировки, охарактеризовывает межгрупповая дисперсия σ2
. Она является мерой варианты личных средних по группам вокруг общей средней и определяется по формуле:

,

где k — число групп;

nj
— число единиц в j-ой группе;

— личная средняя по j-ой группе;

— общая средняя по совокупы единиц.

Вариацию, обусловленную воздействием иных причин, охарактеризовывает в каждой группе внутригрупповая дисперсия σj
2
.

.

Меж общей дисперсией σ0
2
, внутригрупповой дисперсией σ2
и межгрупповой дисперсией существует соотношение:

σ0
2
= + σ2
.

Внутригрупповая дисперсия разъясняет воздействие неучтенных при группировке причин, а межгрупповая дисперсия разъясняет воздействие причин группировки на среднее

1.2 Однофакторный дисперсионный анализ

Однофакторная дисперсионная модель имеет вид:

xij
= μ + Fj
+ εij
,
(1)

где хij

Fi
– эффект, обусловленный воздействием i-го уровня фактора;

εij
– случайная компонента, либо возмущение, вызванное воздействием неконтролируемых причин, т.е. вариацией переменой снутри отдельного уровня.

Главные предпосылки дисперсионного анализа:

— математическое ожидание возмущения εij
равно нулю для всех i, т.е.

M(εij
) = 0; (2)

— возмущения εij
взаимно независимы;

— дисперсия переменной xij
(либо возмущения εij
) постоянна для
всех i, j, т.е.

D(εij
) = σ2
; (3)

— переменная xij
(либо возмущение εij
) имеет обычный закон
распределения N(0;σ2
).

Воздействие уровней фактора быть может как фиксированным либо периодическим (модель I), так и случайным (модель II).

Пусть, к примеру, нужно узнать, имеются ли сущест­венные различия меж партиями изделий по некому показа­телю свойства, т.е. проверить воздействие на свойство 1-го фактора — партии изделий. Если включить в исследование все партии сырья, то воздействие уровня такового фактора систематическое (модель I), а приобретенные выводы применимы лишь к тем отдельным парти­ям, которые привлекались при исследовании. Если же включить лишь отобранную случаем часть партий, то воздействие фактора случайное (модель II). В многофакторных комплексах вероятна смешанная модель III, в какой одни причины имеют случайные уровни, а остальные – фиксированные.

Пусть имеется m партий изделий. Из каждой партии отобрано соответственно n1
,n2
, …, nm
изделий (для простоты полагается, что n1
=n2
=…=nm
=n). значения показателя свойства этих изделий представлены в матрице наблюдений:

x11
x12
… x1n

x21
x22
… x2n

………………… = (xij
), (i = 1,2, …, m; j = 1,2, …, n).

xm
1
xm
2
… xmn

нужно проверить существенность воздействия партий из­делий на их свойство.

Если считать, что элементы строк матрицы наблюдений – это численные значения случайных величин Х1
,Х2
,…,Хm
, выражающих свойство изделий и имеющих нор­мальный законраспределения с математическими ожиданиями соответственно a1
,а2
,…,аm
и схожими дисперсиями σ2
, то данная задачка сводится к проверке нулевой догадки Н0
: a1
=a2
=…= аm
, осуществляемой в дисперсионном анализе.

Усреднение по какому-либо индексу обозначено звездочкой (либо точкой) заместо индекса, тогда средний показатель свойства изделий i-й партии, либо групповая средняя для i-го уровня факто­ра, воспримет вид:

, (4)

где i
* – среднее

ij
– элемент матрицы наблюдений;

n – размер подборки.

А общая средняя:

. (5)

Сумма квадратов отклонений наблюдений хij
от общей средней смотрится так:

2=2+2+

+22. (6)

либо

Q = Q1
+ Q2
+ Q3
.

Крайнее слагаемое равно нулю

=0. (7)

потому что сумма отклонений значений переменной от ее средней равна нулю, т.е.

2=0.

1-ое слагаемое можно записать в виде:

В итоге выходит тождество:

Q = Q1
+Q2
, (8)

где — общая, либо полная, сумма квадратов отклонений;

— сумма квадратов отклонений групповых средних от общей средней, либо межгрупповая (факторная) сумма квадратов отклонений;

— сумма квадратов отклонений наблюдений от групповых средних, либо внутригрупповая (остаточная) сумма квадратов отклонений.

В разложении (8) заключена основная мысль дисперсионного анализа. Применительно к рассмат­риваемой задачке равенство (8) указывает, что общая вариа­ция показателя свойства, измеренная суммой Q, складывается из 2-ух компонент – Q1
и Q2
, характеризующих изменчивость этого показателя меж партиями (Q1
) и изменчивость снутри партий (Q2
), характеризующих схожую для всех партий вариацию под действием неучтенных причин.

В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так именуемые средние квад­раты, являющиеся несмещенными оценками соответствую­щих дисперсий, которые получаются делением сумм квадратов отклонений на соответственное число степеней свободы.

Число степеней свободы определяется как общее число наблюдений минус число связывающих их уравне­ний. Потому для среднего квадрата s12
, являющегося несме­щенной оценкой межгрупповой дисперсии, число степеней свободы k1
=m-1, потому что при его расчете употребляются m групповых средних, связанных меж собой одним уравнением (5). А для среднего квадрата s22
, являющегося несмещенной оценкой внутригрупповой дисперсии, число степеней свободы k2
=mn-m, т.к. при ее расчете употребляются все mn наблюдений, связанных меж собой m уравнениями (4).

Таковым образом:

= Q1
/(m-1),

= Q2
/(mn-m).

Если отыскать математические ожидания средних квадратов и , подставить в их формулы выражение xij
(1) через парамет­ры модели, то получится:

(9)

т.к. с учетом параметров математического ожидания

а

(10)

Для модели I с фиксированными уровнями фак­тора Fi
(i=1,2,…,m) – величины неслучайные, потому

M(S) =2 /(m-1) +σ2
.

догадка H0 воспримет вид Fi
= F*(i = 1,2,…,m), т.е. воздействие всех уровней фактора одно и то же. В случае справедливости данной догадки

M(S)= M(S)= σ2
.

Для случайной модели II слагаемое Fi
в выражении (1) – величина случайная. Обозначая ее дисперсией

получим из (9)

(11)

и, как и в модели I

M(S)= σ2
.

В таблице 1.1 представлен вид вычисления значений, при помощи дисперсионного анализа.

Таблица 1.1 – Базисная таблица дисперсионного анализа


Составляющие дисперсии
Сумма квадратов
Число степеней свободы
Средний квадрат
Математическое ожидание среднего квадрата

Межгрупповая

m-1
= Q1
/(m-1)


Внутригрупповая

mn-m

= Q2
/(mn-m)



M(S)= σ2


Общая

mn-1

догадка H0
воспримет вид σF2
=0. В случае справедливости данной догадки

M(S)= M(S)= σ2
.

В случае однофакторного комплекса как для модели I, так и модели II средние квадраты S2
и S2
, являются несмещенными и независящими оценками одной и той же дисперсии σ2
.

Как следует, проверка нулевой догадки H0
свелась к проверке существенности различия несмещенных выборочных оценок S и S дисперсии σ2
.

догадка H0 отвергается, если практически вычисленное зна­чение статистики F =S/Sбольше критичного Fα
:K1
:K2
, опреде­ленного на уровне значимости α при числе степеней свободы k1
=m-1 и k2
=mn-m, и принимается, если F < Fα:K1
:K2
.

F- распределение Фишера (для x > 0) имеет последующую функцию плотности (для = 1, 2, …; = 1, 2, …):

где — степени свободы;

Г — гамма-функция.

Применительно к данной задачке опровержение догадки H0
значит наличие существенных различий в качестве изделий разных партий на рассматриваемом уровне значимости.

Для вычисления сумм квадратов Q1
, Q2
, Qчасто бывает комфортно употреблять последующие формулы:

(12)

(13)

(14)

т.е. сами средние, совершенно говоря, отыскивать не непременно.

Таковым образом, процедура однофакторного дисперсионного анализа состоит в проверке догадки H0
о том, что имеется одна группа однородных экспериментальных данных против кандидатуры о том, что таковых групп больше, чем одна. Под однородностью понимается одинаковость средних значений и дисперсий в любом подмножестве данных. При всем этом дисперсии могут быть как известны, так и неопознаны заблаговременно. Если имеются основания считать, что популярная либо неведомая дисперсия измерений схожа по всей совокупы данных, то задачка однофакторного дисперсионного анализа сводится к исследованию значимости различия средних в группах данных [1].

1.3 Многофакторный дисперсионный
анализ

Следует сходу же отметить, что принципной различия меж многофакторным и однофакторным дисперсионным анализом нет. Многофакторный анализ не меняет общую логику дисперсионного анализа, а только несколько усложняет ее, так как, не считая учета воздействия на зависимую переменную всякого из причин по отдельности, следует оценивать и их совместное действие. Таковым образом, то новое, что заносит в анализ данных многофакторный дисперсионный анализ, касается в главном способности оценить межфакторное взаимодействие. Тем не наименее, как и раньше остается возможность оценивать воздействие всякого фактора в отдельности. В этом смысле процедура многофакторного дисперсионного ана­лиза (в варианте ее компьютерного использования) несом­ненно наиболее экономна, так как всего за один пуск решает сходу две задачки: оценивается воздействие всякого из причин и их взаимодействие [3].

Общая схема двухфакторного опыта, данные ко­торого обрабатываются дисперсионным анализом имеет вид:





Набросок 1.1 – Схема двухфакторного опыта

Данные, подвергаемые многофакторному дисперсионному анализу, нередко обозначают в согласовании с количеством причин и их уровней.

Предположив, что в рассматриваемой задачке о каче­стве разных m партий изделия изготавливались на различных t станках и требуется узнать, имеются ли значительные раз­личия в качестве изделий по любому фактору:

А — партия из­делий;

B — станок.

В итоге выходит переход к задачке двухфакторного дисперсионного анализа.

Все данные представлены в таблице 1.2, в кото­рой по строчкам — уровни Ai
фактора А, по столбцам — уровни Bj
фактора В, а в соответственных ячейках, табли­цы находятся значения показателя свойства изделий xijk
(i=1,2,…,m; j=1,2,…,l; k=1,2,…,n).

Таблица 1.2 – характеристики свойства изделий


B1

B2


Bj


Bl


A1

x11l
,…,x11k

x12l
,…,x12k


x1jl
,…,x1jk


x1ll
,…,x1lk


A2

x2
1l
,…,x2
1k

x22l
,…,x22k


x2jl
,…,x2jk


x2ll
,…,x2lk










Ai

xi1l
,…,xi1k

xi2l
,…,xi2k


xijl
,…,xijk


xjll
,…,xjlk










Am

xm1l
,…,xm1k

xm2l
,…,xm2k


xmjl
,…,xmjk


xmll
,…,xmlk


Двухфакторная дисперсионная модель имеет вид:

xijk
=μ+Fi
+Gj
+Iij
+εijk
, (15)

где xijk

μ — общая средняя;

Fi
— эффект, обусловленный воздействием i-го уровня фактора А;

Gj
— эффект, обусловленный воздействием j-го уровня фактора В;

Iij
— эффект, обусловленный взаимодействием 2-ух факто­ров, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых 3-х слагаемых в модели (15);

εijk
— возмущение, обусловленное вариацией переменной снутри отдельной ячейки.

Предполагается, что εijk
имеет обычный законраспределения N(0; с2
), а все математические ожидания F*
, G*
, Ii
*
, I*
j
равны нулю.

Групповые средние находятся по формулам:

— в ячейке:

,

по строке:

по столбцу:

общая средняя:

В таблице 1.3 представлен вид вычисления значений, при помощи дисперсионного анализа.

Таблица 1.3 – Базисная таблица дисперсионного анализа


Составляющие дисперсии
Сумма квадратов
Число степеней свободы
Средние квадраты

Межгрупповая (фактор А)

m-1


Межгрупповая (фактор B)

l-1


Взаимодействие

(m-1)(l-1)


Остаточная

mln — ml


Общая

mln — 1

Проверка нулевых гипотез HA
, HB
, HAB
о отсутствии воздействия на рассматриваемую переменную причин А, B и их взаимодействия AB осуществляется сопоставлением отношений , , (для модели I с фиксированными уровнями причин) либо отношений , , (для случайной модели II) с надлежащими табличными значениями F – аспекта Фишера – Снедекора. Для смешанной модели III проверка гипотез относительно причин с фиксированными уровнями делается также как и в модели II, а причин со случайными уровнями – как в модели I.

Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые догадки могут быть испытаны потому что выпадает компонента Q3
из общей суммы квадратов отклонений, а с ней и средний квадрат , потому что в этом случае не быть может речи о содействии причин.

Исходя из убеждений техники вычислений для нахождения сумм квадратов Q1
, Q2
, Q3
, Q4
, Q целесообразнее ис­пользовать формулы:

Q3
= Q – Q1
– Q2
– Q4
.

Отклонение от главных предпосылок дисперсионного ана­лиза — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается значительно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но быть может весьма чувствительно при неравном их числе. Не считая того, при нерав­ном числе наблюдений в ячейках резко увеличивается сложность аппарата дисперсионного анализа. Потому рекомендуется пла­нировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями остальных наблюдений в ячейках. При всем этом, но, искусственно введенные недостающие данные не следует учиты­вать при подсчете числа степеней свободы [1].

Заключение

Современные приложения дисперсионного анализа обхватывают широкий круг задач экономики, биологии и техники и трактуются обычно в определениях статистической теории выявления периодических различий меж плодами конкретных измерений, выполненных при тех либо других меняющихся критериях.

Благодаря автоматизации дисперсионного анализа исследователь может проводить разные статистические исследования с применение ЭВМ , затрачивая при всем этом меньше времени и усилий на расчеты данных. В истинное время существует огромное количество пакетов прикладных программ, в каких реализован аппарат дисперсионного анализа. Более всераспространенными являются такие программные продукты как:

— MSExcel;

— Statistica;

— Stadia;

— SPSS.

В современных статистических программных продуктах реализованы большая часть статистических способов. С развитием алгоритмических языков программирования сделалось вероятным создавать доп блоки по обработке статистических данных.

Дисперсионный анализ является массивным совре­менным статистическим способом обработки и анализа экс­периментальных данных в психологии, биологии, медици­не и остальных науках. Он весьма тесновато связан с определенной ме­тодологией планирования и проведения экспериментальных исследовательских работ.

Дисперсионный анализ применяется во всех областях научных исследовательских работ, где нужно проанализировать воздействие разных причин на исследуемую переменную.

Перечень применяемых источников

1. Кремер Н.Ш. Теория вероятности и математическая статистика. М.: Юнити – Дана, 2002.-343с.

2. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшая школа, 2003.-523с.

3. Гусев А.Н. Дисперсионный анализ в экспериментальной психологии. – М.: Учебно-методический коллектор «Психология

5. Шеффе Г. Дисперсионный.анализ М., Наука: 1980, 512 стр.

6. HTTP://www.ucheba.ru/referats/8214.html

]]>