Учебная работа. Реферат: Дисперсийный анализ
Введение…………………….………………………………………………3
1 Дисперсионный анализ…………………………………………………5
1.1Основные понятия дисперсионного анализа…………………..….. 5
1.2Однофакторный дисперсионный анализ……………………………8
1.3 Многофакторный дисперсионный анализ……………………….17
Заключение………………………………………………………… ……. 23
Перечень использованных источников……………………………… .… 24
Введение
Цель работы: познакомится с таковым статистическим способом, как дисперсионный анализ.
Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический способ, позволяющий рассматривать воздействие разных причин на исследуемую переменную. способ был разработан биологом Р. Фишером в 1925 году и применялся сначало для оценки тестов в растениеводстве. В предстоящем выяснилась общенаучная значимость дисперсионного анализа для тестов в психологии, педагогике, медицине и др. [6]
Целью дисперсионного анализа является проверка значимости различия меж средними при помощи сопоставления дисперсий. Дисперсию измеряемого признака разлагают на независящие слагаемые, каждое из которых охарактеризовывает воздействие того либо другого фактора либо их взаимодействия. Следующее сопоставление таковых слагаемых дозволяет оценить значимость всякого изучаемого фактора, также их композиции .
При истинности нулевой догадки (о равенстве средних в нескольких группах наблюдений, избранных из генеральной совокупы), оценка дисперсии, связанной с внутригрупповой изменчивостью, обязана быть близкой к оценке межгрупповой дисперсии.
При проведении исследования рынка нередко встает вопросец о сопоставимости результатов. К примеру, проводя опросы по поводу употребления какого-нибудь продукта в разных регионах страны, нужно создать выводы, на сколько данные опроса различаются либо не различаются друг от друга. Сопоставлять отдельные характеристики не имеет смысла и потому процедура сопоставления и следующей оценки делается по неким усредненным значениям и отклонениям от данной усредненной оценки. Изучается вариация признака. За меру варианты быть может принята дисперсия. Дисперсия σ2 – мера варианты, определяемая как средняя из отклонений признака, возведенных в квадрат.
На практике нередко появляются задачки наиболее общего нрава – задачки проверки существенности различий средних выборочных нескольких совокупностей. к примеру, требуется оценить воздействие различного сырья на свойство производимой продукции, решить задачку о воздействии количества удобрений на урожайность с/х продукции.
время от времени дисперсионный анализ применяется, чтоб установить однородность нескольких совокупностей (дисперсии этих совокупностей схожи по предположению; если дисперсионный анализ покажет, что и математические ожидания схожи, то в этом смысле совокупности однородны). Однородные же совокупы можно соединить в одну и тем получить о ней наиболее полную информацию, как следует, и наиболее надежные выводы [2].
1 Дисперсионный анализ
1.1 Главные понятия дисперсионного анализа
В процессе наблюдения за исследуемым объектом высококачественные причины произвольно либо данным образом меняются. Определенная реализация фактора (к примеру, определенный температурный режим, выбранное оборудование либо материал) именуется уровнем фактора либо методом обработки. Модель дисперсионного анализа с фиксированными уровнями причин именуют моделью I, модель со случайными факторами — моделью II. Благодаря варьированию фактора можно изучить его воздействие на величину отклика. В истинное время общая теория дисперсионного анализа разработана для моделей I.
Зависимо от количества причин, определяющих вариацию действенного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.
Главными схемами организации начальных данных с 2-мя и наиболее факторами являются:
— перекрестная систематизация, соответствующая для моделей I, в каких любой уровень 1-го фактора смешивается при планировании опыта с каждой градацией другого фактора;
— иерархическая (гнездовая) систематизация, соответствующая для модели II, в какой любому случайному, наудачу избранному значению 1-го фактора соответствует свое подмножество значений второго фактора.
Если сразу исследуется зависимость отклика от высококачественных и количественных причин, т.е. причин смешанной природы, то употребляется ковариационный анализ.
При обработке данных опыта более разработанными и потому всераспространенными числятся две модели. Их различие обосновано спецификой планирования самого опыта. В модели дисперсионного анализа с фиксированными эффектами исследователь преднамеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия меж ними. При повторении опыта он либо иной исследователь изберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случаем из широкого спектра значений фактора, и при повторных опытах, естественно, этот спектр будет остальным.
Таковым образом, данные модели различаются меж собой методом выбора уровней фактора, что, разумеется, в первую очередь влияет на возможность обобщения приобретенных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих 2-ух моделей не настолько существенно, но в многофакторном дисперсионном анализе оно может оказаться очень принципиальным.
При проведении дисперсионного анализа должны производиться последующие статистические допущения: независимо от уровня фактора величины отклика имеют обычный (Гауссовский) законраспределения и схожую дисперсию. Такое равенство дисперсий именуется гомогенностью. Таковым образом, изменение метода обработки сказывается только на положении случайной величины отклика, которое характеризуется средним значением либо медианой. Потому все наблюдения отклика принадлежат сдвиговому семейству обычных распределений.
молвят, что техника дисперсионного анализа является «робастной». Этот термин, применяемый статистиками, значит, что данные допущения могут быть в некой степени нарушены, но невзирая на это, технику можно употреблять.
При неведомом законе распределения величин отклика употребляют непараметрические (почаще всего ранговые) способы анализа.
В базе дисперсионного анализа лежит разделение дисперсии на части либо составляющие. Вариацию, обусловленную воздействием фактора, положенного в базу группировки, охарактеризовывает межгрупповая дисперсия σ2
. Она является мерой варианты личных средних по группам вокруг общей средней и определяется по формуле:
,
где k — число групп;
nj
— число единиц в j-ой группе;
— личная средняя по j-ой группе;
— общая средняя по совокупы единиц.
Вариацию, обусловленную воздействием иных причин, охарактеризовывает в каждой группе внутригрупповая дисперсия σj
2
.
.
Меж общей дисперсией σ0
2
, внутригрупповой дисперсией σ2
и межгрупповой дисперсией существует соотношение:
σ0
2
= + σ2
.
Внутригрупповая дисперсия разъясняет воздействие неучтенных при группировке причин, а межгрупповая дисперсия разъясняет воздействие причин группировки на среднее
1.2 Однофакторный дисперсионный анализ
Однофакторная дисперсионная модель имеет вид:
xij
= μ + Fj
+ εij
,
(1)
где хij
–
Fi
– эффект, обусловленный воздействием i-го уровня фактора;
εij
– случайная компонента, либо возмущение, вызванное воздействием неконтролируемых причин, т.е. вариацией переменой снутри отдельного уровня.
Главные предпосылки дисперсионного анализа:
— математическое ожидание возмущения εij
равно нулю для всех i, т.е.
M(εij
) = 0; (2)
— возмущения εij
взаимно независимы;
— дисперсия переменной xij
(либо возмущения εij
) постоянна для
всех i, j, т.е.
D(εij
) = σ2
; (3)
— переменная xij
(либо возмущение εij
) имеет обычный закон
распределения N(0;σ2
).
Воздействие уровней фактора быть может как фиксированным либо периодическим (модель I), так и случайным (модель II).
Пусть, к примеру, нужно узнать, имеются ли существенные различия меж партиями изделий по некому показателю свойства, т.е. проверить воздействие на свойство 1-го фактора — партии изделий. Если включить в исследование все партии сырья, то воздействие уровня такового фактора систематическое (модель I), а приобретенные выводы применимы лишь к тем отдельным партиям, которые привлекались при исследовании. Если же включить лишь отобранную случаем часть партий, то воздействие фактора случайное (модель II). В многофакторных комплексах вероятна смешанная модель III, в какой одни причины имеют случайные уровни, а остальные – фиксированные.
Пусть имеется m партий изделий. Из каждой партии отобрано соответственно n1
,n2
, …, nm
изделий (для простоты полагается, что n1
=n2
=…=nm
=n). значения показателя свойства этих изделий представлены в матрице наблюдений:
x11
x12
… x1n
x21
x22
… x2n
………………… = (xij
), (i = 1,2, …, m; j = 1,2, …, n).
xm
1
xm
2
… xmn
нужно проверить существенность воздействия партий изделий на их свойство.
Если считать, что элементы строк матрицы наблюдений – это численные значения случайных величин Х1
,Х2
,…,Хm
, выражающих свойство изделий и имеющих нормальный законраспределения с математическими ожиданиями соответственно a1
,а2
,…,аm
и схожими дисперсиями σ2
, то данная задачка сводится к проверке нулевой догадки Н0
: a1
=a2
=…= аm
, осуществляемой в дисперсионном анализе.
Усреднение по какому-либо индексу обозначено звездочкой (либо точкой) заместо индекса, тогда средний показатель свойства изделий i-й партии, либо групповая средняя для i-го уровня фактора, воспримет вид:
, (4)
где i
* – среднее
ij
– элемент матрицы наблюдений;
n – размер подборки.
А общая средняя:
. (5)
Сумма квадратов отклонений наблюдений хij
от общей средней смотрится так:
2=2+2+
+22. (6)
либо
Q = Q1
+ Q2
+ Q3
.
Крайнее слагаемое равно нулю
=0. (7)
потому что сумма отклонений значений переменной от ее средней равна нулю, т.е.
2=0.
1-ое слагаемое можно записать в виде:
В итоге выходит тождество:
Q = Q1
+Q2
, (8)
где — общая, либо полная, сумма квадратов отклонений;
— сумма квадратов отклонений групповых средних от общей средней, либо межгрупповая (факторная) сумма квадратов отклонений;
— сумма квадратов отклонений наблюдений от групповых средних, либо внутригрупповая (остаточная) сумма квадратов отклонений.
В разложении (8) заключена основная мысль дисперсионного анализа. Применительно к рассматриваемой задачке равенство (8) указывает, что общая вариация показателя свойства, измеренная суммой Q, складывается из 2-ух компонент – Q1
и Q2
, характеризующих изменчивость этого показателя меж партиями (Q1
) и изменчивость снутри партий (Q2
), характеризующих схожую для всех партий вариацию под действием неучтенных причин.
В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так именуемые средние квадраты, являющиеся несмещенными оценками соответствующих дисперсий, которые получаются делением сумм квадратов отклонений на соответственное число степеней свободы.
Число степеней свободы определяется как общее число наблюдений минус число связывающих их уравнений. Потому для среднего квадрата s12
, являющегося несмещенной оценкой межгрупповой дисперсии, число степеней свободы k1
=m-1, потому что при его расчете употребляются m групповых средних, связанных меж собой одним уравнением (5). А для среднего квадрата s22
, являющегося несмещенной оценкой внутригрупповой дисперсии, число степеней свободы k2
=mn-m, т.к. при ее расчете употребляются все mn наблюдений, связанных меж собой m уравнениями (4).
Таковым образом:
= Q1
/(m-1),
= Q2
/(mn-m).
Если отыскать математические ожидания средних квадратов и , подставить в их формулы выражение xij
(1) через параметры модели, то получится:
(9)
т.к. с учетом параметров математического ожидания
а
(10)
Для модели I с фиксированными уровнями фактора Fi
(i=1,2,…,m) – величины неслучайные, потому
M(S) =2 /(m-1) +σ2
.
догадка H0 воспримет вид Fi
= F*(i = 1,2,…,m), т.е. воздействие всех уровней фактора одно и то же. В случае справедливости данной догадки
M(S)= M(S)= σ2
.
Для случайной модели II слагаемое Fi
в выражении (1) – величина случайная. Обозначая ее дисперсией
получим из (9)
(11)
и, как и в модели I
M(S)= σ2
.
В таблице 1.1 представлен вид вычисления значений, при помощи дисперсионного анализа.
Таблица 1.1 – Базисная таблица дисперсионного анализа
Составляющие дисперсии
Сумма квадратов
Число степеней свободы
Средний квадрат
Математическое ожидание среднего квадрата
Межгрупповая
m-1
= Q1
/(m-1)
Внутригрупповая
mn-m
= Q2
/(mn-m)
M(S)= σ2
Общая
mn-1
догадка H0
воспримет вид σF2
=0. В случае справедливости данной догадки
M(S)= M(S)= σ2
.
В случае однофакторного комплекса как для модели I, так и модели II средние квадраты S2
и S2
, являются несмещенными и независящими оценками одной и той же дисперсии σ2
.
Как следует, проверка нулевой догадки H0
свелась к проверке существенности различия несмещенных выборочных оценок S и S дисперсии σ2
.
догадка H0 отвергается, если практически вычисленное значение статистики F =S/Sбольше критичного Fα
:K1
:K2
, определенного на уровне значимости α при числе степеней свободы k1
=m-1 и k2
=mn-m, и принимается, если F < Fα:K1
:K2
.
F- распределение Фишера (для x > 0) имеет последующую функцию плотности (для = 1, 2, …; = 1, 2, …):
где — степени свободы;
Г — гамма-функция.
Применительно к данной задачке опровержение догадки H0
значит наличие существенных различий в качестве изделий разных партий на рассматриваемом уровне значимости.
Для вычисления сумм квадратов Q1
, Q2
, Qчасто бывает комфортно употреблять последующие формулы:
(12)
(13)
(14)
т.е. сами средние, совершенно говоря, отыскивать не непременно.
Таковым образом, процедура однофакторного дисперсионного анализа состоит в проверке догадки H0
о том, что имеется одна группа однородных экспериментальных данных против кандидатуры о том, что таковых групп больше, чем одна. Под однородностью понимается одинаковость средних значений и дисперсий в любом подмножестве данных. При всем этом дисперсии могут быть как известны, так и неопознаны заблаговременно. Если имеются основания считать, что популярная либо неведомая дисперсия измерений схожа по всей совокупы данных, то задачка однофакторного дисперсионного анализа сводится к исследованию значимости различия средних в группах данных [1].
1.3 Многофакторный дисперсионный
анализ
Следует сходу же отметить, что принципной различия меж многофакторным и однофакторным дисперсионным анализом нет. Многофакторный анализ не меняет общую логику дисперсионного анализа, а только несколько усложняет ее, так как, не считая учета воздействия на зависимую переменную всякого из причин по отдельности, следует оценивать и их совместное действие. Таковым образом, то новое, что заносит в анализ данных многофакторный дисперсионный анализ, касается в главном способности оценить межфакторное взаимодействие. Тем не наименее, как и раньше остается возможность оценивать воздействие всякого фактора в отдельности. В этом смысле процедура многофакторного дисперсионного анализа (в варианте ее компьютерного использования) несомненно наиболее экономна, так как всего за один пуск решает сходу две задачки: оценивается воздействие всякого из причин и их взаимодействие [3].
Общая схема двухфакторного опыта, данные которого обрабатываются дисперсионным анализом имеет вид:
Набросок 1.1 – Схема двухфакторного опыта
Данные, подвергаемые многофакторному дисперсионному анализу, нередко обозначают в согласовании с количеством причин и их уровней.
Предположив, что в рассматриваемой задачке о качестве разных m партий изделия изготавливались на различных t станках и требуется узнать, имеются ли значительные различия в качестве изделий по любому фактору:
А — партия изделий;
B — станок.
В итоге выходит переход к задачке двухфакторного дисперсионного анализа.
Все данные представлены в таблице 1.2, в которой по строчкам — уровни Ai
фактора А, по столбцам — уровни Bj
фактора В, а в соответственных ячейках, таблицы находятся значения показателя свойства изделий xijk
(i=1,2,…,m; j=1,2,…,l; k=1,2,…,n).
Таблица 1.2 – характеристики свойства изделий
B1
B2
…
Bj
…
Bl
A1
x11l
,…,x11k
x12l
,…,x12k
…
x1jl
,…,x1jk
…
x1ll
,…,x1lk
A2
x2
1l
,…,x2
1k
x22l
,…,x22k
…
x2jl
,…,x2jk
…
x2ll
,…,x2lk
…
…
…
…
…
…
…
Ai
xi1l
,…,xi1k
xi2l
,…,xi2k
…
xijl
,…,xijk
…
xjll
,…,xjlk
…
…
…
…
…
…
…
Am
xm1l
,…,xm1k
xm2l
,…,xm2k
…
xmjl
,…,xmjk
…
xmll
,…,xmlk
Двухфакторная дисперсионная модель имеет вид:
xijk
=μ+Fi
+Gj
+Iij
+εijk
, (15)
где xijk
—
μ — общая средняя;
Fi
— эффект, обусловленный воздействием i-го уровня фактора А;
Gj
— эффект, обусловленный воздействием j-го уровня фактора В;
Iij
— эффект, обусловленный взаимодействием 2-ух факторов, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых 3-х слагаемых в модели (15);
εijk
— возмущение, обусловленное вариацией переменной снутри отдельной ячейки.
Предполагается, что εijk
имеет обычный законраспределения N(0; с2
), а все математические ожидания F*
, G*
, Ii
*
, I*
j
равны нулю.
Групповые средние находятся по формулам:
— в ячейке:
,
по строке:
по столбцу:
общая средняя:
В таблице 1.3 представлен вид вычисления значений, при помощи дисперсионного анализа.
Таблица 1.3 – Базисная таблица дисперсионного анализа
Составляющие дисперсии
Сумма квадратов
Число степеней свободы
Средние квадраты
Межгрупповая (фактор А)
m-1
Межгрупповая (фактор B)
l-1
Взаимодействие
(m-1)(l-1)
Остаточная
mln — ml
Общая
mln — 1
Проверка нулевых гипотез HA
, HB
, HAB
о отсутствии воздействия на рассматриваемую переменную причин А, B и их взаимодействия AB осуществляется сопоставлением отношений , , (для модели I с фиксированными уровнями причин) либо отношений , , (для случайной модели II) с надлежащими табличными значениями F – аспекта Фишера – Снедекора. Для смешанной модели III проверка гипотез относительно причин с фиксированными уровнями делается также как и в модели II, а причин со случайными уровнями – как в модели I.
Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые догадки могут быть испытаны потому что выпадает компонента Q3
из общей суммы квадратов отклонений, а с ней и средний квадрат , потому что в этом случае не быть может речи о содействии причин.
Исходя из убеждений техники вычислений для нахождения сумм квадратов Q1
, Q2
, Q3
, Q4
, Q целесообразнее использовать формулы:
Q3
= Q – Q1
– Q2
– Q4
.
Отклонение от главных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается значительно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но быть может весьма чувствительно при неравном их числе. Не считая того, при неравном числе наблюдений в ячейках резко увеличивается сложность аппарата дисперсионного анализа. Потому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями остальных наблюдений в ячейках. При всем этом, но, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы [1].
Заключение
Современные приложения дисперсионного анализа обхватывают широкий круг задач экономики, биологии и техники и трактуются обычно в определениях статистической теории выявления периодических различий меж плодами конкретных измерений, выполненных при тех либо других меняющихся критериях.
Благодаря автоматизации дисперсионного анализа исследователь может проводить разные статистические исследования с применение ЭВМ , затрачивая при всем этом меньше времени и усилий на расчеты данных. В истинное время существует огромное количество пакетов прикладных программ, в каких реализован аппарат дисперсионного анализа. Более всераспространенными являются такие программные продукты как:
— MSExcel;
— Statistica;
— Stadia;
— SPSS.
В современных статистических программных продуктах реализованы большая часть статистических способов. С развитием алгоритмических языков программирования сделалось вероятным создавать доп блоки по обработке статистических данных.
Дисперсионный анализ является массивным современным статистическим способом обработки и анализа экспериментальных данных в психологии, биологии, медицине и остальных науках. Он весьма тесновато связан с определенной методологией планирования и проведения экспериментальных исследовательских работ.
Дисперсионный анализ применяется во всех областях научных исследовательских работ, где нужно проанализировать воздействие разных причин на исследуемую переменную.
Перечень применяемых источников
1. Кремер Н.Ш. Теория вероятности и математическая статистика. М.: Юнити – Дана, 2002.-343с.
2. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшая школа, 2003.-523с.
3. Гусев А.Н. Дисперсионный анализ в экспериментальной психологии. – М.: Учебно-методический коллектор «Психология
5. Шеффе Г. Дисперсионный.анализ М., Наука: 1980, 512 стр.
6. HTTP://www.ucheba.ru/referats/8214.html
]]>