<<
>>

2.5 Дисперсионный анализ

  Что делать, когда мы хотим сравнить несколько выборок? Попарно сравнивать параметрическими или непараметрическими критериями? Очень быстро мы утонем в расчётах. Но, разумеется, наука уже знает способ нам помочь.
Для сравнения трёх и более выборок используют дисперсионный анализ (ANOVA).

Дисперсионный анализ, основы которого были разработаны Фишером в 1920-1930 гг., позволяет устанавливать не только степень одновременного влияния на признак нескольких факторов и каждого в отдельности, но также их суммарное влияние в любых комбинациях и дополнительный эффект от сочетания разных факторов. Разумеется, и в этом случае остается масса неучтенных факторов, но, во-первых, методика позволяет оценить долю их влияния на общую изменчивость признака, а во-вторых, исследователь обычно имеет возможность выделить несколько ведущих факторов и исследовать именно их воздействие на изменчивость признаков.

Дисперсионный анализ позволяет решить множество задач, когда требуется изучить воздействие природных или искусственно создаваемых факторов на интересующий исследователя признак. Дисперсионный анализ принадлежит к числу довольно трудоемких биометрических методов, однако правильная организация опыта или сбора данных в природных условиях существенно облегчает вычисления.

Идея дисперсионного анализа заключается в разложении общей дисперсии случайной величины на независимые случайные слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение этих дисперсий позволяет оценить существенность влияния фактора на исследуемую величину. Таким образом, задача дисперсионного анализа состоит в том, чтобы выявить ту часть общей изменчивости признака, которая обусловлена воздействием учитываемых факторов, и оценить достоверность делаемого вывода.

Пусть, например, А – исследуемая величина, – среднее значение величины А, учитываемые факторы мы обозначим буквой х, неучитываемые – z, а все факторы вместе – буквой у (или припиской этих букв к соответствующим символам).

Неучитываемые факторы составляют «шум» – помехи, мешающие выделить степень влияния учитываемых факторов. Отклонение А от при действии факторов х и z можно представить в виде суммы

(А-)=У=Х+Z,

где Х – отклонение, вызываемое фактором х, Z – отклонение, вызываемое фактором z, У – отклонение, вызываемое всеми факторами. Кроме того, предположим, что Х,У,Z – являются независимыми случайными величинами, обозначим дисперсии через ?2Х, ?2Y, ?2Z, ?2А. Тогда имеет место равенство:

?2А=?2Х+?2Z

Сравнивая дисперсии можно установить степень влияния факторов х и z на величину А, т.е. степень влияния учтенных и неучтенных факторов.

Непременным условием дисперсионного анализа является разбивка каждого учитываемого фактора не менее чем на две качественные или количественные градации. Если исследуется влияние одного фактора на исследуемую величину, то речь идет об однофакторном комплексе, если изучается влияние двух факторов – то о двухфакторном комплексе и т.д. Для проведения дисперсионного анализа обязательным условием является нормальное распределение и равные дисперсии совокупности случайных величин.

Для пояснения логической схемы дисперсионного анализа рассмотрим простейший произвольный пример. Предположим, что совокупности возрастающих доз удобрения на разных делянках имеют нормальное распределение и равные дисперсии. Имеется m таких совокупностей (разные делянки), из которых произведены выборки объемом n1,n2,…,nm. Обозначим выборку из i-ой совокупности через (хi1,хi2,…хin) - урожайность делянок. Тогда все выборки можно записать в виде таблицы, которая называется матрицей наблюдений.

Таблица 2.3

Матрица наблюдений однофакторного дисперсионного комплекса

Количество элементов совокупности (n)-дозы удобрения

1

2

J

N

Количество совокуп-

ностей (m)

1

X11

X12

X1j

X1n

2

X21

X22

X2j

X2n

I

Xi1

Xi2

xij

xin

m

Xm1

Xm2

xmj

xmn

Средние этих выборок обозначим через .

Для проверки гипотезы о равенстве средних нулевую гипотезу запишем как , альтернативную в виде .

Гипотеза Н0 проверяется сравнением внутригрупповых и межгрупповых дисперсий по F-критерию. Если расхождение между ними незначительно, то нулевая гипотеза принимается. В противном случае нулевая гипотеза отвергается и делается заключение о том, что различия в средних обусловлено не только случайностями выборок, но и действием исследуемого фактора.

Для изучаемого признака характерно три типа изменчивости: Факториальная (или групповая) изменчивость. Характеризуется тем, что для каждой из совокупностей имеется своя средняя арифметическая (). Разница в средних зависит, очевидно, от разного действия факторов; Остаточная изменчивость. Характеризуется различными значениями признака внутри каждой градации. Эти различия не зависят от влияния фактора. Видимо, их причина лежит вне опыта, определяется неучитываемыми в данном анализе факторами. Общая изменчивость. Заключается в том, что все наблюдения дисперсионного комплекса отличаются друг от друга (или иногда совпадают).

Мерой изменчивости признака в выборке служит сумма квадратов отклонений его значений от средней арифметической . Эта величина, отнесенная к числу наблюдений, дает меру рассеяния, именуемую дисперсией, которая и применяется в дисперсионном анализе. Мерой факториальной изменчивости будет сумма квадратов отклонений средних значений групп () от общего среднего : .

Эту величину иногда называют рассеиванием по факторам. Мера остаточной изменчивости выразится суммой квадратов отклонений всех наблюдений в данной совокупности от среднего значения совокупности: . Мерой общей изменчивости является сумма квадратов отклонений в дисперсионном комплексе от общего среднего: .

Тогда в соответствии с основной идеей дисперсионного анализа можно записать: S2y=S2x+S2z или:

.

Вычислим факториальную и остаточную дисперсии, как меры соответствующих типов изменчивости признака в дисперсионном комплексе

.

В этих формулах фигурируют степени свободы (?х, ?z, ?у), т.к. дисперсия ?2 и есть сумма квадратов отклонений в расчете на одну степень свободы. Число степеней свободы есть количество значений, необходимых для восстановления утерянного. Число степеней свободы для факториальной дисперсии равно числу совокупностей без единицы (m-1), т.к. все группы связаны друг с другом лишь одним общим условием – значением средней арифметической всего дисперсионного комплекса (). Число степеней свободы для остаточной дисперсии равно числу наблюдений в комплексе минус число совокупностей (mn-m) ибо все наблюдения связаны наличием в каждой группе своей средней арифметической (). Число степеней свободы для вычисления общей дисперсии всего комплекса равно числу наблюдений в комплексе без единицы (mn-1), ибо все наблюдения связаны только одним общим условием – наличием общей средней ().

Затем необходимо рассчитать доли влияния учтенного и неучтенного факторов как отношения соответствующих сумм квадратов отклонений:

.

Эти величины представляют собой не что иное, как квадраты корреляционных отношений. В сумме эти показатели должны всегда составлять 1 (100%). Теперь можно ответить на интересующий вопрос: насколько учитываемый фактор ответственен за изменчивость результативного признака и сколько процентов падает на долю неучтенных факторов.

Таблица 2.4

Логическая схема однофакторного дисперсионного комплекса

Компоненты дисперсии Сумма квадратов Число степеней свободы Дисперсии Степень влияния фактора
Факториальная (межгрупповая) п m-1
Остаточная (внутригрупповая) m(n-1)
Полная (общая) mn-1

Для проверки достоверности полученного вывода необходимо провести проверку по F-критерию.

Определяют значение критерия Фишера (F), представляющего собой отношение двух дисперсий – факториальной и остаточной – и сравнивают его с табличным в зависимости от числа степеней свободы ?1=m-1 и ?2=mn-m. Для того, чтобы отвергнуть нулевую гипотезу, необходимо, чтобы полученное значение критерия было больше табличного. Однофакторный дисперсионный анализ удобно представить в виде таблицы:

 

<< | >>
Источник: Горшков М.В.. Экологический мониторинг. Учеб. пособие. 2010

Еще по теме 2.5 Дисперсионный анализ:

  1. § 1. Анализ ритмичности производства буровых работ на воду
  2. План исследования
  3. Альтернативы и более сложные варианты дисперсионного анализа
  4. Мультивариантный дисперсионный анализ
  5. Общие принципы
  6. Глава 1. Основные принципы подхода к изучению свойств нервной системы человека[22]
  7. Глава 9. Роль силы нервной системы в реакции организма на раздражители возрастающей интенсивности
  8. Проблема духовного формирования студентов психологического факультета посредством экзистенциального подхода
  9. Заволжский моторный завод — поиск своего пути
  10. 2.5 Дисперсионный анализ
  11. 2.6 Регрессионный анализ
  12. 4.1 Пакет статистических программ Statistica
  13. 4.2 Редактор электронных таблиц MS Excel