<<
>>

3.5. Проверка гипотез. Доверительные интервалы и доверительные области

Проверка гипотезы Но: $ = fto. Итак, мы доказали следующие статистические результаты. 1.

Вектор оценок /Jqls имеет нормальное распределение со средним /3 и матрицей ковариаций (см.

(3.8)) V(/30ls) = с\Х1Х)~\ т.е. (см. (3.7)) 3ols - 0 ~ Щ0,f(X'X)~l) или /Sols,» - /% ~ iV(0,Pi Pi

тональный элемент матрицы (Х'Х)"1. В качестве оценки дисперсии 0o\?ti возьмем = д\ = a2q%% = $2qlt.

* Pi Pi

s2 2.

Случайная величина (n — k)—z распределена по закону хи- квадрат с п — к степенями свободы х (п ~ к) (см. (3.21)). 3.

Оценки /3OLS и s2 независимы (см. п. 3.3). Отсюда получаем (см. приложение МС, п. 3):

(3.34)

s

ft

Из (3.34) получаем, что

а

(floLS.i ~ tc8p(\PoLS,i + tcSp.}

является 100(1 -а)%-ным доверительным интервалом для истинного значения коэффициента где tc = ta/2(n-k) — 100(а/2)%- ная точка распределения Стьюдента с п — к степенями свободы.

Для тестирования нулевой гипотезы Но: А = Ао, также можно применить статистику (3.34), а именно, нулевая гипотеза отклоняется на уровне значимости а, если 0OLS,» ~ PiO

1*1 =

> *а/2(п ~ к)- Проверка гипотезы, Но: /% = /% = •••=&= 0. Предположим, что в число регрессоров включена константа (свободный член): yt = 01 + foxt2 + • • • + Pk^tk + Нулевая гипотеза состоит в том, что коэффициенты при всех регрессорах равны нулю.

Рассмотрим статистику

R2 п-к RSS п-к

F =

1 - Я2 к - 1 ESS к - 1 -.і ^ У*У*

S7\2,

(3.35)

Ш-уШ- 1)^ <Т2

?e2/(n-A:) e'e 1

<т2 п — к Как мы показали ранее, знаменатель в (3.35) имеет распределение гХ2(п - ЛО-

ті - «

Покажем, что числитель имеет распределение ~Х2{к ~ 1)-

Л к — 1

В самом деле, у = Xf3 = Ny, где N = Х(Х'Х)~1Х' — оператор ортогонального проектирования на подпространство 7г, порожденное векторами ®iОперацию взятия отклонения от среднего yt — у можно записать в матричной форме:

V.

= V - У» = V - = У ~ =

где Р — пхп матрица, Pij = 1/n. Р есть матрица ортогонального проектирования на вектор г = (1,..., 1)' (константа). Поскольку по нашему предположению вектор г принадлежит подпространству я-, то PN = Р. Последовательное ортогональное проектирование вектора у на 7г и затем на вектор г совпадает с ортогональным проектированием вектора у на вектор t (теорема о трех перпендикулярах).

Замечание, ртсюда следует, что уг = Ру = PNy = Ру = yt И У. = У - уг = у - уг = (N - Р)у = (N - Р)(Х(3 + є) = X,0 + (N-P)e.

Здесь согласно (3.14) NX = X, поэтому (N - Р)Х = X — РХ = X», где X» есть п х к матрица с нулевым первым столбцом. Поэтому при гипотезе Но имеем Л"*/3 = О и у, = (N — Р)є. Матрица N — Р является идемпотентной: она, очевидно, симметричная и (N-P)2 = N2-PN-NP + P2 = N-P-N'P' + P = N—(PN)' = N —Р. Ранг идемпотентной матрицы равен ее следу (приложение JIA, п. 16), поэтому rank(N - Р) = tr(N - Р) = к - 1 (см. (3.18)). Таким образом, из леммы (приложение МС, п. 4, N8) получаем: у'»у„/ о1 ~ х2(к - 1). что и требовалось показать.

Как мы установили ранее в п. 3.3, /3OLS и е независимы, поэтому статистика F из (3.35) имеет распределение Фишера

Я2 п — к RSSn —fc ft»./(fc-1)

ESS (3-36)

И ее МОЖНО использовать для проверки гипотезы Но: 02 = 03 = • ? • = iSfc = 0. А именно, гипотеза Но отвергается, например, на 5%- ном уровне значимости, если F > FC} где Fc = Fomos(k -1 ,п — к) — 5%-ная точка распределения Фишера F(k — 1,п — к).

Линейное ограничение общего вида Но: Hp — г. Пусть Н — q х к матрица, f) — к х 1 вектор коэффициентов, г — q х 1 вектор.

Естественно считать, что число ограничений не превосходит числа параметров и ограничения линейно независимы, т.е. q ^ к и матрица Н имеет максимальный ранг: rank(JEf) = q.

В качестве примера рассмотрим следующие матрицы Н, г для к = 3, q = 2:

?Б 5-М

ГА"

? і її ill

я/3

= г.

Это условие соответствует системе двух линейных ограничений:

f А = 2, \ А - & = о. Из (3.4), (3.7), (3.8) видно, что вектор /3OLS имеет нормальное распределение со средним /3 и матрицей ковариаций a2(X'X)~i.

3ols -^(/з^х'х)-1).

«ач.

Отсюда получаем, что Hj9 - г ~ N(H(3 - г,Е), где Е — g х q матрица и S = V(tf/3 - г) = V(H/3) = HV(3)H' = ^ЩХ'ХУ^Н'.

Итак,

Hp _ г ~ w(tf/3 - r,o2H(X'Х)~хН'). (3.37)

По лемме (приложение МС, п. 4, N9) из (3.37) при условии справедливости гипотезы Но: Н(3 = г, получаем:

1(НЗ - гПЩХ'ХугН'УЧнр - г) ~ Х2(д). (3.38) Из (3.21) и (3.38), используя независимость /3 и е, получаем:

(Hg - ГУ{ЩХ'Х)-ЧҐ)-\Н0 - r)/g

e'e/(n - к) F(q,n-k). (3.39)

Бели справедлива гипотеза Но: Н(3 — г = О, то статистика F в (3.39) не должна принимать слишком больших значений, а именно, с вероятностью 1-а имеем F < Fa(q,n—k), где Fa{q,n—k) есть 100а%-ная точка распределения Фишера F(q,n — к).

Из (3.21), (3.37), снова используя независимость /3 и е, получаем

F =

' F(q,n — к).

_ (3 - Р)'Н'{Н(Х'Х)-1Н'у1Нф - /3)/д е'е/(тг — к)

(3.40)

Условие F < FQ((],n- к) задает 100(1 - а)%-ную доверительною область для коэффициентов /3.

Так как в числителе (3.40) стоит неотрицательно определенная квадратичная форма от то эта доверительная область является выпуклым множеством.

В случае Н = I статистика F в (3.40) выглядит следующим образом:

_ Ф - тх'х)ф - /з ук

F~ е?е/(п — к) ПКп-к).

В этом случае доверительная область является эллипсоидом в ^-мерном пространстве коэффициентов /3.

Но: Pk-q+1 = Pk-q+2 = • • • = /?fc = 0. Гипотеза является, конечно, частным случаем общей линейной гипотезы JFf/З = г. Эту гипотезу приходится проверять наиболее часто, и она представляет самостоятельный интерес.

Разобьем все матрицы с размером по одной из сторон к на блоки со сторонами (к - q) и q: Л

32

А

32

= 32, хр = ХіЗї + х232,

Н= [О /„], 3 =

нр = [о /,] здесь Х\ - п х (к - q), Xi — п х q, РІУ (Зх — {к - q) х І, /32, /32 — q х 1 матрицы. Введем обозначения:

Qn Qi2

Q21 Q22

-і [Q11 Q12! Q ~ |Q2' Q22J-

В этих обозначениях числитель дроби в выражении (3.40) для F при условии, что верна нулевая гипотеза Но: /32 = О, имеет вид

(с точностью до множителя 1/q)

(3-/з)'[°]([о і,) «-'f®])"^ Iq) (3-/3) = %(Q22)'1 32 = &{Qn-Q2\Q\\Qn)P2

= 0'2{Х'2Х2-Х'2Хг(Х\Х1)-11Х'1Х2)р2

= 0'2X,2{I-Xl{X,lXl)-lX\)X2P2 = 3'2X'2MxX2p2.

(3.41)

Здесь через M\ обозначена матрица ортогонального проектирования на ttj- — ортогональное дополнение к подпространству в Rn (порожденному к — q столбцами матрицы X]).

При выводе (3.41) мы использовали формулу (J1A.18): (Q22)-1 = Q22 — Q21Q111

Докажем теперь, что (3.41) равно е*'е* - е'е, где е* — остатки «короткой» регрессии (только на Хі), а е — остатки «длинной» регрессии (на X = [X] Х2]). В самом деле,

е* = М\у = М1(Х131 + Х232 + в) = М іХхЗі + М1Х2З2 + міе = МхХф2 + е

(здесь слагаемое М\Хфх равно нулю, т.к. М\ — проектор на подпространство, ортогональное Хі, и М\е = е, т.к. е ортогонально Х\ и Хг). Отсюда

е*'е* = (е + М1Х232)'(е + МгХ232)

= е'е + р2Х'2М\Хф2 + е'МгХ232 + p2X'2Mie, (3.42)

два последних слагаемых в (3.42) равны нулю, т.к. М\е = е, а Х'2е = О (остатки ортогональны регрессорам). Таким образом,

е*'е* -е'е = р'2Х'2МіХ2р2. (3.43)

Полученное выражение совпадает с (3.41), поэтому статистику F из (3.40) в нашем случае можно записать как

_ (е"е* - e'e)/q _ (ESSr - ESSUR)/g F ~ е'е/(п - к) ~ ESSur/(» - к) ~ F(9, П~к)- (3 44)

Здесь ESSr — сумма квадратов остатков «короткой» (restricted) регрессии; ESSur — сумма квадратов остатков «длинной» (unrestricted) регрессии.

Как и ранее (см. (2.32)), F-статистику (3.44) можно выразить через коэффициенты детерминации R2 для «короткой» и «длинной» регрессий:

(при выводе (3.45) используется определение R2 (3.27) и то, что TSSur = TSSr).

Важное замечание. Можно доказать, что представления F-статистики в формах (3.44), (3.45) справедливы, и в общем случае произвольного линейного ограничения Н(3 = г.

В этом случае «длинной» регрессией является регрессия без ограничений на параметры /3, а «короткой» — регрессия с ограничениями Н(3 = г. МНК при этом состоит в минимизации функции ESS (3.2) при условии Н(3 = г.

Упражнение. Докажите, что представления (3.44), (3.45) для F- статистики справедливы в общем случае произвольного линейного ограничения Н/З = г. (Указание: линейной заменой регрессоров сведите общий случай к рассмотренному выше случаю ограничения вида Afc-,+1 = Pk-q+2 = • • • = Pk = 0.)

Но: с'/З = 9, с — к х 1 вектор.

Эта гипотеза также является частным случаем общей линейной гипотезы JT/3 = г для 1 х к матрицы Н = с'. Соответственно для проверки гипотезы можно использовать F-статистику (3.39), которая в данном случае распределена по закону Фишера F(l,n - к).

Эту гипотезу можно проверять, используя также t-статистику, аналогичную (3.34). Заметим, что ~ N(c'0,oкак линейная комбинация совместно нормально распределенных случайных величин. Дисперсия с'/З равна = V(c'3) = dV(fi)c =

o2d(X'X)~xc, оценка дисперсии =д2с'(Х'Х)~1с.

Из рассуждений, совершенно аналогичных рассуждениям при выводе t-статистики для гипотезы /% = /%о, получаем

еЪ^Нз= сЗ-с/з

odb y/t?d(X'X)-*c или, если справедлива гипотеза Но: с'/З = 0,

t = , - t(n - к). (3.47)

y/a*d{X'X)-*c

Конечно, в данном случае t-статистика эквивалентна F-стати- стике.

Но: /3' = /3"; а' = а" (тест Чоу (Chow)). Предположим, у нас есть две выборки данных. По каждой выборке мы строим регрессионную модель. Вопрос, который нас интересует: верно ли, что эти две модели совпадают? Рассмотрим модели:

Уі = + + • • • + 0kXtk + 4 t = 1,..., п, (3.48а)

Уі = Р'{ха + 02xt2 + • • • + Phytic + є?, t = n + 1,... ,n + m, (3.486)

в первой выборке n наблюдений и т наблюдений во второй. Например, у — заработная плата, Х( — регрессоры (возраст, стаж, уровень образования и т. п.), и пусть первая выборка относится к женщинам, вторая — к мужчинам. Вопрос: следует ли из оценки моделей (3.48а), (3.486), что модель зависимости зарплаты от регрессоров одна и та же для мужчин и женщин?

Сведем эту ситуацию к общей схеме проверки линейных ограничений на параметры модели. Регрессией без ограничений здесь является объединение двух регрессий (3.48а), (3.486), т.е. ESSur = ESSi + ESS2, число степеней свободы при этом равно (п - к) + (т — к) = п + m - 2к. Предположим теперь, что верна нулевая гипотеза. Тогда регрессия с ограничениями записывается одним уравнением

yt = 0i®ti+#2Zt2 + '" + /?fe«tfc+et, t l,...,n + m.

(3.49)

Оцениваи (3.49), получаем ESSr. Тогда, учитывая, что наложено к ограничений на параметры модели, получаем (ср. (3.44))

_ (ESSr - ESSUR)/fc

F = =т— - —? ~ F(k. п + т- 2к). (3.50)

ESSuR/(n + m - 2к) v ' v '

Если F-статистика (3.50) больше критического значения Fc = Fa(k,n + m — 2к), то нулевая гипотеза отвергается на уровне значимости а. В этом случае мы не можем объединить две выборки в одну.

Рассмотрим пример исследования, использующего модель множественной регрессии.

Пример. РЫНОК квартир в Москве (см. Каргин, Онацкий, 1996). Данные для этого исследования собраны студентами РЭШ в 1994 и 1996 гг.

После проведенного анализа была выбрана логарифмическая форма модели, как более соответствующая данным:

LOG PRICE = (}0 + ALOGLIVSP + &LOGPLAN

+ &LOGKITSP + ftLOGDIST + &FLOOR + AjBRICK + frBAL + &LIFT + /JjRl + 01OR2 + 0nR3 + 0l2R4 + є. (*)

Здесь LOGPRICE — логарифм цены квартиры (в долл. США), LOGLIVSP — логарифм жилой площади (в кв. м), LOGPLAN — логарифм площади нежилых помещений (в кв. м), LOGKITSP — логарифм площади кухни (в кв. м), LOGDIST — логарифм расстояния от центра Москвы (в км). Включены также бинарные, «фиктивные» неременные (см. п. 4.2), принимающие значения 0 или 1: FLOOR — принимает значение 1, если квартира расположена на первом или на последнем этаже, BRICK — принимает значение 1, если квартира находится в кирпичном доме, BAL — принимает значение 1, если в квартире есть балкон, LIFT — принимает значение 1, если в доме есть лифт, R1 — принимает значение 1 для однокомнатных квартир и 0 для всех остальных, R2, R3, R4 — аналогичные переменные для двух-, трех- и четырехкомнатных квартир.

Результаты оценивания уравнения (*) для 464 наблюдений, относящихся к 1996 г., приведены в таблице 3.1.

Таблица 3.1 Переменная Коэффи Стандарт (-стати Р-значе- циент ная ошибка стика нис CONST 7.106 0.290 24.5 0.0000 LOGLIVSP 0.670 0.069 9.65 0.0000 LOGPLAN 0.431 0.049 8.71 0.0000 LOGKITSP 0.147 0.060 2.45 0.0148 LOGDIST -0.114 0.016 -7.11 0.0000 BRICK 0.134 0.024 5.67 0.0000 FLOOR -0.0686 0.021 -3.21 0.0014 LIFT 0.114 0.024 4.79 0.0000 BAL 0.042 0.020 2.08 0.0385 R1 0.214 0.109 1.957 0.0510 R2 0.140 0.080 1.75 0.0809 R3 0.164 0.060 2.74 0.0065 R4 0.169 0.054 3.11 0.0020 Яа=0.8921, Я^=0.8892, стандартная ошибка регрессии 0.2013

Из анализа t-статистик видно, что все коэффициенты, кроме коэффициентов при R1 и R2, значимы на 5%-ном уровне (см. (3.34)).

Коэффициент при LOGLFVSP, равный 0.67, означает, что увеличение жилой площади квартиры на 1% увеличивает ее цену на 0.67%. Иначе говоря, эластичность цены квартиры по жилой площади равна 0.67.

Несколько сложнее объяснить значение коэффициентов при LOGPLAN и LOGKITSP. Для их объяснения мы решили использовать следующий пример. Предположим, что есть две квартиры с одинаковой кухней, скажем 9 кв. м, но разными по площади остальными вспомогательными помещениями. Например, в первой квартире эта площадь равна 11 кв. м, а во второй 12 кв. м. Таким образом, во второй квартире общая площадь вспомогательных помещений (21 кв. м) на 5% больше, чем в первой. Такое увеличение площади, с фиксированной площадью кухни, в соответствии с нашей моделью должно привести к увеличению цены второй квартиры по сравнению с первой на 5 • 0.431 = 2.15%. Теперь представим себе, что имеется третья квартира с кухней 10 кв. м и площадью остальных вспомогательных помещений 11 кв. м. Общая площадь вспомогательных помещений в такой квартире, как и в предыдущем случае, 21 кв. м. Однако теперь мы ожидаем увеличение цены третьей квартиры по сравнению с первой квартирой на

5 ? 0.431 + 5-0.147 = 2.89%, то есть увеличение площади вспомогательных помещений за счет кухни приводит к большему увеличению цены квартиры, чем такое же увеличение за счет, скажем, коридора.

Отрицательное значение коэффициента при LOGDIST (-0.114) означает, что увеличение расстояния от центра города иа 1% уменьшает цену квартиры на 0.11%. Эксперты считают, что в действительности цена квартиры зависит также от «качества» района, в котором она расположена, а не только от ее расстояния от центра, однако влияние фактора «качества» не рассматривалось в данном исследовании.

Ниже (п. 4.2) мы вернемся к этому примеру для интерпретации коэффициентов при «фиктивных» переменных.

Существует мнение экспертов, что рынок квартир достаточно отчетливо делится на три сектора, рынок однокомнатных квартир, рынок квартир среднего размера (от 2 до 4 комнат) и рынок больших квартир. Для проверки этого утверждения тестируем с помощью F-статистики (3.39) гипотезу Но, что коэффициенты при R2, R3, R4 равны: /?ю = /Зц "> 0ц = 0ц- Получаем следующий результат:

F-статистика 0.22315 Р-значение 0.8001,

который показывает, что мы не можем отвергнуть гипотезу, что для квартир с числом комнат 2-4 формулы (*) расчета цены совпадают. Однако тестирование гипотезы Н0: 0$ = 0ю о совпадении формул для одно- и двухкомнатных квартир дает следующее значение F-статистики:

F-статистика 3.03188 Р-значение 0.0823,

С вероятностью ошибиться, меньшей 10%, можно отвергнуть гипотезу о совпадении формул (*) для одно- и двухкомнатных квартир.

<< | >>
Источник: Магнус Я.Р., Катышев П.К., Пересецкий АЛ. Эконометрика. Начальный курс: Учеб. — 6-е изд., перераб. и доп. — М.: Дело. — 576 с.. 2004

Еще по теме 3.5. Проверка гипотез. Доверительные интервалы и доверительные области:

  1. III. Можно ли проверить гипотезу с помощью проверки реалистичности ее предпосылок?
  2. Б. Использование «предпосылок» для косвенной проверки теории
  3. 2.5. Статистические свойства МНК-оценок параметров регрессии. Проверка гипотезы Ь = bo. Доверительные интервалы для коэффициентов регрессии
  4. 3.5. Проверка гипотез. Доверительные интервалы и доверительные области
  5. Упражнения
  6. Упражнения 4.1.
  7. 10.6. Проверка гипотез в линейной модели, I
  8. 3. Некоторые специальные распределения
  9. 6. Основные понятия и задачи математической статистики
  10. 8. Проверка гипотез
  11. Игры, позволяющие на практике научиться управлять общением и побеждать в любой дискуссии
  12. § 3. Этапы разработки гипотезы
  13. 2.4. Формулирование цели, гипотезы, определения задач, предмета и объекта исследования
  14. ПРОВЕРКА И СОВЕРШЕНСТВОВАНИЕ ТЕОРИИ
  15. Проверка гипотез, предсказывающих отклонение от закона обратных квадратов
  16. Приливные вариации силы тяжести: приборы, методы обработки данных, интерпретация
  17. Эмпирическая фальсификация: проверка гипотез
  18. 4.7. Обработка результатов прямых многократных измерений