4.4. Спецификация модели
у = Х/3 + е, (4.10)
и выполнены условия 1-3 п. 3.1. При этом часто говорят, что соотношение (4.10) описывает «процесс, порождающий данные» или что (4.10) является «истинной моделью». Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. (Напомним, что сам выбор регрессоров называется спецификацией модели.) Поэтому возникает естественный вопрос соотношения между МНК-оценками параметров в истинной и выбранной моделях. Мы рассмотрим две, в определенном смысле противоположные, ситуации: в оцениваемой модели отсутствует часть независимых переменных, имеющихся в истинной модели (исключение существенных переменных); в оцениваемой модели присутствуют независимые переменные, которых нет в истинной модели (включение несущественных переменных).
Итак, будем изучать два основных случая.
Случай 1. Исключены существенные переменные.
Процесс, порождающий данные: у = X/S+Z-y+e. (4.11а) Модель: у = Хр + е. (4.116)
Случай 2. Включены несущественные переменные.
Процесс, порождающий данные: у = Х/3 + е. (4.12а)
Модель: у = Xp+Z-r+e. (4.126)
Здесь X — п х к матрица; Z — пх I матрица; у — пх 1 вектор наблюдений зависимой переменной; Р — к х 1, у — 1x1 векторы коэффициентов. Часто регрессию (4.11а) называют длинной, а регрессию (4.116) — короткой. Исключение существенных переменных
Напомним, что МНК-оценка вектора параметров Р для модели (4.116) (в короткой регрессии) имеет вид (см. (3.4)):
POLs=P = (X'X)-lX'y.
Р
L7*
(4.13)
МНК-оценку вектора коэффици
Обозначим также 6 =
ентов S =
в длинной регрессии (в истинной модели) (4.11а).
Учитывая (4.11а), получаем (ср. (3.7), (3.8)):Ер = (Х'Х)~1Х'Е у = р + (X'X)-lX'Zi, (4.14) V(p) = <т2{Х'Х)~1.
Из (4.14) видно, что оценка Р, вообще говоря, смещена за исключением двух случаев:
а) 7 = О (очевидный случай) и
XX о О Z'Z
[X Z]' [X Z] = [X Z] =
[pr zy[x *]]-' = [<*'*>-' (г,»г1],
б) X'Z = 0 (ортогональность регрессоров X и Z). Рассмотрим эту ситуацию более подробно. Имеем:
Таким образом, /3 = (3 , т. е. МНК-оценки вектора /3, полученные в длинной и короткой регрессиях, совпадают. (Если пользоваться геометрической интерпретацией, то содержательно полученный результат выражает хорошо известную теорему о трех пер пендикулярах.)
Сумма квадратов остатков вычисляется по формуле (см. (3.11), (3.20))
ESS = у'My, М = I-Х{Х'Х)~1Х'.
Так как MX = О, то, согласно известным формулам (см. приложение МС, п. 4, N8), получаем:
E(ESS) = Е {у'My) = Е {{Хр + Z7 + е)'М(Хр + Z7 + є)) = Е {є'Мє + 2-r'Z'Me + -r'Z'MZf) = а2(п - к) + 7'Z'MZ-y. (4.15)
Последнее слагаемое в (4.15) неотрицательно при любом 7, поскольку Z'MZ = Z'M2Z = (MZ)'(MZ), т.е. матрица Z'MZ неотрицательно определена. Таким образом, оценка s2 = а2 = е'е/(п — к) = $3et/(n — является, вообще говоря, смещенной оценкой дисперсии а2: Е(а2) > а2.
Заметим, что если X'Z = О, то оценка /3 несмещена, но оценка а2 по-прежнему смещена:
Е(Э2) =а2 + —L-7'Z'Z7 > а2.
п — к
Отметим, что так как а2 участвует во многих статистических тестах, то в этом случае можно получить ложные выводы.
Сравним теперь ковариационные матрицы оценок /3 и /3 . Из (4.13) следует, что
\ф) = а2{Х'Х)~\ (4.16)
а ковариационная матрица вектора /3 есть левый верхний квадратный блок размера к матрицы V(5*) = cr2([X Z\'\Х Z])-1. Вспоминая правило обращения блочных матриц (см. приложение
JIA, п. 17), получаем
V0') = а2(Х'Х - X'ZiZ'Z^Z'X)-1. (4.17) Поэтому в силу (4.16) и (4.17)
(v(3))_1 - (v(3*))~! = ^x'z(zrz)~1z'x > о.
Это, в свою очередь, означает, что У((3 ) > V(/3). Иными словами, оценка, полученная в короткой регрессии, в общем случае смещена, но обладает меньшей вариацией.
Для наглядности рассмотрим простейший случай к = I = 1, т. е. предположим, что длинная регрессия есть
У = Х0 + Z-Y + є
(мы здесь предполагаем, что у = х = z = 0),а короткая —
у = х/3 +є,
где у, х, z, є — п х 1 векторы, /?, 7 — скаляры. Тогда (см. (2.6))
3 х'у х'(х/3 + zj + є) x'z х'є Р = -г- = -, = Р Н—7 +
««им л»' «м ЛІ' f f'f
W «І/ MS м МУ МУ Му МУ
и
x'x
При этом
= VP).-*-,., (4.18)
где г — выборочный коэффициент корреляции между X И Z.
Еще по теме 4.4. Спецификация модели:
- 12.2 Аналитические модели объяснения
- 4.1 СЕМАНТИЧЕСКИЕ МОДЕЛИ ДАННЫХ
- 1.4.2 Сетевая модель
- Предисловие к первому изданию
- 2.3. Линейная регрессионная модель с двумя переменными
- Основные гипотезы
- Процедура пошагового отбора переменных
- 4.4. Спецификация модели
- Тест на функциональную форму
- Упражнения 4.1.
- Замечание
- 11.5. GARCH модели
- 12.1. Модели бинарного и множественного выбора
- 12.2. Модели с урезанными и цензурированными выборками
- 13.6. Выбор модели
- 16.6. Эконометрический метод