4.1. Мультиколлинеарность
Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы регрессоров X или (эквивалентно) что матрица (Х'Х)-1 имеет полный ранг к.
При нарушении этого условия, т.е. когда один из столбцов матрицы X есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку параметра /3, что формально следует из сингулярности матрицы Х'Х и невозможности решить нормальные уравнения. Нетрудно также понять и содержательный смысл этого явления. Рассмотрим следующий простой пример регрессии (Greene, 1997): С =? 0i + fhS + faN + (34Т + є, где С — потребление, S — зарплата, N — доход, получаемый вне работы, Т — полный доход. Поскольку выполнено равенство Т = S + N, то для произвольного числа h исходную регрессию можно переписать в следующем виде: С = 0i+ 0'2S+0'^N+0'^Т+є, где = 02 + h, /З3 = 0з + h, (УА = 04 - h. Таким образом, одни и те же наблюдения могут быть объяснены различными наборами коэффициентов /3. Эта ситуация тесно связана с проблемой идентифицируемости системы, о чем более подробно будет говориться позднее. Кроме того, если с учетом равенства Т = S + N переписать исходную систему в виде С = 01 + (02 + 04)S + (03 + 04)N + є, то становится ясно, что оценить можно лишь три параметра 0\, (02 + 04) и (0з + 04), а не четыре исходных. В общем случае можно показать, что если rank(X'X) = I < к, то оценить можно только I линейных комбинаций исходных коэффициентов. Если есть полная коллинеарность, то можно выделить в матрице X максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица X имеет полный ранг, но между регрес- сорами имеется высокая степень корреляции, т.е.
когда матрица Х'Х, говоря нестрого, близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка формально существует, но обладает «плохими» свойствами. Это нетрудно объяснить, используя геометрическую интерпретацию метода наименьших квадратов. Как уже отмечалось, регрессию можно рассматривать как проекцию в пространстве IVх вектора у на подпространство, порожденное столбцами матрицы X. Если между этими векторами существует приблизительная линейная зависимость, то операция проектирования становится неустойчивой: небольшое изменение в исходных данных может привести к существенному изменению оценок. Рисунок 4.1 наглядно это демонстрирует. Векторы у и у' мало отличаются друг от друга, но всилу того, что угол между векторами (регрессорами) х\ и х2 мал, разложения проекций этих векторов по х\ и х2 отличаются значительно. У проекции вектора у оба коэффициента разложения по х\ и ®2 (напомним, что это и есть МНК-оценки) положительны и относительно невелики. У проекции вектора у' коэффициент при Xi принимает большое отрицательное значение. В силу этого обстоятельства интерпретация коэффициентов регрессии становится весьма проблематичной.
Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой.
Выделим некоторые наиболее характерные признаки мульти- коллинеарности. 1.
Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели. 2.
Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации і?2 и соответствующей F-статистики). 3.
Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.
Что же делать, если по всем признакам имеется мультиколлинеарность? Однозначного ответа на этот вопрос нет, и среди эконометристов есть разные мнения на этот счет.
Существует даже такая школа, представители которой считают, что и не нужно ничего делать, поскольку «так устроен мир» (см. Kennedy, 1992). Мы здесь не ставим цель дать достаточно полное описание методов борьбы с мультиколлинеарностью. Более подробно об этом можно прочесть, например, в (Greene, 1997, глава 9). У неискушенного исследователя при столкновении с проблемой мультиколлинеарности может возникнуть естественное желание отбросить «лишние» независимые переменные, которые, возможно, служат ее причиной. Однако следует помнить, что при этом могут возникнуть новые трудности. Во-первых, далеко не всегда ясно, какие переменные являются лишними в указанном смысле. Мультиколлинеарность означает лишь приблизительную линейную зависимость между столбцами матрицы X, но это не всегда выделяет «лишние» переменные. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, как будет показано в п. 4.4, отбрасывание так называемых существенных переменных, т. е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, приводит к смещенности МНК-оценок.
Еще по теме 4.1. Мультиколлинеарность:
- Предисловие к первому изданию
- 4.1. Мультиколлинеарность
- Включение несущественных переменных
- Упражнения 4.1.
- 11.1. Модели распределенных лагов
- Краткий англо-русский словарь терминов
- Предметный указатель
- Влияние на экономический рост
- РЕШЕНИЕ ОБЩИХ ПРОБЛЕМ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
- СЛОВАРЬ ТЕРМИНОВ
- Приложение В КРАТКИЙ СЛОВАРЬ МАТЕМАТИЧЕСКИХ ТЕРМИНОВ
- СПИСОК ЛИТЕРАТУРЫ
- 4.2.3.1 Коллинеарность и мультиколлинеарность