<<
>>

2.6. Анализ вариации зависимой переменной в регрессии. Коэффициент детерминации R2 Анализ вариации зависимой переменной в регрессии

Рассмотрим вариацию (разброс) 23(yt — V)2 значений Yt вокруг среднего значения. Разобьем эту вариацию на две части: объясненную регрессионным уравнением и не объясненную (т.е. связанную с ошибками ?{).

Обозначим через Yt = a+bXt предсказанное значение Yt, тогда Yt-Y = (Yt- Yt) + {Yt - Y) (см.

рис. 2.5) и вариация Yt представляется в виде трех слагаемых:

В* - у)2 = Вг< - й)2+Ву< - F)2

+ (2.25)

Третье слагаемое в (2.25) равно нулю, так как у — у = е, - вектор остатков регрессии, ортогонален константе г и вектору х (см. j2J))_B самомделе, ?et(?t - Y) = ?et(o + bXt -Y) = (о + ЬХ — У) 23 е* + ^23 etxt = 0. Поэтому верно равенство

23(Уі - F)2 = ПЪ-Ъ)2 + UYt-Y)2. (2m

TSS ESS RSS K '

Замечание. Вектор остатков регрессии ортогонален константе, т.е. г'е = 23et = 0, вообще говоря, только в том случае, когда константа включена в число объясняющих параметров регрессии. Поэтому (2.26) справедливо, вообще говоря, только в случае, когда константа включена в число объясняющих параметров регрессии.

Обозначим левую часть в (2.26) через TSS (total sum of squares) — вся дисперсия, первое слагаемое в правой части, соответствующее не объясненной дисперсии, через ESS (error sum of squares), второе слагаемое в правой части — RSS (regression sum of squares) — объясненная часть всей дисперсии1.

Статистика R2 — коэффициент детерминации

Определение. Коэффициентом детерминации, или долей объясненной дисперсии, называется

Заметим, что второе равенство в (2.27) верно лишь в том случае, если верно (2.26), т.е. когда константа включена в уравнение регрессии. Только в этом случае имеет смысл рассматривать статистику

R2.

В силу определения R2 принимает значения между 0 и 1, О ^ R2 ^ 1. Если R2 = 0, то это означает, что регрессия ничего не дает, т. е. Xt не улучшает качество предсказания Yt по сравнению с тривиальным предсказанием Yt = 7.

'К сожалению, эти обозначения не унифицированы.

В некоторых книгах (см , например, Johnston, DiNardo, 1997) первое слагаемое в правой части (2.26) обозначается RSS (residual sum of squares), а второе — ESS (explained sum of squares).

Другой крайний случай Д2 = 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой (все et = 0).

Чем ближе к 1 значение Я2 тем лучше качество подгонки, у более точно аппроксимирует у. Ниже в главе 3, посвященной множественной регрессии, мы более подробно остановимся на вопросе о значении R2 при оценке качества регрессии.

Геометрическая интерпретация коэффициента R2

Вернемся к геометрической интерпретации регрессии из раздела 2.2. Вектор У г является ортогональной проекцией вектора у на вектор г. Вектор у есть ортогональная проекция вектора у на плоскость (г,х) (см. рис. 2.6). По теореме о трех перпендикулярах ортогональная проекция вектора у на вектор г совпадает с 7г. Равенство (2.26) является теоремой Пифагора для прямоугольного треугольника со сторонами у — Уг, у — У г, е, т.е. ||у - 7г||2 = ||е||2 + ||у - Уг||2. Поэтому R2 = RSS/TSS = cos2 где <р — угол между векторами (у - Уг) и (у - Уг).

Упражнение. Покажите, что R2 равен квадрату выборочного коэффициента корреляции между Yt и F-статистика

Снова предположим, что мы находимся в рамках нормальной линейной регрессионной модели. Из (2.17), (2.21) получаем

6-6 6-6 ЛГ/П ч = , ,

^ = 2). ол о*

Ранее мы показали, что s2 и Ь — независимые случайные величины, поэтому по определению распределений Фишера и х-квадрат (приложение МС, п. 3 (7,8)) получаем

(2.28)

Полученную F-статистику можно использовать для проверки нулевой гипотезы Но: Ь — bo = 0. При этой гипотезе статистика (2.28) выглядит следующим образом:

(229)

Если нулевая гипотеза справедлива, то значение F в (2.29) мало. Таким образом, мы отвергаем нулевую гипотезу, если F превосходит критическое значение Fa(l, п — 2) распределения Фише- рас параметрами (1, п —2) для выбранного уровня значимости а.

Статистика (2.29) особенно просто выглядит для гипотезы Но: 6 = 0 (случай отсутствия линейной функциональной связи между X и Y). Преобразуя числитель следующим образом:

= Efe)2 = = s'.s.,

получим (в векторных обозначениях для отклонений)

Замечание. Сравнивая (2.23) и (2.29), мы видим что F = t2, т.е. проверка гипотезы Но, используя t- и F-статистики, дает в данном случае (для одномерной регрессионной модели) тождественные результаты.

Нетрудно заметить, что, переписывая определение Л2-стати- стики (2.27) в отклонениях, получаем

Ц2 = Щ = -т%пг- (2-31)

У'л/. е'е + у,у.

Используя (2.30) и (2.31), получаем следующее соотношение, связывающее R2 и F-статистики:

F = (n-2)T^. (2.32)

Не удивительно, что малым значениям F (отсутствие значимой функциональной связи X и Y) соответствуют малые значения R2 (плохая аппроксимация данных).

<< | >>
Источник: Магнус Я.Р., Катышев П.К., Пересецкий АЛ. Эконометрика. Начальный курс: Учеб. — 6-е изд., перераб. и доп. — М.: Дело. — 576 с.. 2004

Еще по теме 2.6. Анализ вариации зависимой переменной в регрессии. Коэффициент детерминации R2 Анализ вариации зависимой переменной в регрессии:

  1. 3. Опыт пассивного и активного прогнозирования и анализ прогнозных параметров социально-экономического развития Грузинской ССР
  2. 2.6. Анализ вариации зависимой переменной в регрессии. Коэффициент детерминации R2 Анализ вариации зависимой переменной в регрессии
  3. 2.7. Оценка максимального правдоподобия коэффициентов регрессии Оценка максимального правдоподобия
  4. Упражнения 2.1.
  5. 3.4. Анализ вариации зависимой переменной в регрессии. Коэффициенты R2 и скорректированный
  6. 3.5. Проверка гипотез. Доверительные интервалы и доверительные области
  7. Упражнения
  8. 4.1. Мультиколлинеарность
  9. 4.3. Частная корреляция
  10. Процедура пошагового отбора переменных
  11. Включение несущественных переменных
  12. Упражнения 4.1.