3.4. Анализ вариации зависимой переменной в регрессии. Коэффициенты R2 и скорректированный
1>-й2=?<»-»>2
+ - у)2 + 2 5>t - ш)(ш - У), (3.23)
или в векторной форме:
(У - Т/г)'(У ~ У г) = (У ~ У)'(У ~У) + (У~ У«)'(У - У»)
+ 2(у-у)'(у-у«). (3.24)
Третье слагаемое в (3.24) равно нулю в случае, если константа, т.е. вектор t = (1,...,1)', принадлежит линейной оболочке векторов xi,..., В самом деле,
(У " У )'(У " Vt) = е'{Хр - у«) = е'Х0 - уе'г = О,
т. к. в силу (3.5) е'Х = О и е = е'г/п = 0. Поэтому верно равенство
НУ - !7«Н2 = НУ - У112 + НУ - !/«Н2- (3.25)
TSS ESS RSS
Записывая (3.25) в отклонениях у„ = у-уг\ у» =у-уг\ опять получим теорему Пифагора:
у'фу. = е'е + у'Л/.. (3.26)
Как и ранее в (2.27), определим коэффициент детерминации R2 как
R -1 TSS"1 У^У» ~~ УІУ» ~~TSS' (327)
Отметим, что коэффициент R2 корректно определен только в том случае, если константа, т.е. вектор г = (1,...,1)', принадлежит линейной оболочке векторов ®1,. . . В этом случае
R2
принимает значения из интервала [0,1].
Коэффициент R2 показывает качество подгонки регрессионной модели к наблюденным значениям yt.
Если R2 = 0, то регрессия у на ®i,..., Хк не улучшает качество предсказания yt по сравнению с тривиальным предсказанием
Ш = У-
Другой крайний случай
R2 = 1 означает точную подгонку: все et = 0, т. е. все точки наблюдений удовлетворяют уравнению регрессии.
В какой степени допустимо использовать критерий R2 для выбора между несколькими регрессионными уравнениями? Следующие два замечания побуждают не полагаться только на значение R2. 1.
R2, вообще говоря, возрастает при добавлении еще одного регрессора.
Если взять число регрессоров равным числу наблюдений, всегда можно добиться того, что R2 = 1, но это вовсе не будет означать наличие содержательной (имеющей экономический смысл) зависимости у от регрессоров.
Попыткой устранить эффект, связанный с ростом R2 при возрастании числа регрессоров, является коррекция R2 на число регрессоров.
Скорректированным (adjusted) R2 называется^ У*У*/(п - 1)
Заметим, что нет никакого существенного оправдания именно такого способа коррекции.
Свойства скорректированного
R2: 2.
R2 > Д^, k > 1. 3.
< 1, но может принимать значения < 0.
В определенной степени использование скорректированного коэффициента детерминации R^ более корректно для сравнения регрессий при изменении количества регрессоров.
Например, рассмотрим две модели: 1.
у = Х0 + є. 2.
z = у — х\ = Х'у + є.
Строятся МНК-оценки параметров /9 и 7 обеих моделей.
Для первой модели коэффициент детерминации R2 равен
«?i-^V е = МУ' М = 1-Х(Х'Х)-1Х'. (3.29)
Подсчитаем коэффициент детерминации R2 для второй модели. Обозначим 6 = (1,0,... ,0)' — вектор-столбец; тогда Х6 — х\. Матрица М одна и та же для обеих моделей, так как в них один и тот же набор регрессоров. Остатки во второй модели равны
е = Mz = М(у — Хб) = My - МХ6 = My = е
(мы использовали (3.14)). Таким образом, остатки в обеих моделях совпадают.
(3.29) и (3.30) отличаются только знаменателями у',у„ и z'„z«. = (У. ~ ®і.)'(У. - = УІУ. - 2y'.®i. + (3.31)
(Здесь у. = Ay, z, = Az, ®і» = і4®ь где А — n х п матрица взятия отклонения си1 среднего, А = I - ч'/п). Из (3.31) видно, что коэффициенты детерминации, вообще говоря, не совпадают. Оценки коэффициентов двух регрессий связаны естественным соотношением:
7 = (X'X)~lX'z = (Х'Х)-1 Xі{у - Хб) = Ъ ~ 8,
т.е. фактически обоим уравнениям соответствует одна и та же геометрическая картинка и экономически содержательная ситуация. Однако коэффициенты R2 не совпадают только потому, что зависимость сформулирована в разных координатах.
Что «лучше»: у или у?
В качестве значений зависимой переменной в момент t мы можем использовать yt или, например, прогноз yt. Матрица ковариаций вектора у по условию модели равна V(y) = а21п. Матрица ковариаций вектора прогноза равна
V(y) = W(Ne) = V(y) - У (у) = V(y) - У (у) = <т2М > 0, или V(y)?V(y). (3.32)
Из (3.32) следует аналогичное неравенство для дисперсий наблюденных и предсказанных значений
V(yt) ^ V(yt). (3.33)
Таким образом, как это ни парадоксально, в качестве значения зависимой переменной зачастую лучше брать предсказанное по модели значение, а не фактически наблюденное. При этом, естественно, предполагается, что наблюдаемые значения yt действительно удовлетворяют соотношению у = X/3+є, т.е. порождаются рассматриваемой моделью.
Еще по теме 3.4. Анализ вариации зависимой переменной в регрессии. Коэффициенты R2 и скорректированный:
- § 4. Планирование фондоотдачи и анализ использования основных производственных фондов
- 2.8. ЗАВИСИМОСТЬ МЕЖДУ СБЕРЕЖЕНИЯМИ И КАПИТАЛОВЛОЖЕНИЯМИ
- 3.2.2. Анализ трудовых ресурсов предприятия
- 3.3. Анализ и управление затратами и себестоимостью продукции
- 2.3. Линейная регрессионная модель с двумя переменными
- 2.5. Статистические свойства МНК-оценок параметров регрессии. Проверка гипотезы Ь = bo. Доверительные интервалы для коэффициентов регрессии
- 2.6. Анализ вариации зависимой переменной в регрессии. Коэффициент детерминации R2 Анализ вариации зависимой переменной в регрессии
- Упражнения 2.1.
- 3.4. Анализ вариации зависимой переменной в регрессии. Коэффициенты R2 и скорректированный
- 4.2. Фиктивные переменные
- Процедура пошагового отбора переменных
- Дискретные зависимые переменные и цензурированные выборки
- 13.5. Качество подгонки