<<
>>

ИЗМЕРЕНИЕ СВЯЗИ И ЗНАЧИМОСТИ ДЛЯ ИНТЕРВАЛЬНЫХ ПЕРЕМЕННЫХ

  Измерение связи между двумя интервальными переменными осуществляется посредством корреляции произведения моментов Пирсона (r), известной также как коэффициент корреляции. Этот коэффициент описывает силу и направление связей, используя те же принципы, что и ранее, – относительное ограничение ошибки в предположениях о значениях одной переменной на основе данных о значениях другой, хотя способ, которым это делается, равно как и тип данных, для которых предназначен этот коэффициент, гораздо более сложен, чем все другие, обсуждавшиеся нами ранее.
Здесь в отличие от использования среднего геометрического зависимой переменной (обозначаемой Y) для подсчета значений отдельных признаков используется ее геометрическая взаимосвязь с зависимой переменной (обозначаемой обычно X). Если точнее, мы основное внимание уделяем той помощи, которую может оказать уравнение линейной зависимости в определении значений Y на основе сведений о соответствующих значениях X.

Подсчет r начинается с изучения диаграммы рассеяния, графического изображения распределения случаев [c.426] по двум переменным, где горизонтальная линия, или ось X, шкалирована в единицах независимой переменной, а вертикальная линия, или ось У, шкалирована в единицах зависимой переменной и каждая точка представляет расположение одного случая относительно обеих переменных. Такая диаграмма представлена на рис. 15.3, где независимая переменная – это возраст, зависимая переменная – количество законченных лет обучения, а количество случаев равно 25. Так, заключенная в кружок точка представляет следующий случай: человек 30 лет, проучившийся 10 лет. На рисунке цифры взяты произвольно, но в практической работе значения должны определяться самим исследователем.

Рис. 15.3. Диаграмма рассеяния, показывающая взаимосвязь между возрастом и количеством лет обучения

Следующий шаг – провести через это множество точек прямую, которая называется линией регрессии, так, чтобы ни одна другая линия не смогла бы пройти ближе ко всем точкам (и хотя, как мы увидим, такие линии не определяют, просто глядя на картинку, ясно, что из всех прямых на рисунке – а, b и с – прямая b наиболее близка к такой линии).

Такая наиболее подходящая линия для двух взаимоувязанных переменных аналогична среднему геометрическому в одномерных описательных статистиках. Точно так же геометрическое представляет наиболее типичный случай в частотном распределении, линия регрессии представляет наиболее типичную связь между двумя переменными. Точно так же, как мы могли [c.427] использовать среднее геометрическое для определения значений переменной при отсутствии дополнительной информации, мы можем использовать линию регрессии для определения значений одной переменной на основании сведений о значениях другой. Если, например, нам известно значение X для данного случая, мы можем провести вертикаль от этой точки на оси до пересечения с линией регрессии, затем – горизонтальную линию до пересечения с осью Y. Точка пересечения с осью Y и даст предполагаемое значение Y.

Но точно так же, как среднегеометрическое может быть единственным наиболее типичным значением, но не очень хорошо при этом отражать распределение в целом, так и линия регрессии может наилучшим образом обобщать взаимозависимость двух переменных, но не быть при этом очень полезным обобщением. И соответственно так же, как мы используем стандартное отклонение (s) в качестве меры дисперсии или близости к среднему геометрическому, мы используем коэффициент корреляции, или более полно соответствующий требованиям интерпретации этот коэффициент, возведенный в квадрат (r2), в качестве меры близости различных точек, обозначающих наши данные, к линии регрессии. По сути дела, это мера того, насколько типично отражает эта линия обобщенное распределение значений по двум переменным. В тех случаях, когда все точки лежат точно на этой линии, как на рис. 15.4а и 15.4д, она наилучшим образом описывает взаимосвязь между двумя переменными. Если точки в целом сгруппированы в направлении, обозначенном линией, но не лежат точно на ней, как на рис. 15.4б и 15.4г, то линия представляет взаимосвязи между этими переменными лишь приблизительно. И если, как на [c.428] рис.

15.4в, не существует линии, которая расположена ближе к точкам, чем любая другая, между переменными не существует связи5.

Рис. 15.4. Линии регрессии при различных значениях r

Проблема, таким образом, имеет двойственный характер: во-первых, как выглядит эта наиболее подходящая линия? И во-вторых, насколько точно она отражает данные?

Вы, должно быть, помните из курса алгебры, что любая прямая имеет формулу:

Yi = a + bXi,

где а – значение Y при Х= 0,

b – коэффициент наклона прямой,

Х – соответствующее значение независимой переменной.

Линия регрессии (обычно обозначается Y’, чтобы показать, что это лишь приблизительное отражение истинного распределения) – это просто набор предполагаемых значений, выраженных в такой форме, которая является наилучшей для значения Y, основанных на знании значений X.

По причинам, которые мы здесь не будем обсуждать, коэффициент наклона прямой всегда будет выражаться формулой:

,

где Хi и Yi – соответствующие значения независимой и зависимой переменных для случая i, a и – соответствующие средние геометрические. Заметьте, что коэффициент b основан на разбросе отдельных случаев вокруг двух средних геометрических (т. е. на [Xi – ] и [Yi – ]). Применив эту формулу и используя схему, подобную той, которую мы применяли при подсчетах ?2, мы сможем определить угол наклона для любых взаимосвязей между двумя интервальными переменными. Этот способ показан в табл. 15.6 на примере данных использованных в рис. 15.3. Для этих данных= 37,08 и alt="" />= 12,88.

Подставив эти значения в уравнение, получим:

[c.429]

Таблица 15.6.

Значения, используемые для вычислений по уравнению регрессионной прямой

Хi (Хi – ) (Хi –)2 Yi (Yi – ) (Хi–)(Yi–)
30

30

30

30

30

31

31

31

33

33

35

35

35

36

36

37

40

40

40

42

42

50

50

50

50

Всего

–7,08

–7,08

–7,08

–7,08

–7,08

–6,08

–6,08

–6,08

–4,08

–4,08

–2,08

–2,08

–2,08

–1,08

–1,08

–0,08

2,92

2,92

2,92

4,92

4,92

12,92

12,92

12,92

12,92

0

50,13

50,13

50,13

50,13

50,13

36,97

36,97

36,97

16,85

16,65

4,33

4,33

4,33

1,17

1,17

0,01

8,53

8,53

8,53

24,21

24,21

166,93

166,93

166,93

166,93

1151,93

10

11

12

14

16

14

15

16

15

16

12

13

15

12

13

13

10

12

14

10

12

9

10

12

16

–2,88

–1,88

–0,88

1,12

3,12

1,12

2,12

3,12

2,12

3,12

–0,88

0,12

2,12

–0,88

0,12

0,12

–2,88

–0,88

1,12

–2,88

–0,88

–3,88

–2,88

–0,88

3,12

0

20,39

13,31

6,23

–7,93

–22,09

–6,81

–12,89

–18,99

–8,65

–12,73

1,83

–0,25

–4,41

0,95

–0,13

–0,01

–8,41

–2,57

3,27

–14,17

–4,33

–50,13

–37,21

–11,37

40,31

–136,39

При линейной зависимости, т. е.

такой, которая может быть представлена прямой линией, любое определенное изменение независимой переменной всегда вызывает определенное изменение значений зависимой переменной У. Более того, при таких зависимостях норма изменения постоянна, т. е. независимо от конкретных значений X и Y каждое изменение Х на единицу вызовет некоторое определенное изменение Y, размер которого определен степенью наклона линии регрессии. Зависимости, при которых небольшие изменения Х вызывают относительно [c.430] большие изменения Y, изображаются линиями, имеющими сравнительно крутой наклон (b1). Зависимости, при которых большие изменения X вызывают меньшие изменения Y, изображаются прямыми с относительно пологим наклоном (b). Зависимости, при которых изменение Х на единицу вызывает изменение Y на единицу, изображаются прямыми, для которых b=1. Прямые, направленные вверх слева направо, как на рис. 15.4а и 15.4б, имеют положительный наклон и представляют зависимости, в которых увеличение Х вызывает увеличение Y. Прямые, направленные вниз слева направо, как на рис. 15.4г и 15.4д, имеют отрицательный наклон и представляют зависимости, в которых увеличение X вызывает уменьшение Y. Ясно, что угол наклона прямой – это просто норма изменения переменной Y на единицу изменения переменной X, т.е. в нашем примере, где b=0,12, линия регрессии будет направлена вниз слева направо и, если обе переменные изображены в одном масштабе, будет относительно пологой.

Для того чтобы прийти к формуле, которую мы использовали для подсчета наклона линии регрессии, нам необходимо принять, что линия проходит через пересечение средних геометрических переменных и Y. Это – разумное допущение, поскольку средние геометрические представляют основную тенденцию этих переменных и поскольку мы, в сущности, ищем обобщенную или объединенную тенденцию. Если оба геометрических средних нам известны, а значение b определено, мы легко может найти значение а (точки, в которой линия регрессии пересекает ось Y) и решить уравнение.

Общее уравнение регрессии таково:

Y’= a + bXi,

а в точке, где линия регрессии проходит через пересечение двух средних геометрических, оно принимает вид:

= a + bХ.

Из этого следует, что

a = – b

Поскольку теперь мы знаем все нужные значения, мы можем определить, что [c.431]

а = 12,88–(–0,12)(37,08)= 12,88+4,45= 17,33.

Таким образом, уравнение регрессии, наилучшим образом подытоживающее распределение линии для данных, представленных на рис. 18.3, будет выглядеть так:

Y’ = 17,33–0,12Х.

Используя это уравнение, мы можем вычислить значение Y для любого конкретного значения.

Поскольку это уравнение решено, мы можем использовать коэффициент корреляции (r) для оценки репрезентативности линии регрессии. Формула rXY (коэффициента корреляции между X и Y) такова:

,

где Х – каждое значение независимой переменной (знак i применялся ранее для большей наглядности);

Y – каждое значение зависимой переменной;

N – количество признаков.

Хотя это утверждение, безусловно, не так уж очевидно, а его алгебраическое доказательство лежит за рамками нашей книги, эта рабочая формула получена из сравнения первичной ошибки в предполагаемых значениях Y с использованием alt="" />среднего геометрического частотного распределения с реальной ошибкой, получившейся в результате определения значений Y с использованием Y' (уравнения линии регрессии). Таким образом, процедура подсчета r аналогична той, которая использовалась для подсчета как l, так и G. Наилучшим образом ее дополнит построение таблицы такого типа, с которой мы уже знакомы; в ее колонках расположены значения X, Y, XY, X2 и Y2. Суммы, которые и нужны в уравнении, расположены в графе итого. Так, для данных, представленных на рис. 15.3, для которых мы уже определили линию регрессии, такой схемой будет табл. 15.7. [c.432]

Таблица 15.7

Значения, используемые при определении коэффициента корреляции (r)

х у ху х2 у2
30

30

30

30

30

31

31

31

33

33

35

35

35

36

36

37

40

40

40

42

42

50

50

50

50

Итого 927

10

11

12

14

16

14

15

16

15

16

12

13

15

12

13

13

10

12

14

10

12

9

10

12

16

322

300

330

360

420

480

434

465

496

495

528

420

455

525

432

468

481

400

480

360

420

504

450

500

600

800

11803

900

900

900

900

900

961

961

961

1089

1089

1225

1225

1225

1296

1296

1369

1600

1600

1600

1764

1764

2500

2500

2500

2500

35525

100

121

144

196

256

196

225

256

225

256

144

169

225

144

169

169

100

144

196

100

144

81

100

144

256

4260

Мы подставляем итоговые значения в уравнение:

Это говорит нам о том, что наклон у линии регрессии отрицательный (что мы уже, собственно, знали) и что точки [c.433] группируются вокруг нее в ступени от слабой до умеренной (поскольку г изменяется в пределах от +1 до –1 с минимальной связью при r=0).

К сожалению, сам коэффициент r интерпретировать нелегко. Можно, однако, интерпретировать r2 как степень уменьшения ошибки в определении Y на основании значений X, т. е. доля значений Y, которые определяются (или могут быть объяснены) на основе Х. r2 обычно представляют как процентную долю объясненных значений, тогда как (1– r2) – долю необьясненных значений. Так, в нашем примере r значением –0,38 означает, что для тех случаев, которые мы анализируем, разброс независимой переменной составляет (–0,38)2, или около 14%, значений зависимой переменной год обучения.

По причинам, которые находятся за рамками настоящего разговора, определить статистическую значимость г можно только в том случае, если обе – и зависимая и независимая – переменные нормально распределены. Это можно сделать, используя табл. А.5 в Приложении А, для чего нужны следующие сведения. Во-первых, сам коэффициент г, который, конечно, известен. Во-вторых, аналогично подсчету ?2 количество степеней свободы линии регрессии. Поскольку прямую определяют любые две точки (в нашем случае пресечение и – первая точка, и пересечение с осью Y – вторая), все другие точки, обозначающие данные, могут располагаться произвольно, так что df всегда будет равно (N–2), где N – количество случаев или признаков. Таким образом, для того чтобы воспользоваться таблицей, нужно определить примерное количество степеней свободы (в нашем примере N–2 = 25–2 = 23) и желательный уровень значимости (например, 0,05) так же, как мы делали для нахождения ?2, определить пороговое значение r, необходимое для достижения данного уровня значимости, и все подсчитать. (В нашем примере это значит, что мы интерполируем значения в таблице между df=20 и df=25. Для df=23 это будут следующие значения: 0,3379; 0,3976; 0,5069; 0,6194 соответственно.) Таким образом, r=–0,38 статистически значим на уровне 0,10 (он превышает 0,3379), но не на уровне 0,05 (он не превышает 0,3976). Интерпретация этого результата та же, что и в других случаях измерения статистической значимости. [c.436]

<< | >>
Источник: Мангейм Дж. Б., Рич Р. К.. Политология. Методы исследования.. 1997

Еще по теме ИЗМЕРЕНИЕ СВЯЗИ И ЗНАЧИМОСТИ ДЛЯ ИНТЕРВАЛЬНЫХ ПЕРЕМЕННЫХ:

  1. 7.1. Понятие рейтинга и рейтингового замера в социологии
  2. Общие принципы
  3. ТИПЫ ИЗМЕРИТЕЛЬНЫХ ШКАЛ
  4. ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТАЛЬНОГО ИССЛЕДОВАНИЯ
  5. ИЗМЕРЕНИЕ СВЯЗИ И СТАТИСТИЧЕСКОЙ ЗНАЧИМОСТИ
  6. ИЗМЕРЕНИЕ СВЯЗИ И ЗНАЧИМОСТИ ДЛЯ ИНТЕРВАЛЬНЫХ ПЕРЕМЕННЫХ
  7. РЕШЕНИЕ ОБЩИХ ПРОБЛЕМ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
  8. СЛОВАРЬ ТЕРМИНОВ
  9. Приложение 3. Об измерениях и анализе эмпирических данных
  10. Приложение В КРАТКИЙ СЛОВАРЬ МАТЕМАТИЧЕСКИХ ТЕРМИНОВ
  11. §3. Динамика формирования эколого-профессиональной компетентности студентов гуманитарного вуза в результате эксперимента
  12. 1.7. МЕТОДОЛОГИЯ ИЗМЕРЕНИЙ
  13. 1.8. СТАТИСТИЧЕСКИЙ МЕТОД: ОТ ФАКТОВ К ЭМПИРИЧЕСКИМ ЗАКОНАМ