4.2.3 Корреляционный, регрессионный и дисперсионный анализ
В экономических исследованиях между совокупностью взаимосвязанных факторов почти не бывает функциональных связей. Если при изучении физических, химических и иных процессов удается постичь какую-то зависимость и выразить ее количественно, то это положение можно повторить, всегда получая одинаковый результат.
При изучении общественных явлений на место строгих функциональных связей приходят зависимости, имеющие менее выраженный, подчас размытый характер. Объясняется это тем, что экономические и социальные связи людей между собой, по отношению к природе и средствам производства, весьма многосторонни. Даже качественный анализ не всегда позволяет установить в полной мере перечень всех факторов, влияющих на конечный экономический результат. Значительную пользу в этих условиях приносят исследования с помощью корреляционного, регрессионного и дисперсионного методов. Эти приемы позволяют установить формы зависимостей, тесноту связей между искомыми величинами, ошибку отклонения и др. В конечном счете, они позволяют установить наличие связи между анализируемыми признаками. Если такая связь имеется, то удается выявить ее форму, вычислить формулу и т.д. Все это имеет исключительно важное значение не только для анализа сложившихся, но и для прогнозирования будущих связей.Рассмотрим простейший пример, который позволит уяснить разницу между функциональной и корреляционной связью. Допустим, что необходимо определить зависимость между размерами землепользований и прибылью хозяйств. Данные вынесены на график 4.1.
площадь | 20 | 21 | 26 | 32 | 38 | 41 | 43 |
прибыль | 80 | 90 | 82 | 88 | 92 | 96 | 105 |
Рис. 4.1 Размеры землепользований и прибыль
Анализ данных графика показывает, что с увеличением размеров землепользований растут доходы хозяйств.
Форма связи очень близка к прямой. Однако очевидно, что невозможно подыскать такую прямую, на которой разместились бы все точки. В этом принципиальное отличие корреляционной связи от функциональной.Корреляция может быть определена между двумя признаками, тогда она называется парной. Связь может быть найдена между несколькими признаками, в этом случае она называется множественной. Форма связи может быть прямой или криволинейной. Теснота связи определяется с помощью коэффициента корреляции, который меняется от 0 до
1. Чем ближе его значение к единице, тем ближе связь к функциональной.
Коэффициент корреляции 0,15 свидетельствует об отсутствии связи между признаками. Плохая связь характеризуется коэффициентом корреляции от
0,16 до
0,25, слабая связь от
0,26 до
0,40, средняя от
0,41 до
0,60, высокая от
0,61 до
0,80, очень высокая от
0,81 до
0,90, полная связь от
0,91 до 1,0[44].
Порядок проведения корреляционного анализа следующий:
а) уточняется цель анализа и исходные данные;
б) строится график (корреляционное поле); если объем информации велик, построение графика не производится;
в) по графику определяют форму связи;
г) в специальных таблицах выписывают исходные данные (величина х, у, z и т.д.) и производят ряд дополнительных расчетов;
д) вычисляют коэффициенты корреляции (парные, частные, множественные);
е) определяют надежность коэффициента корреляции;
ж) рассчитывают уравнение регрессии.
В качестве примера приводим исчисление коэффициента прямолинейной корреляции между валовым выходом с/х продукции в 1000 рублей на 1000 га – баллов и плотностью сел на 10000 га приведенной пашни (табл. 4.10), где х – валовой выход с/х продукции в 1000 рублей на 1000 га – баллов, у – плотность сел на 10000 га приведенной пашни, п – численность ряда.
Таблица 4.10 Вычисление корреляционной связи
n | x | y | xy | x2 | y2 |
1 | 1580 | 2,66 | 4204,80 | 2496400 | 7,08 |
2 | 1090 | 1,09 | 1188,10 | 1188100 | 1,18 |
3 | 1120 | 0,94 | 1052,80 | 1254400 | 0,88 |
4 | 1060 | 0,73 | 773,80 | 1123600 | 0,53 |
5 | 1460 | 0,34 | 496,40 | 2131600 | 0,12 |
6 | 810 | 1,25 | 1012,50 | 566100 | 1,56 |
7 | 950 | 0,24 | 228,00 | 902500 | 0,06 |
8 | 1180 | 1,17 | 138060 | 1392400 | 1,37 |
9 | 840 | 1,33 | 1117,20 | 705600 | 1,77 |
10 | 790 | 0,90 | 711,00 | 624100 | 0,81 |
11 | 1610 | 1,55 | 2495,50 | 2592100 | 2,40 |
12 | 1520 | 1,16 | 1763,20 | 2310400 | 1,35 |
13 | 1220 | 1,67 | 2037,40 | 1488400 | 2,79 |
14 | 1120 | 1,15 | 1288,00 | 1254400 | 1,32 |
15 | 1260 | 0,94 | 1184,40 | 1587600 | 0,88 |
16 | 1370 | 1,54 | 2084,40 | 1876900 | 2,31 |
17 | 1080 | 0,81 | 874,80 | 1166400 | 0,66 |
18 | 930 | 1,50 | 1395,00 | 864900 | 2,25 |
19 | 1140 | 0,94 | 1071,60 | 1299600 | 0,88 |
20 | 1720 | 1,50 | 2580,00 | 2958400 | 2,25 |
21 | 1670 | 1,67 | 2788,90 | 2788900 | 2,79 |
22 | 585 | 0,666 | 391,95 | 342225 | 0,45 |
23 | 690 | 0,34 | 234,60 | 476100 | 0,12 |
24 | 860 | 0,67 | 576,20 | 739600 | 0,45 |
25 | 1340 | 0,751 | 1005,00 | 1795600 | 0,56 |
26 | 1280 | 1,01 | 1292,80 | 1638400 | 1,02 |
n=26 | Σx=30275 | Σy=28,49 | Σxy=35234,9 | Σx2=37654725 | Σy2=37,84 |
Находим суммы х и у, сумму произведения ху и сумму квадратов х2 и у2.
Рассчитываем коэффициент корреляции по следующей формуле[45]:
Как видно из примера, расчет коэффициента корреляции на основе индивидуальных данных равен 0,66, что говорит о высокой связи между признаками.
Степень надежности коэффициента корреляции определяется по величине , т.е. по соотношению между коэффициентом корреляции и его ошибкой. Средняя ошибка коэффициента корреляции
находится из формулы
, где r – коэффициент корреляции, n – численность ряда
В нашем случае
Критерий достоверности должен превышать величину 3,0, если число наблюдений больше 50. Коэффициент корреляции должен рассматриваться вместе со своей ошибкой
. В данном примере
. В этом случае минимальное значение
и максимальное значение
.
Рассмотренный нами прием корреляционного анализа сводился, в конечном счете, к установлению связи и определению степени ее достоверности между двумя переменными. В то же время при проведении научно-исследовательских и опытных работ часто приходится сталкиваться с изучением статистических связей между большими числами изменяющихся показателей или признаков.
Исследование таких многосторонних статистических связей между несколькими величинами и составляет основной предмет теории множественной корреляции.
Остановимся на примере линейной связи между тремя переменными величинами x,y и z:
где х – себестоимость зерна в тенге;
у – себестоимость говядины в тенге;
z – количество отделений в 1 хозяйстве.
Из таблицы 4.11 видно, как меняется себестоимость зерна (х) и говядины (у) от количества отделений (z). Для нахождения парных коэффициентов корреляции вычислим суммы отклонений , суммы произведений
и квадратов
Парные коэффициенты корреляции ,
,
.
находим по формулам:
В качестве меры тесноты сложной линейной связи между z, x и y служит так называемый сводный коэффициент корреляции, определяемый по формуле:
Величина этого сводного коэффициента корреляции всегда положительная и заключается также в пределах между 0 и 1.
В нашем примере:
=-0,24, связь между себестоимостью зерна и плотностью отделений отрицательная, т.е.
=-0,78, связь между себестоимостью говядины и плотностью отделений высокая.
Теснота связи между тремя признаками в нашем случае выражается коэффициентом множественной корреляции , что говорит об очень высокой связи. Степень достоверности
получилась равной 18,2.
Помимо парных коэффициентов корреляции можно найти так называемые частные коэффициенты корреляции. Они характеризуют степень связи двух факторов при исключении влияния других. Так при анализе трехфакторной связи множественный коэффициент корреляции показывает степень влияния двух факторов на третий, парные – степень влияния одного фактора на другой, частные – степень влияния одного фактора на другой при исключении влияния третьего фактора.
Расчет частных (парциальных) коэффициентов корреляции производится по формуле:
Здесь означает, что определяется связь между y и x при исключении влияния z. В нашем примере:
Проведен анализ корреляционной зависимости себестоимости зерна, говядины и валового выхода продукции на 100 га с/х угодий и приведенной пашни от количества населенных пунктов и отделений по зерновым совхозам Целиноградской области (табл. 4.12)
Для зерновых совхозов Целиноградской области основной задачей является производство дешевого зерна и говядины. Попытаемся показать совокупное влияние расселения и организационно-хозяйственного устройства зерновых совхозов на себестоимость зерна и говядины (табл. 4.13).
Таким образом, множественная корреляция между числом населенных мест, отделений и себестоимостью продукции высока.
Эмпирическая линия регрессии представляет собой ломаную линию, соединяющую ряд точек. Последние получают на графике, откладывая соответствующие значения по оси абсцисс и ординат. В связи с изменением одного фактора другой меняется самым различным образом. Иногда ломаная линия приближается по своему начертанию к прямой, иногда – к гиперболе и т.д. Для вычисления уравнения связи и поиска теоретической линии регрессии необходимо определить вид кривой (прямой) и найти ее математическое описание.
Уравнение прямой можно рассчитать путем решения системы нормальных уравнений с помощью способа наименьших квадратов:
Здесь - число наблюдений;
- сумма значений факториального признака;
- сумма значений результативного признака.
Параболическая зависимость типа
может быть найдена путем решения следующей системы:
Уравнение гиперболы находят, решая следующую систему:
Рассмотрим пример по определению зависимости между удоями коров и радиусами перегона животных.
Определение зависимости между двумя величинами начинают с построения графика; в нашем примере х – радиус водопоя (км), у – удой молока.
|

Рис. 4.2 График зависимости удоев
от расстояния перегонов коров
Из графика видно, что зависимость обратная, т.е. при увеличении радиуса водопоя удой молока уменьшается. Зависимость такого типа выражается уравнением прямой вида
Параметры уравнения прямой линии и
находятся путем решения системы нормальных уравнений, получаемых по способу наименьших квадратов.
Исходные данные приведены в табл. 4.14, здесь же сделаны последующие расчеты.
Таблица 4.14 Определение зависимости между радиусами водопоя и удоями коров
Радиус водопоя в км, х | Удой молока в %, у | х2 | ху | ух=115,6-13,5х |
1 | 100,0 | 1 | 100,0 | 102,1 |
2 | 89,4 | 4 | 178,8 | 88,6 |
2,5 | 86,1 | 6,25 | 215,25 | 81,9 |
3,5 | 65,6 | 12,25 | 229,6 | 68,3 |
Σ=9 | 341,1 | 23,5 | 723,65 | 340,9 |
![]() |
Средние квадратические отклонения вычисляются по формуле:
Средние абсолютные отклонения вычисляются по формуле:
Коэффициент корреляции вычисляется по формуле:
Связь – прямая, тесная. Полученным уравнением у =115,6-13,5х можно пользоваться для нахождения промежуточных значений у и при увеличении х до 5 км.
Вернемся еще раз к коэффициенту корреляции. Для оценки надежности полученного коэффициента определяют его погрешность по формуле:
Гарантийный минимум находится по формуле: и равен 0,975-0,0375=0,94 или 94%. Максимум равен 0,975+0,0375=1,01 или 101%. Если число наблюдений превышает 50, то находится отношение
и если величина этого отношения превышает 3, то можно считать, что полученный коэффициент корреляции отображает истинное положение вещей.
Еще по теме 4.2.3 Корреляционный, регрессионный и дисперсионный анализ:
- § 1. Анализ ритмичности производства буровых работ на воду
- 2.2. Факторы, определяющие состояние человеческих ресурсов в малых городах Тамбовской области
- Корреляционное исследование
- Альтернативы и более сложные варианты дисперсионного анализа
- Мультивариантный дисперсионный анализ
- Общие принципы
- Манипулирование в условиях профессионально-педагогической деятельности Э. А. Щеглова (Томск)
- Сбор, обработка, анализ информации об экзогенных геологических процессах и основных изменяющихся факторах
- 2.5 Дисперсионный анализ
- 2.6 Регрессионный анализ
- 4.2 Редактор электронных таблиц MS Excel
- Приложение 3. Об измерениях и анализе эмпирических данных
- 13.3.1. Планы дисперсионного анализа
- 13.3.2. Планы многофакторного анализа
- 4.2.3 Корреляционный, регрессионный и дисперсионный анализ
- 4.2.5 Факторный анализ и теория распознавания образов