<<
>>

Приложение 3. Об измерениях и анализе эмпирических данных

Любые измерения осуществляются с помощью тех или иных шкал. Шкала - числовая система, в которой отношения между различными свойствами изучаемых явлений, процессов переведены в свойства того или иного множества, как правило - множества чисел [65, 75].

Различают несколько типов шкал. Во-первых, можно выделить дискретные шкалы (в которых множество возможных значений оцениваемой величины конечно - например, оценка в баллах - «1», «2», «3», «4», «5») и непрерывные шкалы (например, масса в граммах или объем в литрах). Во-вторых, выделяют шкалы отношений, интервальные шкалы, порядковые (ранговые') шкалы и номинальные шкалы (шкалы наименований) - см. Рис. 14, на котором отражена также мощность шкал[23] - то есть, их «разрешающая способность». Мощность шкалы можно определить как степень, уровень ее возможностей для точного описания явлений, событий, то есть, той информации, которую несут оценки в соответствующей шкале. Например, состояние пациента может оцениваться в шкале наименований: «здоров» - «болен». Большую информацию будут нести измерения состояния того же пациента в шкале интервалов или отношений: температура, артериальное давление и т.д. Всегда можно перейти от более мощной шкалы к более «слабой» (произведя агрегирование - сжатие - информации): например, если ввести «пороговую температуру» в 370 С и считать, что пациент здоров, если его температура меньше пороговой и болен в противном случае, то можно от шкалы отношений перейти к шкале наименований. Обратный переход в рассматриваемом примере невозможен - информа

ция о том, что пациент здоров (то есть, что его температура меньше пороговой) не позволяет точно сказать, какова его температура.

Рис. 14. Классификация шкал измерений

Рассмотрим, следуя в основном [52, 55, 65], свойства четырех основных типов шкал, перечисляя их в порядке убывания мощности.

Шкала отношений - самая мощная шкала. Она позволяет оценивать, во сколько раз один измеряемый объект больше (меньше) другого объекта, принимаемого за эталон, единицу. Для шкал отношений существует естественное начало отсчета (нуль). Шкалами отношений измеряются почти все физические величины - линейные размеры, площади, объемы, сила тока, мощность и т.д.

Все измерения производятся с той или иной точностью. Точность измерения - степень близости результата измерения к истинному значению измеряемой величины. Точность измерения характеризуется ошибкой измерения - разностью между измеренным и истинным значением.

Различают систематические (постоянные) ошибки (погрешности), обусловленные факторами, действующими одинаково при повторении измерений, например - неисправностью измерительного прибора, и случайные ошибки, вызванные вариациями условий измерений и/или пороговой

точностью используемых инструментов измерений (например, приборов).

Из теории вероятностей известно, что при достаточно большом числе измерений случайная погрешность измерения может быть: больше средней квадратической ошибки (обозначаемой обычно греческой буквой сигма и равной корню квадратному из дисперсии - см. определение ниже в разделе 2.3.2) примерно в 32 % случаев. Соответственно, истинное значение измеряемой величины находится в интервале среднее значение плюс/минус средняя квадратическая ошибка с вероятностью 68 %; больше удвоенной средней квадратической ошибки только в 5 % случаев. Соответственно, истинное значение измеряемой величины находится в интервале среднее значение плюс/минус удвоенная средняя квадратическая ошибка с вероятностью 95 %; больше утроенной средней квадратической ошибки лишь в 0,3 % случаев. Соответственно, истинное значение измеряемой величины находится в интервале среднее значение плюс/минус утроенная средняя квадратическая ошибка с вероятностью 99,7 %

Следовательно, крайне маловероятно, чтобы случайная погрешность измерения получилась больше утроенной средней квадратической ошибки.

Поэтому в качестве диапазона «истинного» значения измеряемой величины обычно выбирают среднее арифметическое значение плюс/минус утроенная среднеквадратическая ошибка (так называемое «правило трех сигма»).

Необходимо подчеркнуть, что сказанное здесь о точности измерений относится только к шкалам отношений и интервалов. Для других типов шкал дело обстоит гораздо сложнее и требует от читателя изучения специальной литературы (см., например, [65, 75, 84]).

Шкала интервалов применяется достаточно редко и характеризуется тем, что для нее не существует естественного начала отсчета. Примером шкалы интервалов является шкала температур по Цельсию, Реомюру или Фаренгейту. Шкала Цельсия, как известно, была установлена следующим образом: за ноль была принята точка замерзания воды, за 100 градусов - точка ее кипения, и, соответственно, интервал температур между замерзанием и кипением воды поделен на 100 равных частей. Здесь уже утверждение, что температура 300С в три раза больше, чем 100С, будет неверным. В шкале интервалов сохраняется отношение длин интервалов (разностей). Можно сказать: температура в 300С отличается от температуры в 200С в два раза сильнее, чем температура в 150С отличается от температуры в 100С.

Порядковая шкала (шкала рангов) - шкала, относительно значений которой уже нельзя говорить ни о том, во сколько раз измеряемая величина больше (меньше) другой, ни на сколько она больше (меньше). Такая шкала только упорядочивает объекты, приписывая им те или иные баллы (результатом измерений является просто упорядочение объектов).

Например, так построена шкала твердости минералов Мооса: взят набор 10 эталонных минералов для определения относительной твердости методом царапанья. За 1 принят тальк, за 2 - гипс, за 3 - кальцит и так далее до 10 - алмаз. Любому минералу соответственно однозначно может быть приписана определенная твердость. Если исследуемый минерал, допустим, царапает кварц (7), но не царапает топаз (8), то соответственно его твердость будет равна 7. Аналогично построены шкалы силы ветра Бофорта и землетрясений Рихтера.

Шкалы порядка широко используются в социологии, педагогике, психологии, медицине и других науках, не столь точных, как, скажем, физика и химия. В частности, повсеместно распространенная шкала школьных отметок в баллах (пятибалльная, двенадцатибалльная и т.д.) может быть отнесена к шкале порядка.

Частным случаем порядковой шкалы является дихотомическая шкала, в которой имеются всего две упорядоченные градации - например, «поступил в институт», «не поступил».

Шкала наименований (номинальная шкала) фактически уже не связана с понятием «величина» и используется только с целью отличить один объект от другого: телефонные номера, номера госрегистрации автомобилей и т.п.

Результаты измерений необходимо анализировать, а для этого нередко приходится строить на их основании производные (вторичные) показатели, то есть, применять к экспериментальным данным то или иное преобразование. Самым распространенным производным показателем является усреднение величин - например, средний вес людей, средний рост, средний доход на душу населения и т.п. Использование той или иной шкалы измерений определяет множество преобразований, которые допустимы для результатов измерений в этой шкале (подробнее см. публикации [65, 75, 84] по теории измерений).

Начнем с наиболее слабой шкалы - шкалы наименований (номинальной шкалы), которая выделяет попарно различимые классы объектов. Например, в шкале наименований измеряются значения признака «пол»: «мужской» и «женский». Эти классы будут различимы независимо от того, какие различные термины или знаки для их обозначений будут использованы: «особи женского пола» и «особи мужского пола», или «female» и «male», или «А» и «Б», или «1» и «2», или «2» и «3» и т.д. Следовательно, для шкалы наименований применимы любые взаимно-однозначные преобразования, то есть сохраняющие четкую различимость объектов (таким образом, самая слабая шкала - шкала наименований - допускает самый широкий диапазон преобразований).

Отличие порядковой шкалы (шкалы рангов) от шкалы наименований заключается в том, что в шкале рангов классы (группы) объектов упорядочены. Поэтому произвольным образом изменять значения признаков нельзя - должна сохраняться упорядоченность объектов (порядок следования одних объектов за другими). Следовательно, для порядковой шкалы допустимым является любое монотонное преобразование. Например, если оценка объекта А - 5 баллов, а объекта Б - 4 балла, то их упорядочение не изменится, если мы число баллов умножим на одинаковое для всех объектов положительное число, или сложим с некоторым одинаковым для всех числом, или возведем в квадрат и т.д. (например, вместо «1», «2», «3», «4», «5» используем соответственно «3», «5», «9», «17», «102»). При этом изменятся разности и отношения «баллов», но упорядочение сохранится.

Для шкалы интервалов допустимо уже не любое монотонное преобразование, а только такое, которое сохраняет отношение разностей оценок, то есть линейное преобразование - умножение на положительное число и/или добавление постоянного числа. Например, если к значению температуры в градусах Цельсия добавить 2730С, то получим температуру по Кельвину, причем разности любых двух температур в обеих шкалах будут одинаковы.

И, наконец, в наиболее мощной шкале - шкале отношений - возможны лишь только преобразования подобия - умножения на положительное число. Содержательно это означает, что, например, отношение масс двух предметов не зависит от того, в каких единицах измерены массы - граммах, килограммах, фунтах и т.д.

Суммируем сказанное в Табл. 9, которая отражает соответствие между шкалами и допустимыми преобразованиями.

Табл. 9

Шкалы^и допустимые преобразования

Шкала

Допустимое преобразование

Наименований

Взаимно-однозначное

Порядковая

Строго возрастающее

Интервалов

Линейное

Отношений

Подобия

Как отмечалось выше, результаты любых измерений относятся, как правило, к одному из основных (перечисленных выше) типов шкал. Однако получение результатов измерений не является самоцелью - эти результаты необходимо анализировать, а для этого нередко приходится строить на их основании производные показатели. Эти производные показатели могут измеряться в других шкалах, нежели чем исходные. Например, можно для оценки знаний применять 100балльную шкалу. Но она слишком детальна, и ее можно при необходимости перестроить в пятибалльную («1» - от «1» до «20»; «2» - от «21» до «40» и т.д.), или двухбалльную (например, положительная оценка - все, что выше 40 баллов, отрицательная - 40 и меньше). Следовательно, возникает проблема - какие преобразования можно применять к тем или иным типам исходных данных. Другими словами, переход от какой шкалы к какой является корректным. Эта проблема в теории измерений получила название проблемы адекватности.

Для решения проблемы адекватности можно воспользоваться свойствами взаимосвязи шкал и допустимых для них преобразований, так как отнюдь не любая операция при обработке исходных данных является допустимой. Так, например, такая распространенная операция, как вычисление среднего арифметического, не может быть использована, если измерения получены в порядковой шкале [65]. Общий вывод таков - всегда возможен переход от более мощной шкалы к менее мощной, но не наоборот (например, на основании оценок, полученных в шкале отношений, можно строить балльные оценки в порядковой шкале, но не наоборот).

Необходимо остановиться лишь на применении методов математической статистики при обработке эмпирических результатов. Важно подчеркнуть, что как массовое явление в науках «слабой версии» распространена статистическая неграмотность. Так, в медицине, педагогике, психологии, социологии и т.д. как повсеместное явление применяется вычисление «среднего балла» при использовании ранговых шкал оценок. Что повергает в ужас любого человека мало- мальски знакомого с математикой: ведь на этих шкалах операция суммы не определена, а усреднение предполагает суммирование «баллов» и затем деление «суммы» на объем выборки! Об этих и других ошибках в манипулировании результатами писалось многократно (см., в том числе, обсуждение шкал измерений выше и в [55, 56, 65]). Но ошибки эти, к сожалению, укоренились и фактически перешли в традицию. Поэтому рассмотрим кратко типовые задачи анализа данных (результатов наблюдения и/или эксперимента) и используемые при решении этих задач статистические методы.

Статистические методы. При планировании и подведении результатов эксперимента существенную роль играют статистические методы, которые дают возможность: компактно и информативно описывать результаты эксперимента; устанавливать степень достоверности сходства и различия исследуемых объектов на основании результатов измерений их показателей; анализировать наличие или отсутствие зависимости между различными показателями (явлениями); количественно описывать эти зависимости; выявлять информативные показатели; классифицировать изучаемые объекты и прогнозировать значения их показателей и характеристик, и др.

Рассмотрим следующую модель эксперимента [55, 56]. Пусть имеется некоторый объект, изменение состояния которого исследуется в ходе эксперимента. В качестве объекта в медицине может выступать группа лабораторных животных, в педагогике - группа обучающихся, в экономике - множество предприятий отрасли или региона и т.д. Состояние объекта измеряется[24] теми или иными показателями (характеристиками) по критериям, отражающим его существенные характеристики. Примерами критериев являются: в медицине: выраженность интоксикации, выживаемость в группе животных на определенный период после начала опыта и т.д. Примерами характеристик - температура, активность тех или иных ферментов в биологических жидкостях, количественные показатели структуры внутренних органов и т.д.; в педагогике: успешность выполнения учащимися тестов, скорость выполнения контрольных заданий и т.д. Характеристики - число правильно решенных задач, время выполнения заданий и т. д.; в экономике: эффективность функционирования промышленного предприятия, темпы развития региональной экономики и т.д. Характеристики - годовая прибыль, уровень капитализации, валовой доход на душу населения и т.д.

Эксперимент заключается в целенаправленном воздействии на объект, призванном изменить его определенным образом. Примерами воздействия являются: любые методы воздействия на болезнь с целью ее излечения, хирургические манипуляции - в медицине; новые методы и/или средства обучения - в педагогике; параметры госрегулирования и/или управленческая политика руководства предприятия - в экономике и т.д.

Следовательно, при проведении эксперимента необходимо обосновать, что состояние объекта изменилось, причем в требуемую сторону. Но этого оказывается недостаточно. Ведь нужно доказать, что изменения произошли именно в результате произведенного воздействия (так называемая задача изучения сходства/различий - см. ниже).

Действительно, например, на утверждение о том, что в ходе медико-биологического эксперимента температура тела у экспериментального животного снизилась в результате использования нового испытуемого вещества, можно всегда возразить, - а, может быть, она снизилась бы сама, без каких- либо нововведений, или в результате каких-либо других воздействий? Аналогично, на утверждение о том, что скорость и степень снижения температуры у животных, которым вводился новый препарат, отличаются от того, как это происходило у животных, которых лечили с применением традиционных препаратов, можно возразить, - а, может быть, сама группа имела до начала эксперимента какие-то внутренние отличия, позволившие ей продемонстрировать подобные «успешные» результаты.

Таким образом, для того, чтобы выделить в явном виде результат целенаправленного воздействия на исследуемый объект, необходимо взять аналогичный объект и посмотреть, что происходит с ним в отсутствии воздействий.

Традиционно эти два объекта называют соответственно экспериментальной группой (иногда основной) и контрольной группой (или группой сравнения).

На Рис. 15 представлена в общем виде структура эксперимента (двойными пунктирными стрелками отмечены процедуры сравнения[25] характеристик объектов).


Рис. 15. Структура эксперимента

Констатации (в результате сравнения III - см. Рис. 15) различий начального и конечного состояний (динамики) экспериментальной группы недостаточно - быть может, аналогичные изменения происходят и с контрольной группой, что может быть установлено сравнением IV. Поэтому алгоритм действий исследователя заключается в следующем: На основании сравнения I установить совпадение26 начальных состояний экспериментальной и контрольной группы; Реализовать воздействие на экспериментальную группу[26] по экспериментальной методике;

              Если говорить корректно, то с точки зрения математической статистики совпадение установить невозможно - можно установить различие или отсутствие статистически значимого различия.

Реализвать воздействие на контрольную группу по традиционной методике; На основании сравнения II установить различие конечных состояний экспериментальной и контрольной группы.

После выполнения четырех перечисленных шагов можно приступать к изучению зависимостей между различными характеристиками объектов (см. ниже).

Легко видеть, что, выполняя перечисленные шаги27 [27], мы, фактически, косвенным образом реализуем процедуру сравнения III, исключая влияние общих для экспериментальной и контрольной группы условий и воздействий.

Итак, мы описали задачу определения сходства/различий. На самом деле спектр задач анализа данных гораздо шире. Можно выделить следующие общие группы этих задач (см. Табл. 10): Описание данных - компактное описание имеющихся данных с помощью различных агрегированных (обобщенных) показателей и графиков. К этому классу можно отнести также задачу определения необходимого объема выборки[28] (минимального числа исследуемых объектов), необходимого для того, чтобы сделать обоснованные выводы.

В практике научных исследований обычно имеется совокупность наблюдений (десятки, сотни, а иногда - тысячи результатов измерений индивидуальных характеристик), поэтому возникает задача компактного описания имеющихся данных. Для этого используют методы описательной статистики - описания результатов с помощью различных агреги-

Табл. 10

Задачи анализа экспериментальных данных

А

Д

А А

Описание данных

Изучение

сходства/

различий

Исследование

зависимостей

Снижение

размерности

Классификация

М

Е

Т

О

Д

Ы

описательная статистика, определение необходимого объема выборки.

Статистические критерии: Крамера- Уэлча, Вилкок- сона-Манна- Уитни, c2, Фишера.

корреляционный анализ, дисперсионный анализ, регрессионный анализ. факторный анализ, метод главных компонент. дискриминантный анализ, кластерный анализ, группировка.

Для результатов измерений в шкале отношений (см. описание шкал измерений выше) показатели описательной статистики можно разбить на несколько групп: показатели положения описывают положение экспериментальных данных на числовой оси. Примеры таких данных - максимальный и минимальный элементы выборки, среднее значение[29] [30] [31], медиана,31, мода32 и др.; показатели разброса описывают степень разброса данных относительно своего центра ((среднего значения). К ним относятся: выборочная дисперсия[32], разность между минимальным и максимальным элементами (размах, интервал выборки) и др. показатели асимметрии: положение медианы относительно среднего (величина разности их значений) и др. гистограммаг[33] и др.

Данные показатели используются для наглядного представления и первичного («визуального») анализа результатов измерений характеристик экспериментальной и контрольной группы.

2. Изучение сходства/различий (сравнение двух выборок). Например, требуется установить, достоверно ли различие конечных состояний экспериментальной и контрольной группы в эксперименте (см. выше). Или, например, задача заключается в установлении совпадений или различий характеристик двух выборок (например, требуется установить, что средние значения доходов населения в двух регионах (или средние значения производительности труда в двух отраслях народного хозяйства и т.д.) совпадают или различаются). Для этого формулируются статистические гипотезы: гипотеза об отсутствии различий (так называемая нулевая гипотеза); гипотеза о значимости (достоверности) различий (так называемая альтернативная гипотеза).

Для принятия решения о том, какую из гипотез (нулевую или альтернативную) следует принять, используют решающие правила - статистические критерии35. То есть, на основании информации о результатах наблюдений (характеристиках членов экспериментальной и контрольной группы) по известным формулам (см., например, [65, 86]) вычисляется число, называемое эмпирическим значением критерия. Это число сравнивается с известным (например, заданным таблично в соответствующих книгах по математической статистике [65, 86]) эталонным числом, называемым критическим значением критерия.

Критические значения приводятся, как правило, для нескольких уровней значимости. Уровнем значимости называется вероятность ошибки, заключающейся в непринятии нулевой гипотезы, когда она верна, то есть вероятность того, что различия сочтены существенными, а они на самом деле случайны.

Обычно используют уровни значимости (обозначаемые

а), равные вероятности 0,05, или 0,01, или 0,001. Или, переводя в проценты, выборки не различаются с вероятностями 5 %, 1 %, 0,1 %. Соответственно, вероятности того, что вы- [34] борки различаются составят 0,95, 0,99, 0,999, или в процентах -95 %, 99 % и 99,9 %. В экономических, педагогических, психологических, медико-биологических экспериментальных исследованиях обычно ограничиваются значением 0,05, то есть допускается не более чем 5 %-ая возможность ошибки (95 % уровень достоверности различий). В естественных, технических науках чаще требуются уровни достоверности различий 99 % или 99,9 %.

Если полученное исследователем эмпирическое значение критерия оказывается меньше или равно критическому, то принимается нулевая гипотеза - считается, что на заданном уровне значимости (то есть при том значении а, для которого рассчитано критическое значение критерия) характеристики экспериментальной и контрольной групп совпадают. В противном случае, если эмпирическое значение критерия оказывается строго больше критического, то нулевая гипотеза отвергается и принимается альтернативная гипотеза - характеристики экспериментальной и контрольной группы считаются различными с достоверностью различий 1 - а. Например, если а = 0,05 и принята альтернативная гипотеза, то достоверность различий равна 0,95 или 95%.

Другими словами, чем меньше эмпирическое значение критерия (чем левее оно находится от критического значения), тем больше степень совпадения характеристик сравниваемых объектов. И наоборот, чем больше эмпирическое значение критерия (чем правее оно находится от критического значения), тем сильнее различаются характеристики сравниваемых объектов.

Итак, если мы ограничимся уровнем значимости а = 0,05, то, если эмпирическое значение критерия оказывается меньше или равно критическому, то можно сделать вывод, что «характеристики экспериментальной и контрольной групп совпадают на уровне значимости 0,05». Если эмпирическое значение критерия оказывается строго больше критического, то можно сделать вывод, что «достоверность различий характеристик экспериментальной и контрольной групп равна 95%».

Приведем алгоритм выбора статистического критерия (см. Табл. 11). Во-первых, необходимо определить какая шкала измерений используется - отношений, порядковая или номинальная (см. выше).

Табл. 11

Алгоритм^ выбора статистического критерия

Шкала

измерений

Статистический критерий

Отношений

Крамера-У элча, Вилкоксона-Манна-У итни

Порядковая

Вилкоксона-Манна-Уитни, с2

Номинальная

с2

Дихотомическая

Фишера

Для шкалы отношений целесообразно использовать критерий Крамера-Уэлча. Если число различающихся между собой значений36 в сравниваемых выборках велико (более десяти)37, то возможно использование критерия Вилкоксона- Манна-Уитни. Более подробные рекомендации по выбору критериев в том или ином конкретном случае, а также описание этих критериев можно найти в [55, 65, 86]).

Для порядковой шкалы целесообразно использовать критерий Вилкоксона-Манна-Уитни, возможно также использование критерия с2.

Для номинальной шкалы следует использовать критерий

с2

Для дихотомической шкалы (номинальной шкалы с двумя возможными значениями) следует использовать критерий Фишера. [35] [36]

3. Исследование зависимостей. Следующим шагом после изучения сходства/различий является установление факта наличия/отсутствия зависимости между показателями и количественное описание этих зависимостей. Для этих целей используются, соответственно, корреляционный и дисперсионный анализ, а также регрессионный анализ [55, 86].

Корреляционный анализ. Корреляция (Correlation) - связь между двумя или более переменными (в последнем случае корреляция называется множественной). Цель корреляционного анализа - установление наличия или отсутствия этой связи, то есть установление факта зависимости каких-либо явлений, процессов друг от друга или их независимости.

В случае, когда имеются две переменные, значения которых измерены в шкале отношений[37], используется коэффициент линейной корреляции Пирсона г, который принимает значения от -1 до +1 (нулевое его значение свидетельствует об отсутствии корреляции[38]) - см. Рис. 16, на котором каждая точка соответствует отдельному объекту, описываемому двумя переменным - х и у. Термин «линейный» свидетельствует о том, что исследуется наличие линейной связи между переменными - если г(х, у) = 1, то одна переменная линейно зависит от другой (и, естественно, наоборот), то есть существуют константы а и b, причем a gt; 0, такие что у = а х + b.

На Рис. 16а) и в) изображены ситуации, когда все экспериментальные точки лежат на прямой (абсолютное значение коэффициента линейной корреляции равно единице). В ситуации, изображенной на рисунке Рис. 16б), однозначно провести прямую через экспериментальные точки невозможно (коэффициент линейной корреляции равен нулю).


к

Рис. 16. Величины коэффициента линейной корреляции в различных ситуациях

Если экспериментальные точки сгруппированы около некоторой прямой - см. Рис. 16г) и д), то коэффициент линейной корреляции принимает значения, отличные от нуля, причем чем «ближе» точки к прямой, тем выше абсолютное значение коэффициента линейной корреляции. То есть, чем выше абсолютное значение коэффициента Пирсона, тем сильнее исследуемые переменные линейно связаны между собой.

Для данных, измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена (он может применяться и для данных, измеренных в интервальной шкале, так как является непараметрическим и улавливает тенденцию - изменения переменных в одном направлении), который обозначается s и определяется сравнением

Коэффициент корреляции Спирмена является менее чувствительным, чем коэффициент корреляции Пирсона (так как первый в случае измерений в шкале отношений учитывает лишь упорядочение элементов выборки). В то же время, он позволяет выявлять корреляцию между монотонно нелинейно связанными переменными (для которых коэффициент Пирсона может показывать незначительную корреляцию - см. Рис. 17).

Отметим, что большое (близкое к плюс единице или к минус единице) значение коэффициента корреляции говорит о связи переменных, но ничего не говорит о причинноследственных отношениях между ними. Так, например, из высокой корреляции температуры воздуха за окном и времени суток нельзя делать вывод о том, что движение солнца обусловлено изменениями температуры воздуха. Поэтому для установления причин связей между какими-либо явлениями, процессами необходимы дополнительные исследования по содержательной интерпретации этих связей.

Дисперсионный анализ. Изучение наличия или отсутствия зависимости между переменными можно также проводить и с помощью дисперсионного анализа. Его суть заключается в следующем. Дисперсия характеризует «разброс» значений переменной. Переменные связаны, если для объектов, отличающихся значениями одной переменной, отличаются и значения другой переменной. Значит, нужно для всех объектов, имеющих одно и то же значение одной переменной (называемой независимой переменной), посмотреть, насколько

различаются (насколько велика дисперсия) значения другой (или других) переменной, называемой зависимой переменной. Дисперсионный анализ как раз и дает возможность сравнить отношение дисперсии зависимой переменной (межгрупповой дисперсии) с дисперсией внутри групп объектов, характеризуемых одними и теми же значениями независимой переменной (внутригрупповой дисперсией).

Другими словами, дисперсионный анализ «работает» следующим образом. Выдвигается гипотеза о наличии зависимости между переменными: например, между возрастом и уровнем образования сотрудников некоторой организации. Выделяются группы элементов выборки (сотрудников) с одинаковыми значениями независимой переменной - возраста, то есть сотрудников одного возраста (или принадлежащих выделенному возрастному диапазону). Если гипотеза о зависимости уровня образования от возраста верна, то значения зависимой переменной (уровня образования) внутри каждой такой группы должны различаться не очень сильно (внутригрупповая дисперсия уровня образования должна быть мала). Напротив, значения зависимой переменной для различающихся по возрасту групп сотрудников должны различаться сильно (межгрупповая дисперсия уровня образования должна быть велика). То есть, переменные зависимы, если отношение межгрупповой дисперсии к внутригрупповой велико. Если же гипотеза о наличии зависимости между переменными не верна, то это отношение должно быть мало.

Регрессионный анализ. Если корреляционный и дисперсионный анализ дают ответ на вопрос, существует ли взаимосвязь между переменными, то регрессионный анализ предназначен для того, чтобы найти «явный вид» функциональной зависимости между переменными. Для этого предполагается, что зависимая переменная (иногда называемая откликом) определяется известной функцией (иногда говорят - моделью), зависящей от зависимой переменной или переменных (иногда называемых факторами) и некоторого параметра. Требуется найти такие значения этого параметра, чтобы полученная зависимость (модель) наилучшим образом описывала имеющиеся экспериментальные данные. Например, в простой[39] линейной регрессии предполагается, что зависимая переменная у является линейной функцией y = a х + b от независимой переменной х. Требуется найти значения параметров а и b, при которых прямая a х + b будет наилучшим образом описывать (аппроксимировать) экспериментальные точки (xj yi), (Х2, У2), ¦¦¦, (Хп, Уп).

Можно использовать полиномиальную регрессию, в которой предполагается, что зависимая переменная является полиномом (многочленом) некоторой степени от независимой переменной (напомним, что линейная зависимость является полиномом первой степени). Например, полиномом второй степени (знакомая всем из школьного курса алгебры парабола) будет зависимость вида у = а х2 + b х + c и задачей регрессии будет нахождение коэффициентов a, b и с.

Выше мы рассмотрели простую регрессию (по одной независимой переменной) - линейную и нелинейную. Возможно также использование множественной регрессии - определения зависимости одной переменной от нескольких факторов (независимых переменных).

Регрессионный анализ, помимо того, что он позволяет количественно описывать зависимость между переменными, дает возможность прогнозировать значения зависимых переменных - подставляя в найденную формулу значения независимых переменных, можно получать прогноз значений зависимых. При этом следует помнить, что построенная модель «локальна», то есть, получена для некоторых вполне конкретных значений переменных. Экстраполяция результатов модели на более широкие области значений переменных может привести к ошибочным выводам.

4. Снижение размерности. Часто в результате экспериментальных исследований возникают большие массивы информации. Например, если каждый из исследуемых объектов описывается по нескольким критериям (измеряются значения нескольких переменных - признаков), то результатом измерений будет таблица с числом ячеек, равным произведению числа объектов на число признаков (показателей, характеристик). Возникает вопрос, а все ли переменные являются информативными. Конечно, исследователю желательно было бы выявить существенные переменные (это важно с содержательной точки зрения) и сконцентрировать внимание на них. Кроме того, всегда желательно сокращать объемы обрабатываемой информации (не теряя при этом сути). Чем тут могут помочь статистические методы?

Существует целый класс задач снижения размерности, цель которых как раз и заключается в уменьшении числа анализируемых переменных либо посредством выделения существенных переменных, либо/и построения новых показателей (на основании полученных в результате эксперимента).

Для снижения размерности используется факторный анализ, а основными методами являются кратко рассматриваемый ниже метод главных компонент и многомерное шкалирование [65].

Метод главных компонент заключается в получении нескольких новых показателей - главных компонент, являющихся линейными комбинациями исходных показателей (напомним, что линейной комбинацией называется взвешенная сумма), полученных в результате эксперимента. Главные компоненты упорядочиваются в порядке убывания той дисперсии, которую они «объясняют». Первая главная компонента объясняет большую часть дисперсии, чем вторая, вторая - большую, чем третья и т.д. Понятно, что чем больше главных компонент будет учитываться, тем большую часть изменений можно будет объяснить.

Преимущество метода главных компонент заключается в том, что зачастую первые несколько главных компонент (одна-две-три) объясняют большую часть (например, 8090 %) изменений большого числа (десятков, а иногда и сотен) показателей. Кроме того, может оказаться, что в первые несколько главных компонент входят не все исходные параметры. Тогда можно сделать вывод о том, какие параметры являются существенными, и на них следует обратить внимание в первую очередь.

Решив задачи описания данных, установления сходст- ва/отличий, проанализировав качественно и количественно зависимости между переменными и выявив существенные переменные, можно анализировать соотношение групп переменных и пытаться прогнозировать значения одних переменных в зависимости от значений других переменных или времени развития того или иного процесса.

5. Классификация. Обширную группу задач анализа данных, основывающихся на применении статистических методов, составляют так называемые задачи классификации. В близких смыслах (в зависимости от предметной области) используются также термины: «группировка», «систематизация», «таксономия», «диагностика», «прогноз», «принятие решений», «распознавание образов». Обсудим некоторые различия между этими терминами. В [65] предложено выделить три подобласти теории классификации: дискриминация (дискриминантный анализ), кластеризация (кластерный анализ) и группировка. Здесь мы кратко остановимся на сути этих методов. Тех же читателей, которые заинтересуются, как ими пользоваться, мы адресуем к соответствующей литературе [65, 86].

В дискриминантном анализе классы предполагаются заданными (например, обучающими выборками, для элементов которых известно, каким классам они принадлежат: например, больной-здоровый, правильно-неправильно, легкая степень заболевания - средняя - тяжелая и т.д.). Задача заключается в том, чтобы каждый вновь появляющийся объект отнести к одному из этих классов. У термина «дискриминация» имеется множество синонимов: диагностика (например, в медицине требуется поставить диагноз из конечного списка возможных диагнозов, если известны определенные характеристики пациента и известно, какие диагнозы ставились пациентам, вошедшим в обучающую выборку), распознавание образов с учителем, автоматическая (или статистическая) классификация с учителем и т.д.

Если в дискриминантном анализе классы заданы, то кластеризация и группировка предназначены для выявления и выделения классов. Синонимами являются: построение классификации, таксономия, распознавание образов без учителя, автоматическая классификация без учителя и т. д.

Задача кластерного анализа заключается в выделении по эмпирическим данным резко различающихся групп (кластеров) объектов, которые схожи между собой внутри каждой из групп.

При группировке, когда резких границ между кластерами не существует, исследователю приходится самому вводить границы между группами объектов.

Использование компьютера при анализе результатов эксперимента, несомненно, целесообразно[40]. С одной стороны, ряд статистических методов реализован в такой популярной программе, как Microsoft Excel для Window, входящей в стандартный комплект Microsoft Office, и установленной, наверное, на любом современном компьютере. С другой стороны, на сегодняшний день существует множество специальных профессиональных программ, позволяющих осуществлять статистический анализ данных. Среди последних можно выделить и рекомендовать к использованию такие наиболее распространенные пакеты статистического анализа как: Statistica, StatGraphics и SPSS. Однако, упомянутые программы достаточно сложны и требуют значительных временных затрат для их освоения. Поэтому можно рекомендовать следующее: если для решения задач исследования хватает возможностей Excel, то можно ограничиться использованием этой программы (недостатком ее, правда, является практически полное отсутствие вразумительных объяснений, которые помогли бы неподготовленному пользователю понять, что получилось в результате расчетов). Если возможностей Excel недостаточно, то нужно обращаться к профессиональным статистическим программам. Каждая из них обладает своими достоинствами и недостатками (в одной более полно реализованы одни методы, в другой другие и т.д.). С методической точки зрения можно рекомендовать использовать программу StatGraphics (версии 5.0 и выше). Ее достоинством с позиций непрофессионального статистика является наличие «советчика», который разъясняет, что означает та или иная вычисленная величина, и что исследователю следует делать дальше.

Необходимо подчеркнуть, что при описании статистических методов нами даны лишь вводные соображения. Заинтересованному читателю можно порекомендовать обратиться к более добротной и профессиональной литературе по этой тематике - см. [55, 56, 65, 86], а также ссылки в этих работах.

Завершив описание статистических методов, отметим, что часто при организации исследования сложных явлений и процессов и обработке его результатов возникает необходимость использования агрегированных (комплексных) и/или векторных оценок. Рассмотрим кратко их специфику.

Агрегированные оценки. Во многих экспериментах имеется значительное число (десятки, сотни, а иногда и тысячи) объектов (субъектов). В результате измерения их показателей получается набор их частных оценок. Понятно, что сравнивать между собой и анализировать одновременно все частные оценки не всегда возможно и целесообразно, так как всегда существует их разброс, обусловленный неконтролируемым различием объектов эксперимента.

Поэтому для того, чтобы, во-первых, получить обозримое число характеристик и, во-вторых, для того, чтобы сгладить индивидуальные колебания, используют так называемые агрегированные (коллективные, групповые, производные) оценки. Например, если имелись частные (индивидуальные) оценки отдельных индивидуумов, то агрегированной оценкой будет «среднее» значение для их группы. Использование кавычек не случайно, так как получение агрегированных оценок на основании частных является их преобразованием, и преобразование это следует выполнять корректно.

Приведем некоторые корректные процедуры агрегирования для наиболее распространенных в экспериментальных исследованиях показателей.

Для величин, измеренных в шкале отношений, наиболее типичным является вычисление среднего арифметического по группе. Эта процедура вполне корректна, и обычно ее реализация не вызывает затруднений.

Наибольшее число ошибок возникает при агрегировании показателей, измеренных в порядковых шкалах. Отметим, что не следует складывать, вычитать, умножать или делить баллы друг на друга, да и на чтобы то ни было - все это абсолютно бессмысленные операции. В порядковой шкале для «усреднения» обычно используют медиану [56, 65].

Если имеется набор индивидуальных баллов, то агрегированной характеристикой группы будет число ее членов, получивших тот или иной балл[41]. Аналогичным образом агрегируется и информация о выделении уровней - если введены три уровня (например, уровни знаний: низкий, средний и высокий) и имеется информация о распределении всех членов нескольких групп (контрольных или экспериментальных) по этим уровням, то агрегированной информацией об объединенной группе будет число ее членов, обладающих тем или иным уровнем (вычисляемое как сумма по всем группам числа их членов, обладающих данным уровнем) - соответствующие примеры можно найти в [55, 56].

Если агрегирование частных оценок по группе экспериментальных объектов (субъектов) производится с целью получения характеристик группы в целом, то для описания различных аспектов, свойств и т.п. одного и того же объекта используются так называемые векторные оценки.

Векторные оценки. Нередко встречаются случаи, когда какое-либо изучаемое явление, процесс характеризуется несколькими показателями - вектором показателей. Например, при оценке труда какого-нибудь рабочего используются показатели качества труда (точности обработки деталей) и производительности труда (время выполнения операций). При этом часто возникает вопрос о возможности однозначной оценки этого явления, процесса или изучаемых их свойств одной величиной - комплексной оценкой. Например, во многих спортивных состязаниях победитель выявляется по комплексной оценке - сумме очков, баллов, набранных на отдельных этапах состязания или в отдельных играх, в многоборье - в отдельных видах спорта.

На практике комплексные оценки встречаются довольно часто и, очевидно, без них не обойтись, хотя способы их определения нередко и вызывают множество недоуменных вопросов. Но в любом случае такие комплексные оценки, применяемые в повседневной жизни, являются либо результатом определенных общественных соглашений, которые признаются всеми участниками, либо установлены каким- либо нормативным актом определенного директивного органа - министерства, ведомства и т.д. и в силу этого также признаются всеми заинтересованными лицами.

Другое дело - применение комплексных оценок в научном исследовании. Здесь сразу на первое место встает вопрос о научной, в том числе математической, строгости применяемой оценки. В частности, например, не вызывает сомнений возможность использования в организации труда такой комплексной оценки, как суммарные затраты времени на выполнение тех или иных технологических операций. Здесь суммируются однородные величины, измеренные в шкале отношений.

Между тем, при использовании шкалы рангов (порядковой шкалы) суммирование баллов довольно часто встречается в исследованиях по педагогике, психологии, медицине, биологии и другим наукам (см. анализ корректности использования методов анализа данных в диссертациях по педагогике [56] и медицине [55]). Так, в одной «методологической» публикации для оценки эффективности деловой игры была использована следующая «формула»: Р = 50 - К - (В - 40), где Р - «комплексная» оценка в баллах, 50 - максимально возможное количество баллов, К - количество замечаний, сделанных ведущим, В - время в минутах. Как видим, здесь уж, что называется, «смешались в кучу кони, люди ...». Под знак суммы (разности) поставлены совершенно разнородные величины: баллы, количество замечаний, время, безразмерные числа.

Достаточно простым и интуитивно понятным (но, в то же время, корректным) методом агрегирования балльных оценок является использование так называемых матриц свертки [59], элементы которых содержат значения агрегированного показателя, а агрегируемые баллы задают номер строки и столбца.

В некоторое оправдание используемым на практике некорректным построениям комплексных оценок следует отметить, что проблема агрегирования векторных оценок на сегодняшний день исследована не полностью, а существующие результаты, даже для их применения на практике, зачастую требуют хорошего знания высшей математики. Качественно же проблема векторных оценок (или как ее иногда называют - проблема принятия решений при многих критериях) может быть проиллюстрирована на следующем простом примере из области экономики: имеются два инвестиционных проекта с одним и тем же размером первоначальных вложений (допустим, 100 единиц), причем первый характеризуется более высоким доходом (300 единиц), но и более высоким риском (предположим, что вероятность неуспеха равна 0,2), чем второй (доход - 250 единиц, вероятность неуспеха (риск) - 0,05). В какой из проектов следует осуществлять инвестиции? Ответ неоднозначен. Если бы первый проект был более прибыльным и менее рискованным, то следовало бы выбирать его. Но имеются два критерия (доход и риск) и первая альтернатива (первый проект) «лучше» по одному критерию, но «хуже» по второму. В подобных ситуациях обычно поступают следующим образом. На первом шаге выделяют множество эффективных альтернатив (так называемых, недоминируемых по Парето, то есть таких альтернатив, что не существует других допустимых альтернатив, которые были бы «не хуже» по всем критериям, а по одному из критериев - «строго лучше»). В рассматриваемом примере оба проекта эффективны по Парето.

Дальше - на втором шаге - возможно несколько вариантов (и привести априори рациональное обоснование того, какой из них следует использовать в том или ином конкретном случае, невозможно): ввести комплексный критерий, оценка по которому будет вычисляться агрегированием оценок по исходным критериям. В рассматриваемом примере таким критерием может быть ожидаемый доход (произведение дохода на вероятность его получения). Значение такого комплексного критерия для первого проекта равно 240 = 300 (1 - 0,2), для второго - = 250 (1 - 0,05). С точки зрения максимизации ожидаемого дохода следует выбрать первый проект. В качестве комплексного критерия можно использовать ожидаемые потери (для первого проекта они равны 60 единиц, для второго - 12,5), тогда с точки зрения минимизации ожидаемых потерь следует выбрать второй проект; упорядочить критерии по важности. Если считать доход более важным критерием, чем риск, то следует выбрать первый проект (так как он приносит в случае успеха больший доход: 300 gt; 250). Но, если считать риск более важным критерием, чем доход, то следует выбрать второй проект (так как он характеризуется меньшим риском: 0,05 lt; 0,2); возможны и другие варианты принятия решений, часть из которых будет «рекомендовать» выбрать первый проект, а другая часть - второй.

Даже из приведенного элементарного примера многокритериальной задачи принятия решений видно, что универсальных «рецептов» в этой области не существует. Для тех, кто глубже заинтересуется проблемой комплексных оценок и принятия решений при многих критериях, можно рекомендовать ознакомиться с соответствующими публикациями [62, 64, 69, 79]. Но в любом случае при построении комплексных оценок нужно быть предельно внимательным и осторожным. Кстати, нередко можно обойтись и без них. Если получены количественные результаты по отдельным показателям, то можно ограничиться их качественной интерпретацией, не «загоняя под общий знаменатель», проанализировать и сравнить исследуемые объекты отдельно по каждому из показателей. И пусть по каким-то показателям результаты экспериментальных групп будут лучше контрольных, а по каким-то хуже - от этого исследование только обогатится, станет достовернее.

<< | >>
Источник: Новиков А.М., Новиков Д. А.. Методология научного исследования. 2010

Еще по теме Приложение 3. Об измерениях и анализе эмпирических данных:

  1. Методы и формы познания эмпирического уровня: вычленение и исследование объекта
  2. Коммуникативное измерение познавательных процессов В. А. Барабанщиков (Москва)
  3. 4.3.4. Математические методы анализа международных конфликтов
  4. Глава 5 ЧТО ТАКОЕ ЭТНИЧНОСТЬ. ПЕРВОЕ ПРИБЛИЖЕНИЕ
  5. Приложение 6
  6. 3. Методы сравнительно-педагогических исследований
  7. СБОР И АНАЛИЗ ДАННЫХ
  8. Критическая проверка теорий
  9. Ноосферное знание и новая философия науки
  10. Метолология научного познания
  11. Методы научного исследования
- Коучинг - Методики преподавания - Андрагогика - Внеучебная деятельность - Военная психология - Воспитательный процесс - Деловое общение - Детский аутизм - Детско-родительские отношения - Дошкольная педагогика - Зоопсихология - История психологии - Клиническая психология - Коррекционная педагогика - Логопедия - Медиапсихология‎ - Методология современного образовательного процесса - Начальное образование - Нейро-лингвистическое программирование (НЛП) - Образование, воспитание и развитие детей - Олигофренопедагогика - Олигофренопсихология - Организационное поведение - Основы исследовательской деятельности - Основы педагогики - Основы педагогического мастерства - Основы психологии - Парапсихология - Педагогика - Педагогика высшей школы - Педагогическая психология - Политическая психология‎ - Практическая психология - Пренатальная и перинатальная педагогика - Психологическая диагностика - Психологическая коррекция - Психологические тренинги - Психологическое исследование личности - Психологическое консультирование - Психология влияния и манипулирования - Психология девиантного поведения - Психология общения - Психология труда - Психотерапия - Работа с родителями - Самосовершенствование - Системы образования - Современные образовательные технологии - Социальная психология - Социальная работа - Специальная педагогика - Специальная психология - Сравнительная педагогика - Теория и методика профессионального образования - Технология социальной работы - Трансперсональная психология - Философия образования - Экологическая психология - Экстремальная психология - Этническая психология -