<<
>>

ИЗМЕРЕНИЕ СРЕДНЕЙ ТЕНДЕНЦИИ И ДИСПЕРСИИ

  Для описания распределения признаков по значениям одной переменной используют два типа статистических процедур. Первый – измерение средней арифметической величины признака – помогает нам выявить наиболее типичные значения, одно или несколько, которые наилучшим способом представляют весь комплекс признаков по этой переменной.
Вообразите, что нам сказали, будто так называемый средний американец – это “синий воротничок”, получивший среднее образование и вместе со своей женой имеющий в среднем 1,7 ребенка. Понятно, что не каждый американец отвечает этим требованиям, но если бросить на американцев этакий общий взгляд, то приведенный набор характеристик может оказаться весьма близким к тому общему впечатлению, которое у нас сложится. Вот именно такое представление об усредненном или типичном случае мы получаем при измерении средней арифметической величины. И именно это измерение было использовано при выявлении наиболее типичных свойств американцев.

Однако, как уже отмечалось, не все американцы обладают такими характеристиками. Многие являются “белыми воротничками”, либо специалистами, либо даже безработными, некоторые закончили только начальную школу, у других – более высокое образование, иные имеют 10 или 20 детей, другие же не женаты и детей не имеют. Иными словами, “типичный” американец представляет лишь среднюю тенденцию внутри совокупности, но не отражает точно каждый отдельный признак. Ну, а поскольку такой типичный признак найден, мы вправе задать вопросы:

“Насколько это типично? Насколько правильно эти усредненные признаки отражают распределение свойств всех единиц массива по данной переменной?” Мы ответим на них, если используем другой тип статистических расчетов – дисперсию. Измеряя дисперсию, мы узнаем, как колеблется (варьирует) отклонение от того среднего значения, которое мы нашли, в каких случаях можно быть уверенным, что наше среднее значимо, и не является ли отклонение [c.394] настолько большим, что наиболее типичный признак на самом деле не является репрезентативным для всей совокупности.

В связи с этим возникает важная проблема, которую дует обсудить, прежде чем двигаться куда-либо дальше. Статистика – это могучее средство анализа; она можно сказать о наших данных гораздо больше, чем можно выявить любым другим путем. Но сама по себе статистика бездумна. Можно произвести любые статистические счеты на любом массиве данных и, казалось бы, выжать из данных все до последней капли. Однако многие из этих “результатов” по двум причинам могут оказаться бессмысленными. Первую причину мы уже обсуждали, логика ее станет яснее по мере дальнейшего продвижения. Говоря проще, уровень сложности анализа может превосходить уровень сложности, заложенный в данных. Если выбранный нами метод требует сложить две цифры, а данные основаны на номинальной шкале, для которой неприемлема сама концепция сложения, то вообще-то механически можно сложить значения двух кодов, однако результат этого окажется бесполезным. Так, если код 1 представляет рабочих – “синих воротничков”, код 2 – “белых воротничков”, а 3 – специалистов, то мы, конечно, можем к ому прибавить два и получить три, но неужели мы действительно будем утверждать, что один рабочий – “синий воротничок” плюс один рабочий – “белый воротничок” равны одному специалисту? Конечно, нет.

Другая причина, по которой результаты статистические расчетов могут оказаться незначимыми, –это то, что одна статистика сама по себе часто не может представить всю картину целиком. Если единственный наиболее типичный уровень образования американцев – это средняя школа, но только 25% всего населения достигли этого уровня и остановились на нем, то насколько много в действительности может сказать нам это среднее значение? Не так уж много. И много ли вы знаете людей, которые действительно имеют 1,7 ребенка? Таким образом, хотя мы можем точно подсчитать и представить эти цифры, нельзя останавливаться только на них. Каждое измерение средней арифметической должно быть взвешено или оценено сопутствующим измерением дисперсии. И еще (мы обсудим это позже): всегда, когда мы имеем дело с [c.395] расчетами, каждое измерение взаимосвязей между двумя переменными следует сопровождать измерением статистической значимости, т.е.

следует обозначить, насколько точно найденные величины представляют существенные связи между данными переменными. Таким образом, статистические расчеты должны не только соответствовать уровню измерений данных, но и быть существенно значимыми, если мы хотим получить от них максимум пользы.

Любое измерение средней тенденции и дисперсии основано на общей оценке градаций переменных и единиц массива, которая называется частотным распределением. Частотное распределение – это упорядоченный подсчет количества признаков по каждому значению какой-либо переменной. Представьте, например, что мы задали 100 респондентам вопрос об их занятии в настоящее время и затем распределили их ответы по типам. Тогда частотное распределение для переменной “тип занятий” может выглядеть так, как это показано в табл. 14.1.

Таблица 14.1.

Частотное распределение: типы занятий респондентов

Код Значение Число случаев
1

2

3

4

5

“Синие воротнички”

“Белые воротнички”

Специалисты

Фермеры

Безработные

25

23

22

20

10

В частотном распределении исследователь просто перечисляет все значения переменной и показывает, сколько имеется случаев каждого значения. Та же самая информация может быть представлена в виде гистограммы, как показано на рис. 14.1. Используя эту информацию, можно выделить наиболее типичный случай и определить его репрезентативность. [c.396]

Рис. 14.1. Гистограмма: тип занятий респондентов

ИЗМЕРЕНИЯ ДЛЯ НОМИНАЛЬНЫХ ПЕРЕМЕННЫХ

Как мы уже отмечали, для различных уровней измерений подходят различные способы исчислений средней тенденции и дисперсии. Поскольку “тип занятий” – номинальная переменная, давайте начнем изучение этих [c.396] исчислений с рассмотрения статистических процедур, подходящих для номинального уровня измерения. На этом уровне, где цифры просто обозначают категории безотносительно к порядку их расположения, единственно возможный способ измерения средней тенденции – это исчисление моды. Мода – это просто наиболее часто встречающееся значение признака, т.е. то значение, которое наиболее часто может встречаться в серии зарегистрированных наблюдений. В нашем случае это первая категория, или градация “синие воротнички”. Можно назвать их как модой, так и модальной категорией. (Распределенное, в котором две категории имеются с наибольшим количеством случаев, называется распределением с двумя модами, или бимодальным, возможно также распределение с большим количеством таких категорий.) Таким образом, занятие уровня “синих воротничков” являются наиболее типичными в нашем примере из 100 человек.

Однако ясно, что большинство людей в этом примере (фактически ровно75%) не являются рабочими – “синими воротничками”, т.е., даже если мы выделим наиболее типичное значение в данном распределении, информация эта не обязательно полностью верно отражает картину. [c.397] Более точно об этом можно судить, если подсчитать точное значение дисперсии для номинального уровня измерений, или коэффициент вариации, формула которого выглядит следующим образом:

или

,

где ?fнемодальное – сумма всех случаев, не входящих в модальную категорию;

fмодальное – количество случаев в модальной категории;

N – общее число случаев.

По сути дела, этот коэффициент дает нам процентную долю всех признаков, которые не входят в модальную категорию. В нашем примере

,

или, по упрощенной формуле

Значение коэффициента вариации колеблется между 0 (когда все случаи принимают одно и то же значение) и 1–1/N (когда каждый случай имеет свое значение). В общем, чем меньше коэффициент вариации, тем типичнее, или значимее (верно отражает картину), мода. В случае бимодального или многомодального распределения произвольно выбирается одно модальное значение в зависимости от целей подсчетов, и v определяется так, как указано выше. [c.398]

<< | >>
Источник: Мангейм Дж. Б., Рич Р. К.. Политология. Методы исследования.. 1997

Еще по теме ИЗМЕРЕНИЕ СРЕДНЕЙ ТЕНДЕНЦИИ И ДИСПЕРСИИ:

  1. § 1. Бессознательное структурировано как язык
  2. Сравнение условий Внутрисубъектные/межсубъектные планы
  3. Меры связи
  4. 2.6.2. Основные понятия и термины
  5. Глава 8. Сила нервной системы и абсолютная чувствительность
  6. ТИПЫ ИЗМЕРИТЕЛЬНЫХ ШКАЛ
  7. ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТАЛЬНОГО ИССЛЕДОВАНИЯ
  8. ХАРАКТЕРИСТИКИ ФАКТИЧЕСКИХ ОШИБОК
  9. 2Л.2. Система статистического управления процессами
  10. ИЗМЕРЕНИЕ СРЕДНЕЙ ТЕНДЕНЦИИ И ДИСПЕРСИИ
  11. ИЗМЕРЕНИЯ ДЛЯ ПОРЯДКОВЫХ ПЕРЕМЕННЫХ
  12. ИЗМЕРЕНИЯ ДЛЯ ИНТЕРВАЛЬНЫХ ПЕРЕМЕННЫХ
  13. ИЗМЕРЕНИЕ СВЯЗИ И ЗНАЧИМОСТИ ДЛЯ ИНТЕРВАЛЬНЫХ ПЕРЕМЕННЫХ
  14. СЛОВАРЬ ТЕРМИНОВ
  15. Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов
  16. КЛАССИЧЕСКАЯ ТЕОРИЯ ТЕСТОВ.ДОСТОИНСТВА И НЕДОСТАТКИ
  17. Приложение 3. Об измерениях и анализе эмпирических данных
  18. Глава 2. Использование нанотехнологий в пищевой промышленности
  19. 14.4.2. Планы второго порядка
  20. 2.5. Информационное обеспечение общественно-географических исследований