<<
>>

Дискретные зависимые переменные и цензурированные выборки

Ранее мы рассмотрели модели, в которых какие-либо независимые переменные принимают дискретные значения, например, 0 или 1, выражая некоторые качественные признаки (фиктивные переменные).

Относительно зависимой переменной явно или неявно предполагалось, что она выражает количественный признак, принимая «непрерывное» множество значений. В частности, в нормальной линейной регрессионной модели (п. 2.3) предполагается, что ошибка имеет гауссовское распределение, откуда следует, что зависимая переменная у может принимать любые значения. В то же время довольно часто интересующая нас величина по своей природе является дискретной. Выделим несколько типичных ситуаций.

1. Выбор из двух или нескольких альтернатив. Примеры: -

голосование; -

решение работать или не работать; -

решение покупать или не покупать какой-либо товар дли- тельного пользования (автомобиль, дом и т.п.); -

форма собственности (государственная, смешанная, частная); -

выбор профессии (научный работник, преподаватель, консультант, менеджер); -

способ попадания из дома на работу (пешком, автобус, метро, метро и автобус, автомобиль); и т.д.

Если есть только две возможности (бинарный выбор), то результат наблюдения обычно описывается переменной, принимающей значения 0 или 1, называемой бинарной. В общем случае при наличии к альтернатив результат выбора можно представить переменной, принимающей, например, значения l,...,fc. Если альтернативы нельзя естественным образом упорядочить (как в двух последних примерах), то их нумерация может быть произвольной. В этих случаях соответствующую переменную называют номинальной (qualitative). 2.

Ранжированный выбор. Как и в первом случае, есть несколько альтернатив, но они некоторым образом упорядочены. Примеры: -

доход семьи (низкий, средний, высокий, очень высокий); -

уровень образования (незаконченное среднее, среднее, среднее техническое, высшее); -

состояние больного (плохое, удовлетворительное, хорошее); И т.д.

Соответствующая переменная называется порядковой, ординальной или ранговой (ranking). 3.

Количественная целочисленная характеристика. Примеры: -

количество прибыльных предприятий; -

количество частных университетов; -

число патентов, зарегистрированных в течение года; и т. д. Для моделей с дискретными зависимыми переменными конечно же возможно формальное применение метода наименьших квадратов, однако достаточно удовлетворительные с содержательной точки зрения результаты можно при этом получить, как правило, лишь для моделей третьей группы с количественными целочисленными переменными. В случае порядковых переменных интерпретация оценок коэффициентов при объясняющих переменных значительно затруднена: увеличение на единицу порядковой переменной означает переход к следующей по рангу альтернативе, однако далеко не всегда переход от первой альтернативы ко второй численно эквивалентен переходу от второй к третьей. Бели же зависимая переменная является номинальной и количество альтернатив больше двух, то результаты оценивания вообще теряют смысл в силу произвольности нумерации альтернатив. Таким образом, стандартная регрессионная схема, которую мы использовали ранее для анализа зависимости интересующей нас переменной от экзогенных факторов, в случае номинальных эндогенных переменных нуждается в существенной коррекции.

Сначала мы рассмотрим модели бинарного выбора, затем будет показано, что модели с несколькими альтернативами могут быть либо непосредственно сведены к моделям бинарного выбора, либо могут быть исследованы аналогичными методами.

Другой класс моделей, рассматриваемых в данной главе, связан с цензурированными (censored) и урезанными (truncated) выборками. Классический пример цензурирования дает изучение расходов семей на покупку товаров длительного пользования (автомобиля, дома и т. п.). Ясно, что эти расходы не могут быть отрицательными и в то же время при проведении обследования будут встречаться наблюдения с нулевым значением этих расходов, что просто означает отказ от покупки соответствующего товара.

Здесь осуществляется цензурирование выборки на уровне 0 значения зависимой переменной. Другой пример дает определение «времени жизни» технического изделия с помощью испытания в одинаковых условиях в течение определенного периода нескольких экземпляров изделия. Для тех образцов, которые в процессе испытаний вышли из строя, время жизни будет зафиксировано точно, для остальных временем жизни будет считаться длительность испытаний, а истинное его значение останется неизвестным. В этом случае уровнем цензурирования является период испытаг ний. Можно показать, что в подобных ситуациях непосредственное применение метода наименьших квадратов дает смещенные оценки параметров.

Пример урезания выборки дает исследование распределения семей по объему выплачиваемых налогов или изучение зависимости выплачиваемых налогов от размера семьи, возраста ее членов и т. п. Здесь из рассмотрения могут исключаться семьи, имеющие доход ниже официального уровня бедности. В этом случае уровень бедности определяет урезание выборки. Метод наименьших квадратов здесь также приводит к смещенным оценкам.

Подчеркнем разницу между цензурированием и урезанием. В первой ситуации даже для цензурированного наблюдения известны значения независимых переменных, в то время как во втором случае известен лишь уровень урезания, а значения независимых переменных для исключенных из рассмотрения объектов неизвестны.

<< | >>
Источник: Магнус Я.Р., Катышев П.К., Пересецкий АЛ. Эконометрика. Начальный курс: Учеб. — 6-е изд., перераб. и доп. — М.: Дело. — 576 с.. 2004

Еще по теме Дискретные зависимые переменные и цензурированные выборки:

  1. Предисловие к третьему изданию
  2. Дискретные зависимые переменные и цензурированные выборки
  3. Упражнения 12.1.