<<
>>

НЕМНОГО О СОВРЕМЕННОЙ ТЕОРИИ СОЗДАНИЯ ТЕСТОВ

  Преимущества современной теории создания тестов Понятие о параллельности вариантов Надежность и валидность

За рубежом с конца XX века принята Item Response Theory (IRT), понимаемая как современная теория создания тестов, в основе которой лежит применение математико-статистических моделей измерения для оценки латентных параметров испытуемых и параметров заданий теста.

Модели педагогических измерений в рамках IRT являются частным примером более общей теории латентно-структурного анализа — LSA (Latent Structure Analyses). Латентно-структурный анализ нацелен на выявление внутренних, скрытых качеств и факторов поведения (деятельности) учащихся посредством математико-статистических моделей измерения и обработки результатов.

Специалисты, работающие в рамках IRT, пытаются выработать некоторый фундаментальный теоретический подход к созданию тестов, а также корректно решить целый ряд практических задач педагогического измерения. Используемые модели IRT позволяют повысить точность измерений и оптимизировать процедуру контроля за счет адаптации теста к уровню подготовленности учащегося, т. е. можно визуализировать формальные характеристики тестовых заданий и увидеть, как работают эти задания. Возможность объединить в одной шкале измерения уровня подготовленности учащихся и трудности заданий — серьезное преимущество IRT перед классической теорией.

В зависимости от количества оцениваемых параметров тестируемых различают несколько видов математических моделей, используемых для анализа качества современных тестов.

Однопараметрическая модель Раша (G. Rash) устанавливает зависимость между уровнем подготовленности испытуемого и трудностью заданий. Вероятность правильного ответа на задания здесь выражается посредством логистической функции, после введения которой симметрично возникла математическая модель, описывающая вероятность правильного ответа в зависимости от трудности заданий и позволяющая построить соот

ветствующие характеристические кривые.

Если используется тест с известными устойчивыми значениями параметра трудности, то задача сводится к оценке значений уровня подготовленности испытуемых.

Однопараметрическая модель Раша:

где 0 и р — независимые переменные для первой и второй функций.

Двухпараметрическая модель А. Бирнбаума (A. Birnbaum) позволяет добавить для анализа еще один параметр — дифференцирующую способность, позволяющую оценить меру структурированности знаний учащегося.

Двухпараметрическая модель А. Бирнбаума:


Здесь Бирнбаум ввел параметр ау для характеристики дифференцирующей способности задания при изменении различных значений 0, а параметр щ указывает на меру структурированности знаний ученика.

Для трехпараметрической модели также учитывается и вероятность угадывания ответов. Но из-за сложности обработки трехпараметрическую модель почти не используют.

В каждой из упомянутых моделей вычисляемые параметры выражаются как шкалированные показатели единой шкалы логитов. Благодаря единой шкале можно корректно сравнивать результаты учеников, полученные с помощью различных тестов, подбирать оптимальные значения трудности заданий, позволяющие с минимальной ошибкой измерить уровень подготовки учащихся.

Привлечение сложного математического аппарата для обработки статистических данных требует мощных ресурсов современных компьютеров; лучше всего этим заниматься в специализированных центрах, оснащенных современным оборудованием. Современный математико-статистический аппарат должен лежать и в основе современных программных продуктов; существующие же сегодня программные продукты имеют целый ряд ограничений для использования, многие из них устарели.

Среди специалистов-практиков одни стремятся работать в рамках устоявшейся классической теории, а теоретикам оставляют возможность раскрыть и описать все возможности и преимущества современной теории тестов. Но при этом теряется большое количество ценной для работы учителя информации, которую просто невозможно извлечь без IRT; распространяются в больших количествах некачественные тестовые материалы. Другие специалисты подходят к ситуации более прагматично. Ими выбран рациональный ход: разбить подготовку тестов на два этапа. На первом этапе создания теста из накопленных тестовых заданий эмпирические данные обрабатываются в рамках классической теории, а на втором — для анализа результатов выполнения теста привлекается аппарат IRT [20].

Перечислим кратко основные преимущества IRT: независимость оценок параметров испытуемых от трудности заданий теста; независимость параметров трудности заданий от уровня подготовленности выборки испытуемых; возможность измерения уровня подготовленности учащихся и трудности заданий на одной шкале (шкале логитов).

Перечисленные преимущества очень важны для развития процессов тестирования в любой стране. С помощью IRT можно предсказать вероятность правильного выполнения заданий теста любым испытуемым в выборке еще до предъявления теста учащимся, а также выявить эффективность различных по трудности заданий для тестируемых групп учащихся с различной подготовкой. Преимущества IRT подкреплены соответствующим аппаратом, для которого характерно строгое формализованное представление и анализ эмпирических данных.

Развитие IRT для развития массовых процедур тестирования в нашей стране важно еще и потому, что приходится решать еще одну проблему, касающуюся повышения точности и надежности этих процедур. В России, как известно, существует достаточно специфичная проблема — списывание. Регулировать ситуацию можно только созданием большого количества эквивалентных (параллельных) вариантов тестов, но это усложняет как процедуру создания тестов, так и обработку результатов.

Хорошо известно, что построить параллельные варианты тестов практически невозможно. Даже фасетное конструирование теста приводит к слабой параллельности.

Два варианта итогового теста можно считать параллельными, если задания проверяют достижение одинаковых требований обязательной подготовки и имеют одинаковые статистические характеристики. Иначе говоря, тесты считают параллельными, если они построены на основе одной спецификации и имеют одинаковое количество заданий попарно равной трудности с совпадающими характеристиками. В зарубежной практике при этом пользуются понятием «эквивалентные формы» с таким объяснением: «любая из двух или более форм теста со сходным содержанием и сложностью, которые дают для данной группы очень сходные средние оценки и меры изменчивости» [5].

Поскольку на практике мы имеем дело со слабо параллельными тестами, то и оцениваются они с использованием специальных методик. Для построения параллельных вариантов тестовых форм в идеале необходимо использовать банк калиброванных заданий у сформированных на репрезентативных выборках с разными параметрами. Если же выборка производилась без построения соответствующего алгоритма, т. е. отсутствует доказательство объективности отбора учащихся, даже при соблюдении пропорциональности генеральной совокупности, то выборку нельзя считать репрезентативной.

В рамках отводимых часов для дисциплины «Психологопедагогическая диагностика на основе компьютерного тестирования» нецелесообразно рассматривать математические модели современной теории тестов. Это достаточно объемный круг вопросов, требующий хорошей математической подготовки и освоения современных программных продуктов. Эти темы, возможно, будут интересны студентам, желающим специализироваться в дальнейшем в вопросах педагогических измерений, тогда самостоятельное изучение вопросов по рекомендуемой литературе поможет им в подготовке дипломного исследования.

Рассмотрим далее показатели качества теста в целом в рамках классической теории тестов.

Этими показателями качества являются надежность и валидность. Рассмотренный нами ранее показатель дискриминативности обычно и отождествляют с валидностью. Насколько задания теста пригодны для достижения поставленной цели, настолько и сам тест в целом пригоден для этого. (Интересное практическое наблюдение: оказывается, что задания с высокой дискриминативностью имеют среднюю трудность, обратная же зависимость может не выполняться.)

В зарубежной практике наработано множество методов обоснования качества теста. Однако следует помнить, что не существует единственно правильного и наиболее точного метода: любые оценки надежности и валидности имеют определенную степень достоверности. Поэтому на практике надо пользоваться по возможности несколькими методами.

Надежность отражает точность тестовых измерений и устойчивость тестовых результатов к действию случайных факторов. Данная характеристика имеет два значения. Точность измерения означает устойчивость к действию помех и всевозможных случайностей при проведении процедуры тестирования; уменьшить случайные факторы можно, как говорилось ранее, при помощи грамотно составленной инструкции. Устойчивым же тест считают, если получены близкие по значению результаты при повторном тестировании на параллельной форме.

Методы подсчета надежности теста в учебном пособии М. Б. Челышковой [20] рассматриваются, с опорой на постулаты классической теории тестов, следующим образом.

Постулаты классической теории тестов X = Т + Е, где X — наблюдаемый балл ученика по тесту, Т — истинный балл по тесту, Е — суммарная ошибка измерения истинного балла с помощью теста. «Параллельные формы» теста — разработаны по одной спецификации, содержат равное число заданий равной трудности, с совпадающими характеристиками, и порождают на одной выборке одинаковые распределения наблюдаемых баллов. Ковариации результатов тестирования по таким формам теста должны быть равны. Предположение о существовании результатов бесконечного количества тестирований одного и того же испытуемого с помощью параллельных форм теста.

Тогда среднее значение ошибок измерения истинного балла ученика стремится к нулю при стремлении числа тестирований к бесконечности. Если бесконечная совокупность учащихся бесконечное количество раз тестируется с помощью параллельных форм теста, то среднее значение ошибок измерения баллов в совокуп

ности будет стремиться к нулю при бесконечном увеличении размеров этой совокупности. Истинный балл испытуемого не изменяется при использовании различных параллельных форм теста.

Отсюда следует фундаментальное соотношение классической теории тестов:

(*)

О              О

где Sx — дисперсия наблюдаемых баллов, ST — дисперсия ис-

п

тинных баллов, SE — дисперсия ошибок измерения.

Равенство (*) можно представить в виде:

отношение трактуется как концептуальное определение ко

эффициента надежности теста гн . Отсюда получим формулу для определения надежности:

Надежность увеличивается при увеличении дисперсии наблюдаемых баллов. Максимального значения дисперсия достигает, когда каждое значение балла принимается только один раз {равномерное прямоугольное распределение), — но это противоречит предположению о нормальном распределении.

Существуют два фактора, влияющих на надежность теста. Первым фактором является его внутренняя согласованность, которая обеспечивается содержательной однородностью заданий. В этом случае говорят о гомогенности теста, когда все задания позволяют выявить уровень подготовки учащегося по одному предмету. Здесь нужно внимательнее отслеживать соответствие содержания заданий разработанной спецификации, иначе в погоне за хорошими статистическими характеристиками можно создать некачественный итоговый тест с близкими по содержанию (или даже взаимозависимыми) заданиями.

Вторым фактором принято считать длину теста. В идеальной ситуации, когда количество заданий в совокупности стремится к бесконечности, наблюдаемый балл приближается к истинному баллу при уменьшении ошибки измерения; следовательно, по мере роста количества заданий увеличивается надежность теста.

Немного о современной теории создания тестов

Чаще всего на практике используют формулу Къюдера-Ричард- сона (KR-20), которая пригодна для заданий дихотомического типа:

где Р — доля учащихся, верно выполнивших задание; Q = 1 - Р; k — количество заданий; — квадрат стандартного отклонения для всего теста. Очевидно, чем больше квадрат стандартного отклонения для всего теста, тем он надежнее.

Оценка надежности итоговых (нормативно-ориентированных) тестов проводится различными методами, результаты которых могут существенно различаться. Все используемые методы можно условно разделить на две группы. Ретестовый метод и метод параллельных форм требуют двукратного тестирования, а метод расщепления предполагает однократное тестирование. Формулы для расчета коэффициента надежности теста по любому из этих методов предполагают их использование в автоматическом режиме, т. е. в компьютерной программе. Вывод и описание принципов применения этих формул (Дж. Стенли, Спирмена-Брауна, Кьюдера-Ричардсона) есть в специальной литературе.

Для корректной интерпретации результата необходимо помнить о недостатках используемых методов, которые влияют на точность измерения. Так, повторное тестирование при ретесто- вом методе может исказить результаты, если оно проводится близко по времени от первоначального, но в то же время психологи не рекомендуют проводить проверку позже, чем через две недели после изучения материала. В методе параллельных форм изначально заложена погрешность, поскольку создать параллельные формы (в классическом их понимании) на практике невозможно. Метод же расщепления основан на допущении параллельности двух половин одного теста (он разбивается на четные и нечетные задания), что не всегда верно, поэтому данный метод годится только для гомогенных тестов, причем корреляция двух его половин возрастает по мере роста его гомогенности. Следует обратить внимание и на то, что определение надежности наиболее важно для нормативно-ориентированных тестов, предназначенных для итогового контроля качества подготовки учащихся, поэтому описанные выше методы применяются для создания именно этого вида тестов. Для тестов же, ориентированных на критерии, определение надежности затруднено.

Количественное значение коэффициента надежности может колебаться в интервале [0,7...0,9]. При анализе результатов не следует забывать, что значение надежности зависит от выборки, поскольку коэффициент подсчитывается по матрице результатов.

Перейдем к другой важной характеристике теста — его валидности, т. е. способности теста служить поставленной цели измерения. Цели тестирования иногда бывают комплексными, поэтому валидность оценивается с различных позиций, с учетом возможного направления использования теста.

Различают три вида валидности: содержательную, критериальную и конструктную. Критериальная и конструктная валидности относятся в большей мере к психологическому тестированию, поэтому здесь мы рассмотрим содержательную валидность и оценим подход к измерению валидности по критерию.

Для тестов школьных достижений важна именно содержательная валидность. Она определяется экспертным методом еще на этапе составления окончательного варианта(-ов) теста. Не менее трех экспертов, в соответствии с разработанной инструкцией, определяют соответствие содержания теста его плану. Инструкции различных разработчиков (центров тестирования) при этом могут различаться, во многом это зависит от степени автоматизации процедуры сборки теста.

Надежность и валидность — это взаимосвязанные понятия, поэтому при построении теста придется идти на некоторые компромиссы. Высокое значение коэффициента надежности достигается при высокой однородности теста. Но для повышения содержательной валидности в тест лучше включать задания, содержание которых не взаимосвязано каким-либо заметным образом. Это приведет к повышению полноты охвата содержания, а следовательно, к росту содержательной валидности теста.

Для оценки валидности по критерию необходимо рассмотреть корреляцию между показателями теста и каким-либо внешним критерием. В качестве внешнего критерия используют оценки по традиционной форме оценивания. Если эти оценки совпали, то можно рассчитать валидность по формуле, предложенной А. Анастази [3, том 2].

Необходимость таких расчетов неочевидна, так как внешний критерий в этом случае нельзя считать надежным. Для обеспечения содержательной валидности теста необходимо последовательно выполнить ряд обязательных этапов: 1) экспертизу на соответствие содержания теста и его плана; 2) подбор заданий оптимальной трудности, обеспечивающих нормальное распределение баллов по тесту; 3) включение в тест заданий с высокой дискриминативностью; 4) насколько возможно, точный расчет времени выполнения теста.

Наиболее интересно проверить прогностическую валидность итогового теста. Для этого нужно протестировать студентов по окончании первого курса и оценить корреляцию с результатами для только что поступивших абитуриентов. Высокая корреляция будет означать высокую прогностическую валидность теста, т. е. такой тест может прогнозировать успешность обучения всех, кто получил по нему высокие результаты.

<< | >>
Источник: Самылкина Н. Н.. Современные средства оценивания результатов обучения. 2007

Еще по теме НЕМНОГО О СОВРЕМЕННОЙ ТЕОРИИ СОЗДАНИЯ ТЕСТОВ:

  1. Очерк пятый КУЛЬТУРА И ЕЕ ЭТНИЧЕСКИЕ ФУНКЦИИ
  2. Глава 3g Дж.-Д. Рэй ЕГИПЕТ В ПЕРИОД С 525 ПО 404 Г. ДО Н. Э.
  3. § 4. ПОЛИТОЛОГИЯ КАК УЧЕБНАЯ ДИСЦИПЛИНА
  4. 2. Послереволюционный период
  5. Развитие тестирования в зарубежных странах
  6. НЕМНОГО О СОВРЕМЕННОЙ ТЕОРИИ СОЗДАНИЯ ТЕСТОВ
  7. ИСПОЛЬЗОВАНИЕ ПРОГРАММНЫХ СРЕДСТВАВТОМАТИЗАЦИИ ХОДА ВЫПОЛНЕНИЯИ ОБРАБОТКИ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ
  8. История исследований парапсихических явлений
  9. 3. Сверхчувственное восприятие (СВ)
  10. Методы и приёмы социально-гуманитарных наук
- Коучинг - Методики преподавания - Андрагогика - Внеучебная деятельность - Военная психология - Воспитательный процесс - Деловое общение - Детский аутизм - Детско-родительские отношения - Дошкольная педагогика - Зоопсихология - История психологии - Клиническая психология - Коррекционная педагогика - Логопедия - Медиапсихология‎ - Методология современного образовательного процесса - Начальное образование - Нейро-лингвистическое программирование (НЛП) - Образование, воспитание и развитие детей - Олигофренопедагогика - Олигофренопсихология - Организационное поведение - Основы исследовательской деятельности - Основы педагогики - Основы педагогического мастерства - Основы психологии - Парапсихология - Педагогика - Педагогика высшей школы - Педагогическая психология - Политическая психология‎ - Практическая психология - Пренатальная и перинатальная педагогика - Психологическая диагностика - Психологическая коррекция - Психологические тренинги - Психологическое исследование личности - Психологическое консультирование - Психология влияния и манипулирования - Психология девиантного поведения - Психология общения - Психология труда - Психотерапия - Работа с родителями - Самосовершенствование - Системы образования - Современные образовательные технологии - Социальная психология - Социальная работа - Специальная педагогика - Специальная психология - Сравнительная педагогика - Теория и методика профессионального образования - Технология социальной работы - Трансперсональная психология - Философия образования - Экологическая психология - Экстремальная психология - Этническая психология -