<<
>>

Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов

  Матрица тестовых результатов. Если за каждый правильный ответ па задание испытуемому давать один балл, а за неправильный ответ или пропуск задания — нуль баллов, то профиль ответов учащегося будет иметь вид последовательности из единиц и нулей.
Поскольку каждая единица или нуль появляются в результате взаимодействия испытуемого с заданием, то наиболее адекватной формой представления наблюдаемых результатов выполнения теста будет служить матрица, т. е. прямоугольная таблица, сводящая воедино профили ответов учащихся (строки из оценок учащегося по всем заданиям теста) и профили заданий теста (столбцы из оценок всех учащихся по каждому заданию теста).

Интегрирование данных тестирования в форме матрицы удобно для обработки и отражает взаимодействие множеств испытуемых и заданий, происходящее при выполнении теста (рис. 21).

При геометрической интерпретации этого взаимодействия по горизонтальной оси откладываются оценки параметра трудности заданий теста, по вертикальной — оценки подготовленности тестируемых учащихся. Взаимодействие между /-м испытуемым и j-м заданием порождает наблюдаемый ответ х,у, который при дихотомической оценке принимает одно из двух значений (см. табл. 6).

Рис. 21. Геометрическая интерпретация взаимодействия множеств испытуемых и заданий теста

Правило дихотомического оценивания ответа

Таблица 7

Матрица наблюдаемых результатов выполнения теста


Общий вид матрицы наблюдаемых результатов выполнения N учащимися п заданий теста при дихотомических оценках по заданиям приведен в табл.

7.

Справа в матрице, в вертикальном столбце, содержатся индивидуальные баллы учеников X,- (/ =1, 2, ..., /V), которые получаются суммированием единиц по горизонтали в каждом профиле ответов учащегося. Сложение единиц в столбцах по профилям ответа б л и ц а 8

Матрица результатов тестирования

Номер испытуемого ;

Номер заданий у

1

2

3

4

5

6

7

8

9

10

1

1

1

1

1

1

1

0

0

0

0

2

1

1

0

0

0

0

0

0

0

0

3

0

0

0

0

0

0

0

1

0

0

4

1

1

0

1

1

1

1

1

1

1

5

1

0

1

0

1

1

0

0

0

0

6

1

1

1

0

0

0

0

1

0

0

7

1

1

I

1

0

1

0

0

0

0

8

1

1

1

1

0

0

0

0

0

0

9

1

1

1

1

1

1

1

1

1

0

10

1

1

1

1

1

0

1

0

0

0

тов на п заданий теста позволяет получить числа Rj{j = I, 2,              п),

соответствующие количеству правильных ответов на задания теста.

После занесения результатов выполнения теста в матрицу начинается этап математико-статистической обработки, который включает ряд шагов. Из дидактических соображений для иллюстрации методов обработки выбрана небольшая матрица, когда 10 учеников отвечали всего на 10 заданий теста (табл. 8). Однако все формулы и подсчеты, обсуждаемые в разделе, могут быть распространены на любые выборки испытуемых и применимы к тестам любой длины.

Первый шаг математико-статистической обработки эмпирических данных тестирования. На первом шаге обработки данных тестирования подсчитываются индивидуальные баллы и число правильных ответов на каждое задание теста. Для подсчета индивидуального балла суммируются все единицы, полученные учащимся за правильно выполненные задания теста. Например, четвертый испытуемый выполнил правильно 9 заданий, поэтому его индивидуальный балл paEien 9. Для удобства полученные индивидуальные баллы X,- (/ = 1, 2, ..., 10) приводятся в последнем столбце матрицы результатов (табл. 9).

Число правильных ответов на каждое задание Rj также получается суммированием единиц, но уже расположенных по столб-

Таблица 9

Матрица результатов с индивидуальными баллами испытуемых и количеством правильных ответов на задания теста

Номер

испытуемого

/

Номер заданий j

Индивидуальные баллы (множество X,)

1

2

3

4

5

6

7

8

9

10

1

1

1

1

1

1

1

0

0

0

0

6

2

1

1

0

0

0

0

0

0

0

0

2

3

0

0

0

0

0

0

0

1

0

0

1

4

1

1

0

1

1

1

1

1

1

1

9

5

1

0

1

0

1

1

0

0

0

0

4

6

1

1

1

0

0

0

0

1

0

0

4

7

1

1

1

1

0

1

0

0

0

0

5

8

1

1

1

1

0

0

0

0

0

0

4

9

1

1

1

1

1

1

1

1

1

0

9

10

1

1

1

1

1

0

1

0

0

0

6

Число правильных ответов (множество Rj)

9

8

7

6

5

5

3

4

2

1

50

цам, и размешается в матрице результатов в последней строке под номером соответствующего задания теста.

Второй шаг математико-статистической обработки эмпирических данных тестирования. На втором шаге обработки данных осуществляется упорядочение матрицы результатов тестирования. Для этого производится перестановка столбцов, числа располагаются в порядке убывания. Затем меняются местами строки матрицы так, чтобы верхняя строка соответствовала обучаемому с минимальным индивидуальным баллом. Значения Xt располагаются сверху вниз в порядке возрастания. Упорядоченная матрица данных тестирования приведена в табл. 10.

Третий шаг математико-статистической обработки эмпирических данных тестирования. На данном этапе производится графическая интерпретация распределений эмпирических данных, которые можно представить в виде полигона, гистограммы или сглаженной кривой (процентилей, огивы). Для графической интерпретации результатов учащихся необходимо их предварительное упорядочение в виде несгруппированного ряда произвольной формы (табл. 11), ранжированного ряда (табл. 12), частотного распределения или распределения сгруппированных частот [1; 18; 59].

В табл. 11 содержатся индивидуальные баллы испытуемых, взятые из последнего столбца матрицы эмпирических результатов выполнения теста (см. табл. 9). В табл. 12 эти баллы располагаются в

Таблица 10

Упорядочная матрица данных тестирования

Номера

испытуемых

/

Номера заданий ]

к

1

2

3

4

5

6

7

8

9

10

3

0

0

0

0

0

0

1

0

0

0

1

2

1

1

0

0

0

0

0

0

0

0

2

5

1

0

1

0

1

1

0

0

0

0

4

6

1

1

1

0

0

0

1

0

0

0

4

8

1

1

1

1

0

0

0

0

0

0

4

7

1

1

1

1

0

1

0

0

0

0

5

1

1

1

1

1

1

1

0

0

0

0

6

10

1

1

1

1

1

0

0

1

0

0

6

9

1

1

1

1

1

1

1

1

1

0

9

4

1

1

0

1

1

1

1

1

1

1

9

9

8

7

6

5

5

4

3

2

1

50

Несгруппированный ряд

Номер

1

2

3

4

5

6

7

8

9

10

Балл

6

2

1

9

4

4

5

4

9

6

Таблица 12

Ранжированный ряд

Номер

3

2

5

6

8

7

1

10

4

9

Балл

1

2

4

4

4

5

6

6

9

9

Ранг

1

2

3

3

3

4

5

5

6

6

порядке возрастания слева — направо, а также приводятся места (ранги) испытуемых, соответствующие их индивидуальным баллам.

Данные таблицы удобны для подведения итогов тестирования в работе педагога, поскольку в классе распределения сырых баллов вполне достаточно для сообщения тестовых результатов ученикам.

Например, балл 6 обеспечивает первому испытуемому ранг 5 в группе из 10 учеников. Аналогичным образом можно интерпретировать любую оценку ученика в терминах рангов. Очевидно, что равным баллам приписываются равные ранги.

Если группа учащихся велика, то для определения рангов используют классификацию оценок по распределению частот или строят сгруппированное частотное распределение. По ряду частотного распределения можно получить графическое представление результатов тестирования в виде полигона частот и гистограммы — последовательности столбцов, каждый из которых опи-

Рис. 22. Столбиковая гистограмма для распределения баллов в матрице, представленной в табл. 9

Рис. 23. Сравнение результатов тестирования

рается на единичный (разрядный) интервал и высота которых пропорциональна частоте наблюдаемых баллов [18; 59[.

Например, матрице, представленной в табл. К), соответствует гистограмма, приведенная на рис. 22. Середина столбца совмещается с серединой интервала разряда, длина которого равна одному баллу.

Для сравнения двух или более распределений обычно используют полигоны частот, так как при наложении гистограмм получается довольно запутанная картина.

Например, с помощью полигонов можно сравнить результаты выполнения теста учащимися различных классов, имеющих одинаковое количество учеников (рис. 23). На рисунке отчетливо видно значительное сходство в результатах тестирования у первых двух классов, имеющих довольно похожие полигоны распределения оценок.

Четвертый шаг математико-статистической обработки эмпирических данных тестирования. На данном этапе обработки данных оцениваются меры центральной тенденции в распределении результатов тестирования, предназначенные для выявления той точки, вокруг которой в основном группируются вес результаты выполнения теста [1; 18; 59|.

При анализе результатов тестирования можно использовать разные способы определения такой центральной точки. Наиболее простой из них основан на выявлении моды распределения.

Мода — это такое значение, которое встречается наиболее часто среди результатов выполнения теста. Например, для данных матрицы, представленной в табл. 10, модой является балл «4», потому что он встречается чаще (три раза) любого другого значения балла. Распределение может иметь одну или несколько мод. В случае существования двух мод распределение называется бимодальным. Если все значения баллов учеников встречаются одинаково часто, принято считать, что моды у распределения нет.

Среднее выборочное (среднее арифметическое) определяется суммированием всех значений совокупности баллов и последующим делением на их число. Для индивидуальных баллов Хи Х2, ..., группы N

испытуемых среднее значение X будетили


Среднее арифметическое индивидуальных баллов испытуемых для рассмотренного выше примера матрицы (см. табл. 10) равно

В отличие от моды, фиксирующей одно или несколько значений, на величину среднего влияют значения всех результатов распределения. Таким образом, среднее арифметическое характеризует все распределение в целом. Оно обобщает индивидуальные особенности составляющих распределения на основе уравнивания отдельных значений рассматриваемой величины. С другими свойствами среднего выборочного можно познакомиться в учебнике по статистике.

Меры центральной тенденции полезны при оценке качества теста в том случае, когда есть результаты апробации теста на репрезентативной выборке учеников. Обычно считают, что хороший нормативно-ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки учеников, когда среднее значение баллов находится в центре распределения, а остальные значения концентрируются вокруг среднего по нормальному закону, т.е. примерно 70% значений в центре, а остальные сходят на нет к краям распределения, как показано на рис. 24.


Нормальная кривая — изобретение математиков — в сглаженном, идеальном виде описывает реальный полигон частот. На практике никогда не была и не будет получена совокупность данных, распределенных точно по нормальному закону, просто иногда полезно, допуская определенную ошибку, утверждать, что распределение эмпирических данных близко к нормальной кривой. Нормальное распределение унимодально и симметрично, т.е. половина результатов, расположенная ниже моды, в точности совпадает с другой половиной, расположенной выше, а мода и среднее значение равны.

Если тест обеспечивает распределение баллов, близкое к нормальному, то это означает, что с его помощью можно определить устойчивое среднее, которое принимается в качестве одной из репрезентативных норм выполнения теста. Обратный вывод неверен: устойчивость тестовых норм вовсе не предполагает обязательного нормального распределения эмпирических результатов выполнения теста. Таким образом, правильно сконструированный нормативно-ориентированный тест на репрезентативной выборке учеников должен обеспечивать близкое к симметричному распределение индивидуальных баллов, когда мода и среднее значение примерно равны, а остальные результаты расположены вокруг среднего по нормальному закону.

Пятый шаг математико-статистической обработки эмпирических данных тестирования. На данном этапе определяются описательные характеристики, служащие мерами изменчивости в распределении данных .по тесту [1; 18; 59]. Введение мер изменчивости связано с необходимостью выявления дополнительных оснований для сравнения различных распределений по тестам. Если распределения имеют одинаковые средние, то, оценивая и анализируя меры изменчивости, можно выявить существенные отличия в качестве тестов.

Характеристика изменчивости указывает на особенности разброса эмпирических данных вокруг среднего значения баллов. Отдельные значения индивидуальных баллов могут быть тесно сгруппированы вокруг своего среднего балла или, наоборот, сильно удалены от него. Для отражения характера рассеяния отдельных значений вокруг среднего используются различные меры: размах, дисперсия и стандартное отклонение.

Размах измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Например, для распределения индивидуальных баллов, представленных в табл. 10, размах равен 9-1=8. Вариационный размах легко вычисляется, но при характеристике распределения баллов по тесту используется крайне редко. В о-п е р в ы х, размах является весьма приближенным показателем, так как не зависит от степени изменчивости промежуточных значений, расположенных между

крайними значениями в распределении баллов по тесту. Во-вторых, крайние значения индивидуальных баллов, как правило, ненадежны, поскольку содержат в себе значительную ошибку измерения. В этой связи более удачной мерой изменчивости считается дисперсия.

Подсчет дисперсии основан на вычислении отклонений X, - X (/ = 1, 2, ..., N) каждого значения показателя от среднего арифметического в распределении. Для ученика с индивидуальным баллом выше среднего значение разности Xf - X будет положительно, а для тех, у кого результат ниже X, отклонение Х\ - X будет меньше нуля.

Если просуммировать вес отклонения, взятые со своим знаком, то для симметричных распределений сумма будет равна нулю. Чтобы отрицательные и положительные слагаемые не уничтожали друг друга, каждое отклонение возводят в квадрат, а затем находят сумму квадратов отклонений. Эта сумма будет большой, если результаты тестирования отличаются существенной неоднородностью, и малой — в случае близких результатов испытуемых по тесту. Для матрицы, представленной в табл. 9, сумма квадратов отклонений будет равна

Величина суммы зависит от размера выборки учеников, выполнявших тест, поэтому для сопоставимости мер изменчивости распределений, отличающихся по объему, каждую сумму делят на N - 1, где N — число учеников, выполнявших тест. Определяемая таким образом мера изменчивости называется исправленной дисперсией. Она обычно обозначается символом^ и вычисляется по формуле

(4)

Для рассматриваемого примера

Кроме дисперсии для характеристики меры изменчивости распределения удобно использовать еще один показатель вариации, который называется стандартным отклонением и вычисляется путем извлечения квадратного корня из дисперсии:

(5)

Для рассматриваемого примера данных тестирования Sx ~ ~ 76,89 = 2,62. Свойства дисперсии и стандартного отклонения

рассматриваются подробно в учебниках по статистике. Заинтересованному читателю можно порекомендовать, например, книгу Дж. Гласс и Дж. Стенли «Статистические методы в педагогике и психологии» (181-

Дисперсия играет важную роль в оценке качества тестов. Низкая дисперсия указывает на плохое качество нормативно-ориентированного теста, поскольку не обеспечивается высокий дифференцирующий эффект. Излишне высокая дисперсия, характерная для случая, когда все учащиеся различаются по числу выполненных заданий, также требует переработки теста из-за существенного отличия вида распределения баллов от планируемой нормальной кривой.

Использование стандартного отклонения как меры вариации особенно эффективно для нормального распределения баллов испытуемых, поскольку в этом случае можно прогнозировать процент данных, лежащих внутри одного, двух и трех стандартных отклонений, откладываемых от центра распределения. В любом нормальном распределении приблизительно 68% площади под кривой лежит в пределах одного стандартного отклонения, откладываемого влево и вправо от среднего (т.е. X ± 15Д; 95% площади под кривой расположено в пределах двух5, (X ±25х); 99,7 % площади под кривой — в пределах трех,5^ (X ±3SX). Из всех нормальных кривых наиболее удобна единичная, площадь под которой равна 1. Для нее среднее значение равно нулю (г = 0), а стандартное отклонение единице (а. = 1).

При использовании теста необходимо помнить о том, что получаемое распределение индивидуальных баллов учащихся является следствием подбора трудности заданий теста, как показано на рис. 25.

Для верхнего распределения слева характерно смещение в сторону легких заданий, поэтому большая часть учащихся выполнит почти все задания теста и получит высокие индивидуальные баллы, показанные на правом верхнем рисунке. Средние графики отражают тенденцию к приоритетному подбору самых трудных заданий при разработке теста и вытекающий отсюда всплеск у начала горизонтальной оси там, где располагаются низкие индивидуальные баллы. Тест, представленный на нижнем графике слева, обладает сбалансированной трудностью, что автоматически приводит к нормальности распределения индивидуальных баллов репрезентативной выборки учеников.

Это позволяет считать полученное распределение устойчивым по отношению к генеральной совокупности, а также помогает определить репрезентативные нормы выполнения теста.

Последующие шаги обработки данных предназначаются для оценивания мер симметрии и островершинности кривых распределений [1; 18; 60; 63f и выполняются обычно при разработке

тестов административно-управленческого предназначения не «руками», а с помощью специальных статистических пакетов для ПК. 

<< | >>
Источник: Звонников В. И.. Современные средства оценивания результатов обучения : учеб, пособие для студ. высш. учеб, заведений. 2007

Еще по теме Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов:

  1. Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов
  2. КЛАССИЧЕСКАЯ ТЕОРИЯ ТЕСТОВ.ДОСТОИНСТВА И НЕДОСТАТКИ
  3. НЕМНОГО О СОВРЕМЕННОЙ ТЕОРИИ СОЗДАНИЯ ТЕСТОВ
  4. История исследований парапсихических явлений
  5. 3. Сверхчувственное восприятие (СВ)
- Коучинг - Методики преподавания - Андрагогика - Внеучебная деятельность - Военная психология - Воспитательный процесс - Деловое общение - Детский аутизм - Детско-родительские отношения - Дошкольная педагогика - Зоопсихология - История психологии - Клиническая психология - Коррекционная педагогика - Логопедия - Медиапсихология‎ - Методология современного образовательного процесса - Начальное образование - Нейро-лингвистическое программирование (НЛП) - Образование, воспитание и развитие детей - Олигофренопедагогика - Олигофренопсихология - Организационное поведение - Основы исследовательской деятельности - Основы педагогики - Основы педагогического мастерства - Основы психологии - Парапсихология - Педагогика - Педагогика высшей школы - Педагогическая психология - Политическая психология‎ - Практическая психология - Пренатальная и перинатальная педагогика - Психологическая диагностика - Психологическая коррекция - Психологические тренинги - Психологическое исследование личности - Психологическое консультирование - Психология влияния и манипулирования - Психология девиантного поведения - Психология общения - Психология труда - Психотерапия - Работа с родителями - Самосовершенствование - Системы образования - Современные образовательные технологии - Социальная психология - Социальная работа - Специальная педагогика - Специальная психология - Сравнительная педагогика - Теория и методика профессионального образования - Технология социальной работы - Трансперсональная психология - Философия образования - Экологическая психология - Экстремальная психология - Этническая психология -