<<
>>

КЛАССИЧЕСКАЯ ТЕОРИЯ ТЕСТОВ.ДОСТОИНСТВА И НЕДОСТАТКИ

  Статистическое обоснование качества теста Представление о репрезентативности выборки Понятия и расчет основных статистических характеристик (меры центральной тенденции, мода, медиана, дисперсия, стандартное отклонение, коэффициенты корреляции) Нормальное распределение.
Проверка на нормальность

В соответствии с классической теорией тестов, показателями качества тестовых заданий являются такие статистические характеристики, как трудность и дискриминативность (дифференцирующая способность).

Трудность задания необходимо определить для правильного конструирования теста. Она определяется как доля учащихся, справившихся с заданием. Более точное определение — это характеристика тестового задания, выраженная процентом от количества испытуемых репрезентативной выборки, верно выполнивших задание.

Поэтому необходимо опробовать составленные тестовые задания на репрезентативной выборке учащихся. Репрезентативной называют выборку, в которой пропорционально представлены все элементы генеральной совокупности (т. е. всех испытуемых). Более точное определение: репрезентативной называется выборка, составленная в соответствии с теорией формирования представительных выборок, при условии, что была научно доказана представительность выборки ко всей совокупности.

Проблема формирования репрезентативной выборки широко прорабатывается международной педагогической общественностью. Наша страна несколько отстает в этом вопросе, поскольку имеет специфику по структуре населения и прочим характеристикам. Методики формирования выборок и практика использования разных методов — это отдельный самостоятельный вопрос, описанный в специальной литературе [10]. Этот вопрос может быть включен в учебный процесс по педагогическим специальностям и направлениям вузов в комплексе с вопросами

рассмотрения современной теории тестов для получения дополнительной специальности «Тестолог».

В ходе создания тестов для тематического контроля педагогу самостоятельно не удастся сформировать репрезентативную выборку в соответствии с научными требованиями. Если на первоначальном этапе учитель-предметник имеет в параллели несколько классов, то для начала разработки тематических тестов этого достаточно. Затем лучше всего такую работу проводить на базе методических центров районов, округов, городов, поскольку в этом случае в апробации можно использовать данные, полученные на большем количестве учащихся соответствующего возраста, а в выборке будут представлены учащиеся различных типов образовательных учреждений и разных социальных слоев. В любом случае при описании назначения теста необходимо указать, на какой выборке были получены данные для его апробации.

Создание высококачественных итоговых тестов по всему предметному курсу — дело специалистов соответствующих центров. Учитель-предметник же должен разбираться в многочисленном тестовом материале и уметь использовать готовые тесты в соответствии с их назначением.

Необходимо правильно истолковывать понятие трудности. Рассмотрим ее значение на элементарном примере. Пусть из 100 учащихся выполнили первое задание 30 учащихся, а второе — 60. Это означает, что второе задание — менее трудное и его надо поставить в начале теста. Некоторые специалисты пользуются обратной величиной (долей тех, кто с заданием не справился), называемой «индексом трудности». В ЕГЭ также используют процент выполнения от количества всех приступивших.

Статистическая трудность необходима для определения места задания в тесте. Значение трудности — это условная величина, поскольку она зависит от выборки: для сильных и слабых групп это значение будет меняться. Значения трудности, меньшие 20 и большие 80, считают критическими, и в нормативноориентированные тесты такие задания включать не рекомендуют. Для критериально-ориентированных тестов эта характеристика не существенна.

Как оценить правильность расположения заданий в тесте? Пусть учащийся выполнил три из четырех предложенных ему заданий, за каждое выполненное задание получил 1 балл, а невыполненное задание оценивается в 0 баллов.

Его профиль (результаты выполнения в виде дихотомических оценок «0» и «1») будет выглядеть так: «1110». Если рассматривать ситуацию на оси переменной, то этот случай выглядит следующим образом (рис. 2).


Рис. 2

Объективность измерения зависит от ошибки измерения. Грамотно составленная инструкция для тестируемого поможет избежать или минимизировать случайные факторы, влияющие на ошибку измерения (волнение, заторможенность, общая обстановка во время тестирования и пр.). Квалифицированный отбор содержания заданий для теста, правильное их расположение, удачно подобранная форма тестового задания — это не случайные факторы. Эти факторы можно регулировать визуальной оценкой профилей. Этот способ, в отличие от факторного анализа (идентификации небольшого числа факторов, которые могут быть использованы для представления отношений внутри множества многих переменных, связанных между собой), не требует специальной подготовки и специальной компьютерной программы. Профиль ответов ученика, состоящий из нулей и единиц, дает ценную информацию о качестве его структуры знаний. Правильная структура знаний соответствует профилю, где все нули следуют только после всех единиц. Если же картина обратная, то это говорит о случайном характере ответов и об отсутствии систематизированных знаний.

Структура знаний также не может быть определена, если задания теста не ранжированы по степени трудности или не отражают все содержание изучаемой дисциплины. Сложность здесь состоит в том, что задания можно располагать по нарастанию трудности лишь в пределах отдельных единиц содержания дисциплины; в пределах же дисциплины в целом это довольно сложно сделать (некоторые специалисты даже утверждают, что вовсе невозможно). Если достаточно большое количество учащихся данной выборки не могут правильно выполнить задание, стоящее в начале теста, то его следует переместить в другую часть теста, и наоборот, — разумеется, предварительно обратив внимание на корректность формулировки условия, ответов, а также на выбранную форму представления задания. Если же

в итоговом тесте встречаются задания, которое выполняют все учащиеся (или, наоборот, не выполняет никто), то их исключают из теста, поскольку они не несут информацию о степени подготовленности учащихся.

Здесь мы рассмотрели случай оценки профилей для определения качества заданий только для построения окончательного варианта теста. Другие интерпретации профиля ответов рассмотрим позднее.

Следующая характеристика качества заданий называется дискриминативностыо, или дифференцирующей способностью.

Она определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, т. е. отвечает на вопрос: насколько точно задание дает возможность провести различие по определенному измеряемому признаку между экзаменуемыми с высокими и низкими способностями. Задание, на которое одинаково хорошо могут ответить экзаменуемые как с высокими, так и с низкими способностями, не обладает хорошей дифференцирующей способностью, поскольку не дает никакой информации об относительных уровнях результатов. Определение дискриминативности относительно внешних критериев (школьных оценок) и использование экспертных оценок мы рассматривать не будем, так как эти методы имеют высокую погрешность. Самый простой и наглядный способ вычисления дискриминативности — это применение метода крайних групп {«метод 27»), когда при расчете учитываются результаты учащихся, наиболее и наименее успешно справившихся с тестом.

Значение дискриминативности может изменяться от -1 до +1. Задание со значением, близким к 4-1, правильно разделяет учащихся: оно означает, что большинство сильных учащихся справились с заданием, а слабым это не удалось. Нулевое же значение указывает, что доли справившихся с заданием в си ль-

ной и слабой группах равны, поэтому задание нуждается в корректировке. Причиной тому может быть один из типичных недостатков низкодискриминативных заданий, а именно: излишняя сложность или запутанность формулировки; неоднозначность условия; подсказка в условии; опора при выполнении задания на память, а не на мыслительные навыки; наличие двух или более правильных ответов; наличие «терминологической» или «логической ловушки» в условии или ответах.

Задания же с отрицательным значением дискриминативно- сти чаще всего требуется удалять из теста либо существенно перерабатывать. В тест должны входить только задания со значением дискриминативности 0,2 и выше.

Существуют и другие способы вычисления дискриминативности, которые используются в практике измерений, но рассмотренный нами — самый простой и вполне надежный.

Итак, разработан вариант теста, который оказался далек по своим показателям от требований критериев качества. Получается, что его использование не поможет определить истинные баллы учеников. Поэтому использовать такой тест можно только в исследовательских целях, а все получаемые выводы должны быть направлены на совершенствование тестового инструментария. Если же работа над тестом завершена, то его можно использовать для получения истинных баллов учеников по его результатам, а оценки характеристик теста предназначены для подтверждения его качества (и, следовательно, надежности). Кстати, составителю теста следует помнить, что задача оптимального подбора состава теста не имеет единственного решения, многое зависит от выборки.

Стоит также отметить, что достижение профессионального качества тестового инструментария не всегда необходимо. Для текущего контроля знаний тесты могут быть подготовлены любым педагогом; те небольшие расчеты, которые были приведены выше, вполне по силам учителю-предметнику. Тесты же для проведения итогового контроля заслуживают большего внимания при подготовке. После их первичной апробации (на малой выборке испытуемых) разработчик должен организовать выполнение этого теста на большой представительной (репрезентативной) выборке, чтобы определить, как часто встречается тот или иной тестовый балл.

Подготовленный тест для любого вида контроля должен быть снабжен инструкцией, где однозначно указано время тестирования и объяснен порядок работы.

Примеры инструкций. Для текущего (тематического) контроля знаний:

Внимательно прочитай условие задания и выбери один правильный ответ. Номер правильного ответа впиши в бланке в свободное место под номером вопроса для ответа. Исправления исключаются. Время выполнения всех заданий — 15 минут. Для итогового контроля знаний:

Рассмотрим теперь показатели качества теста в целом. Это

послужит некоторым доказательством преимущества тестового контроля знаний перед традиционным и поможет переубедить

тех педагогов или методистов, которые используют тестовые материалы в своей работе для итогового контроля знаний, но не считают необходимым проводить элементарную математическую обработку результатов.

Заметим, что, в отличие от традиционных средств контроля, тестовый инструментарий до его использования обязательно проходит проверку на качество, но никто не проверяет контрольный материал, используемый в традиционных проверочных работах. Поэтому тестовые методы контроля знаний позволяют с большей точностью ответить на вопрос: насколько оценка знаний каждого учащегося соответствует его подготовке и следует ли вообще ей доверять?

Прежде всего, необходимо объяснить некоторые понятия и принципы расчета основных статистических характеристик (мер центральной тенденции, моды, дисперсии, стандартного отклонения, коэффициентов корреляции). Наиболее удачно этапы математико-статистической обработки эмпирических данных и их интерпретации приведены в учебном пособии М. Б. Мельниковой «Теория и практика конструирования педагогических тестов».

На основе анализа матрицы результатов тестирования рассмотрим поэтапно получение основных статистических характеристик и их интерпретацию. Следует помнить, что чем больше выборка, тем достовернее данные. Поэтому заслуживают внимания статистические данные по заданию, которое выполняли не менее 100 тестируемых.

Для упрощения работы и для наглядности будем использовать небольшую выборку из 10-12 тестируемых и дихотомический способ оценивания выполнения каждого задания («1» — задание выполнено правильно, «0» — неправильно). С начала сформируем таблицу (табл. 9) — так называемую матрицу результатов тестирования (таблицы и расчеты взяты из [20] и незначительно модифицированы автором). По вертикали здесь располагаются профили ответов тестируемых на каждое задание теста, по горизонтали — результаты выполнения каждым тестируемым заданий теста.

Введем обозначения:

i — номер тестируемого;

j — номер задания,

Хц — результат выполнения i-ы тестируемым /-го задания:

Г

1, при правильном ответе i-ro тестируемого на j-e задание,

Ху " при неправильном ответе i-го тестируемого на j-e задание.

Классическая теория тестов. Достоинства и недостатки

Балл 1 2 4 5 6 9
Частота 1 1 3 1 2 2

Частотное распределение
При этом сумма всех частот в группе (N) должна быть равна количеству тестируемых учеников.

Получилась гистограмма (рис. 3) — последовательность столбцов, каждый из которых опирается на единичный интервал, а высота которых пропорциональна частоте наблюдаемых баллов. Эта гистограмма будет в большей мере похожа на нормальное распределение, если ее строить для сгруппированных данных (табл. 12, рис. 4).

Таблица 12

Сгруппированное частотное распределение

Интервал баллов Частота
1-3 2
4-6 6
7-9 2

Малое количество данных делает картину на рис. 4 малоубедительной, но, проделав то же самое для большого количества данных, мы получаем более убедительный результат.

Определим некоторые понятия.

Мода — это наиболее часто встречающееся значение среди результатов выполнения теста. Для нашего случая модой является значение 4, поскольку оно встретилось чаще, чем другие значения (три раза). Если одинаково часто встречаются два значения (т. е. имеется две моды), то такое распределение называ

ют бимодальным. Нормальное же распределение результатов должно быть унимодальным (с одним значением моды) и симметричным. Бимодальное распределение говорит о неудачно построенном тесте, требующем внимательного анализа других характеристик для выявления причин.

На рис. 5 представлено нормальное распределение результатов для абстрактных данных; это идеальный вид кривой, достаточно редко встречающийся на практике. Но если распределение приближается к такой картине, то с определенной допустимой ошибкой измерения можно говорить о распределении по нормальному закону.

Рис. 5

Хороший нормативно-ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки тестируемых, если среднее значение баллов (X) находится в центре распределения, а остальные — концентрируются вокруг: примерно 70% в центре, а остальные сходят до минимума по краям. Смещение среднего значения влево говорит о слишком трудной подборке заданий теста, и наоборот, смещение вправо — о слишком легкой подборке заданий. Среднее выборочное значение вычисляется просто, поскольку оно есть среднее арифметическое индивидуальных баллов тестируемого:

6+2+1+9+4+4+5+4+9+6              ~

А =              — о.

10

Среднее значение индивидуального балла важно не само по себе, а для анализа других описательных характеристик, позволяющих сравнивать различные распределения по тестам. Можно выявить различия в качестве тестов, сравнивая несколько распределений с одинаковым средним значением. При этом не^ обходимо оценить, как разбросаны эмпирические данные вокруг среднего значения, сгруппированы ли они тесно или, наоборот, сильно удалены друг от друга.

Для этого используют такие характеристики, как дисперсия и стандартное отклонение.

Дисперсия отражает меру неоднородности результатов по тесту и вычисляется по формуле:

tiX.-Xf

о2               i=0

О              •

Можно подсчитать значение дисперсии, в нашем примере оно равно 6,89. Но на практике среднее значение — чаще всего число дробное, подсчет дисперсии вручную делать утомительно и лучше написать небольшую компьютерную программу, которая будет проводить автоматический подсчет, если данная характеристика будет необходима для дальнейшей обработки результатов. Низкая дисперсия говорит о слабом разделении тестируемых по уровню подготовки, а излишне высокое значение дисперсии говорит об искаженной картине распределения, а значит — о наличии проблем в тесте.

Для анализа чаще используют стандартное отклонение, которое равно корню квадратному из дисперсии (в нашем случае оно будет равно 2,62):

Sx =№¦

Существует также несколько других характеристик для детального анализа результатов тестирования. Наибольшее внимание при этом обращают на корреляцию (связь между исследуемыми объектами). Необходимо не только установить наличие такой связи, но и выбрать вид и форму показателя для ее оценки. Это одна из характеристик, обеспечивающих валидность теста. Для определения связи между различными наборами данных используют коэффициент корреляции Пирсона. В случае необходимости определения связи между заданиями в одном тесте используют преобразованный коэффициент Пирсона, называемый «коэффициентом ср»:

Pji ~PjPi JPjQj х PiPi '

где р^ — доля тестируемых, верно выполнивших оба задания (т. е. получивших по 1 баллу за оба задания), pj — доля тестируемых, правильно выполнивших у-е задание (qj= l),pi — доля тестируемых, правильно выполнивших 1-е задание (qi= 1- Pi).

Результаты подсчета коэффициентов корреляции между результатами по отдельным заданиям теста для удобства их интерпретации сводят в таблицу. Коэффициенты корреляции для

итоговых тестов должны лежать в пределах [0; 0,3]. Поскольку итоговый предметный тест — гомогенный, то корреляция должна быть невысокой и положительной. Высокое значение говорит о зависимости заданий друг от друга, что недопустимо в итоговом тесте. Отрицательные значения говорят об отсутствии предметной чистоты содержания теста; такие задания, как правило, удаляются. Для тематических же тестов корреляция будет достаточно высокой, так как и полагается, чтобы результаты выполнения заданий тематического теста слабо варьировались, поскольку они отражают исходное содержание.

Выше был рассмотрен коэффициент корреляции, используемый в случае использования в тесте заданий одного типа, — значит, и распределение задается в одной шкале. На практике в итоговом тесте используют задания разных типов. Если один набор значений распределения задается в дихотомической шкале, а другой — в интервальной, то используют коэффициент би- сериальной корреляции. При этом на практике используют коэффициент точечно-бисериалъной корреляции, поскольку он проще в расчетах и обладает существенным преимуществом: его расчетное значение не выходит за границы интервала [-1; +1], в отличие от значений коэффициента бисериальной корреляции:

(X,), -(Х0), |(W,), х (W„ ),

(r*“ gt;'              Щ,              if N(N-1)              ¦

где (Xi)j — среднее значение индивидуальных баллов тестируемых, верно выполнивших у-е задание теста, (X0)j — среднее

значение индивидуальных баллов тестируемых, неверно выполнивших у-е задание теста, Sx — стандартное отклонение по множеству значений индивидуальных баллов, N — общее количество тестируемых, (Ni)j — количество тестируемых, верно выполнивших у-е задание теста, (No)j — количество тестируемых, неверно выполнивших у-е задание теста.

Анализ значений точечно-бисериальной корреляции позволяет сделать вывод о валидности задания, т. е. о том, насколько задание пригодно для измерения в соответствии с общей целью построения теста. Если эта цель итогового тестирования — дифференцировать учащихся по уровню их подготовки, то валидные задания должны четко разделять сильно и слабо подготовленных в тестируемой группе, т. е. значение коэффициента корреляции должно приближаться к 0,5. При этом также рекомендуется оценить разность (Xi)j - (Xq)j: чем выше значение этой разности, тем лучше задание работает на дифференциацию учащихся.

<< | >>
Источник: Самылкина Н. Н.. Современные средства оценивания результатов обучения. 2007

Еще по теме КЛАССИЧЕСКАЯ ТЕОРИЯ ТЕСТОВ.ДОСТОИНСТВА И НЕДОСТАТКИ:

  1. Формула, веса и база
  2. МЕТОДЫ СТИМУЛИРОВАНИЯ
  3. Этапы социально-психологического исследования.
  4. ПРАЗДНИКИ И ЗРЕЛИЩА В ГРЕЦИИ
  5. АНАЛИЗ ФОРМАТОВ ЖАНРОВЫХ ТЕЛЕПРОДУКТОВ
  6. КОММЕНТАРИЙ
  7. МЕТОДИКИ ИЗУЧЕНИЯ МОТИВАЦИИ ПРОФЕССИОНАЛЬНОЙ ДЕЯТЕЛЬНОСТ
  8. Раздел I СОВРЕМЕННЫЕ МЕТОДЫ ПРЕПОДАВАНИЯ И КОНТРОЛЯ ЗНАНИЙ В БЛОКЕ ЭКОЛОГОЭКОНОМИЧЕСКИХ И ЭКОЛОГОУПРАВЛЕНЧЕСКИХ ДИСЦИПЛИН
  9. Теории инстинктов, влечений, потребностей и мотивов
  10. ГЛАВА I. ЗАРУБЕЖНЫЕ ПЕДАГОГИЧЕСКИЕ КОНЦЕПЦИИИ ПРАКТИКА ДОШКОЛЬНОГО ВОСПИТАНИЯ XX в.
  11. ОРФОЭПИЯ. НОРМЫ ПРОИЗНОШЕНИЯ
  12. Примечания
- Коучинг - Методики преподавания - Андрагогика - Внеучебная деятельность - Военная психология - Воспитательный процесс - Деловое общение - Детский аутизм - Детско-родительские отношения - Дошкольная педагогика - Зоопсихология - История психологии - Клиническая психология - Коррекционная педагогика - Логопедия - Медиапсихология‎ - Методология современного образовательного процесса - Начальное образование - Нейро-лингвистическое программирование (НЛП) - Образование, воспитание и развитие детей - Олигофренопедагогика - Олигофренопсихология - Организационное поведение - Основы исследовательской деятельности - Основы педагогики - Основы педагогического мастерства - Основы психологии - Парапсихология - Педагогика - Педагогика высшей школы - Педагогическая психология - Политическая психология‎ - Практическая психология - Пренатальная и перинатальная педагогика - Психологическая диагностика - Психологическая коррекция - Психологические тренинги - Психологическое исследование личности - Психологическое консультирование - Психология влияния и манипулирования - Психология девиантного поведения - Психология общения - Психология труда - Психотерапия - Работа с родителями - Самосовершенствование - Системы образования - Современные образовательные технологии - Социальная психология - Социальная работа - Специальная педагогика - Специальная психология - Сравнительная педагогика - Теория и методика профессионального образования - Технология социальной работы - Трансперсональная психология - Философия образования - Экологическая психология - Экстремальная психология - Этническая психология -