<<
>>

Надежность и валидность результатов педагогических измерений

Общие замечания. Размерность, надежность и валидность являются взаимосвязанными свойствами, характеризующими различные аспекты качества педагогических измерений. Выявление размерности — необходимый предварительный этап работ по оцениванию надежности и валидности результатов измерений.

Надежность результатов тестирования. Надежностью (reliability) называется характеристика точности тестовых результатов и их устойчивости к действию случайных факторов [60). По сложившейся традиции термин «надежность» часто, хотя и не совсем верно, используют по отношению к тесту. Однако надежность теста является необходимым, но не достаточным условием получения высокой точности измерений. В случае нарушений требований к стандартизации условий проведения тестирования, проверке и оцениванию его результатов даже с помощью очень надежного измерителя можно получить результаты со значительным ошибочным компонентом.

Концепция истинного балла. Анализ надежности основан на предположении классической теории тестов о связи между наблюдаемым баллом, истинным баллом и ошибкой измерения. Оценка истинных баллов (true scores) испытуемых — главная цель всех, кто создает или применяет педагогические тесты. Так как любые результаты тестирования всегда содержат в себе ошибочные компоненты, то приходится заменять истинные баллы — параметры испытуемых — их наиболее достоверными оценками, которые тем точнее, чем надежнее тест.

Концептуальная формула для коэффициента надежности. Основная аксиома классической теории тестов приводит к фундаментальному соотношению, позволяющему получить концептуальную формулу для коэффициента надежности результатов измерений (количественной характеристики надежности), которая связывает дисперсию (показатель разброса) наблюдаемых баллов S2X и дисперсию ошибок измерения S}- с гн — коэффициентом надежности теста. Эта формула имеет вид

S2

г = 1-^-

Г" 1 С 2 '

Ее значение исключительно теоретическое, поскольку по эмпирическим результатам выполнения теста нельзя подсчитать^.

Несложный анализ формулы для оценивая надежности (1) позволяет сделать выводы о возможных пределах величины г„. Очевидно, что дробь Щ- всегда неотрицательна, поэтому коэффици-

ент надежности не может принимать значение больше единицы. Максимальное значение г„ равное 1, получается в том случае, когда Sj: = 0, — случай, который не встречается в практике измерений. Так как величина дроби уменьшается с ростом знаменателя, то естественно предположить, что надежность увеличивается в тех случаях, когда тест обеспечивает высокий разброс тестовых баллов учеников.

Факторы, влияющие на надежность гомогенного теста. На основе постулатов классической теории тестов и различных модификаций концептуальной формулы (1) можно определить факторы, влияющие на повышение надежности теста. Если при компоновке теста отбирать задания, имеющие наибольшую корреляцию с другими заданиями теста, то тест будет иметь высокую надежность и обеспечит низкую погрешность измерения. Другими словами, чем выше содержательная однородность (гомогенность) теста, тем он надежнее. Этот вывод представляет особую важность для коротких тестов (от 20 до 35 заданий). В очень длинных тестах (более 100 заданий) малые значения иптеркорре- ляции заданий могут сочетаться с высокой надежностью теста. Надежность измерений повышается с увеличением длины теста. Этот формальный вывод не всегда согласуется с реальными возможностями учеников. По мере роста длины теста повышается утомляемость и снижается мотивация к выполнению заданий, что в совокупности ведет к росту ошибки измерения. Поэтому при выборе оптимальной длины геста разработчики анализируют группу факторов, среди которых: высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых заданий, возраст учеников и время выполнения теста, выбранное в соответствии с целями тестирования и физиологическими возможностями учащихся.

По данным Н.Гронлунда, учащиеся старших классов в среднем за 1 мин могут выполнить одно задание с выбором ответа (при числе ответов не более четырех) [88].

На задание с кратким дополняемым ответом требуется в среднем до 2 мин, а с полным свободно конструируемым ответом — до 5 мин. В целом для обеспечения достаточно высокой надежности измерений рекомендуется проводить тестирование выпускников неполной средней школы (IX класс) в течение 2 — 3 уроков, а выпускников средней школы (XI класс) — в течение 2 — 4 уроков.

Валидность результатов педагогических измерений. Валидность но характеристика адекватности результатов измерения поставленной цели создания теста [60|. Другими словами, валидность — это характеристика того, в какой мере удается измерить именно запланированный конструкт. Поэтому оценивание валидности тесно связано с анализом размерности пространства педагогических измерений.

Оценивание валидности. Количественная оценка валидности получается путем соотнесения результатов измерения с различными внешними критериями (обычно качественного характера), независимо описывающими вне ситуации тестирования все, что собирались измерять. Высокая корреляция результатов измерений с внешними критериями свидетельствует о высокой валидности теста. Наоборот, слабая корреляция указывает на неполную адекватность теста своему предназначению и позволяет сделать вывод о низкой валидности теста. Поскольку можно выбрать достаточно много внешних критериев адекватности теста поставленным целям измерения, существуют различные виды валидности и многочисленные методы ее исследования.

Конструктная валидность. Оценка конструктной валидности связана с выявлением того, насколько хорошо измеряется концептуально выбранный латентный конструкт. При анализе конструктной валидности часто рассматривают корреляцию между результатами по новым и уже существующим тестам, валидность которых подтверждена многолетней практикой их применения. Проводят независимую экспертизу качества содержания теста, используют факторный анализ, позволяющий выстроить факторную структуру теста, анализируют внутреннюю согласованность теста методами корреляционного анализа и т.д.

Содержательная валидность. В педагогических измерениях на первый план выходит исследование содержательной валидности

Рис. 8. Модель обеспечения содержательной валидности измерения

геста, основанное на тщательной экспертизе. В общем случае содержательная валидность -- эго степень релевантности и репрезентативности отражения концепчуально выделенного конструкта в содержании заданий теста. В основе работы экспертов обычно лежит анализ полноты, значимости, правильности пропорций содержания теста и его соответствия запланированным для проверки видам учебной деятельности (рис. 8).

Практическое задание и вопросы для обсуждения Какие компоненты педагогических измерений вы знаете? Чем результаты оценивания качества подготовленности студентов, полученные на основе педагогических измерений, отличаются от результатов традиционных экзаменов? Какие виды объективности можно реализовать при использовании тестов, разработанных учителем для текущего контроля? Три ученика отвечали на 6 заданий теста, ранжированных по нарастанию трудности. По результатам ответов получились профили:

первый — 1 I 1 0 0 0; второй — 1 0 1 0 1 0; третий — 0 0 01 1 1.

Кто, по вашему мнению, лучше усвоил содержание проверяемого курса? У кого из трех учеников будет выше истинный балл? Правомерна ли постановка последнего вопроса по отношению к результатам третьего ученика? Если результаты контрольной работы ваших учеников отложить на оси, то какую шкалу но уровню измерений вы получите? Можно ли подсчитать средний балл учащихся по контрольной работе?

<< | >>
Источник: Звонников В. И.. Современные средства оценивания результатов обучения : учеб, пособие для студ. высш. учеб, заведений. 2007

Еще по теме Надежность и валидность результатов педагогических измерений:

  1. Тесты и тестовые задания
  2. I. ПРИЕМЫ ИЗМЕРЕНИЙ И СТАТИСТИЧЕСКИЕ СПОСОБЫ ОБРАБОТКИ ИХ РЕЗУЛЬТАТОВ В ПСИХОЛОГИЧЕСКОМ ИССЛЕДОВАНИИ
  3. Принципы контроля
  4. Исторические предпосылки современного тестирования в отечественном образовании
  5. Развитие тестирования в зарубежных странах
  6. Обзор современных отечественных и зарубежных исследований по проблемам тестирования в образовании
  7. 4.1. Основные понятия теории педагогических измерений
  8. Надежность и валидность результатов педагогических измерений
  9. Нормативно-ориентированный и критериальноориентированный подходы в педагогических измерениях
  10. Инновационные формы тестовых заданий при компьютерном тестировании
  11. Компьютерное адаптивное тестирование
- Коучинг - Методики преподавания - Андрагогика - Внеучебная деятельность - Военная психология - Воспитательный процесс - Деловое общение - Детский аутизм - Детско-родительские отношения - Дошкольная педагогика - Зоопсихология - История психологии - Клиническая психология - Коррекционная педагогика - Логопедия - Медиапсихология‎ - Методология современного образовательного процесса - Начальное образование - Нейро-лингвистическое программирование (НЛП) - Образование, воспитание и развитие детей - Олигофренопедагогика - Олигофренопсихология - Организационное поведение - Основы исследовательской деятельности - Основы педагогики - Основы педагогического мастерства - Основы психологии - Парапсихология - Педагогика - Педагогика высшей школы - Педагогическая психология - Политическая психология‎ - Практическая психология - Пренатальная и перинатальная педагогика - Психологическая диагностика - Психологическая коррекция - Психологические тренинги - Психологическое исследование личности - Психологическое консультирование - Психология влияния и манипулирования - Психология девиантного поведения - Психология общения - Психология труда - Психотерапия - Работа с родителями - Самосовершенствование - Системы образования - Современные образовательные технологии - Социальная психология - Социальная работа - Специальная педагогика - Специальная психология - Сравнительная педагогика - Теория и методика профессионального образования - Технология социальной работы - Трансперсональная психология - Философия образования - Экологическая психология - Экстремальная психология - Этническая психология -