close

Вход

Забыли?

вход по аккаунту

?

Максимова О.А. Основы технологии комплексной экспертизы качества педагогических тестов

код для вставкиСкачать
1 Томский областной институт повышения квалификации и переподготовки работников образования О.Е. Пермяков, О.А.Максимова Основы технологии комплексной экспертизы качества педагогических тестов Томск 2008
2 ББК 74.204 П31 Рецензенты: Доктор педагогических наук, профессор С.В. Менькова Кандидат педагогических наук, П.И. Горлов Пермяков О.Е., Максимова О.А. П31
Основы технологии комплексной экспертизы качества педагогических тестов: Монография. – Томск: Изд-во ТОИПКРО, 2008. – 100 с. ISBN 978-5-903029-17-4 В монографии раскрываются теоретические положения тестовой квалиметрии и научно-методологические основы технологии комплексной экспертизы качества педагогических тестов, разрабатываемых для диагностики и контроля качества образовательных достижений обучающихся. Монография предназначена для слушателей курсов повышения квалификации, а также для преподавателей и методистов общеобразовательных учреждений, вузов и ссузов, применяющих в своей педагогической практике тестовые технологии. Печатается по решению Ученого совета Томского областного института повышения квалификации и переподготовки работников образования ББК 74.204 © ТОИПКРО, 2008 ISBN 978-5-903029-17-4 © О.Е. Пермяков, О.А. Максимова, 2008 3 Оглавление Введение 4 1. Систематика педагогических тестов 6 2. Основы квалиметрии педагогических тестов 11 3. Концептуальная модель комплексной экспертизы качества педагогических тестов 15 4. Критерии и показатели качества педагогического теста 19 5. Комплексная экспертиза качества тестовых материалов 28 5.1 Предварительная экспертиза 32 5.2 Внутренняя экспертиза качества тестовых материалов 51 5.3 Тестологическая экспертиза качества тестовых материалов 63 5.4 Комплексная экспертиза качества тестовых материалов 79 6. Структурно-функциональная модель
организации и проведения комплексной экспертизы качества тестовых материалов 87 Заключение 92 Список использованной литературы 95 4 Введение Перемены последних десятилетий во всех областях человеческой жизнедеятельности, прежде всего связанных с созданием техносферы, требуют проектирования и конструирования новой образовательной системы с учетом перспективных изменений в технике и технологии [23]. В условиях интеграции в мировое образовательное пространство и модернизации отечественного образования образовательные учреждения стоят перед проблемой обеспечения качества. В этой связи актуальной
становится задача оценки качества образования. Основные тенденции совершенствования системы образования, такие как гуманизация, демократизация, информатизация, индивидуализация обучения, внедрение образовательных стандартов на всех стадиях учебного процесса повлекли за собой изменение содержания образования в целом. Как следствие всех этих изменений возникает проблема формирования принципиально новых подходов к педагогической диагностике и контролю. При повышении качества образования контроль и диагностика приобретают особую значимость. В новой парадигме педагогической науки акцент ставится, прежде всего, на многомерном и многоэтапном измерении качества образовательных достижений обучающихся. Наиболее эффективным средством педагогической диагностики и контроля качества обучения является использование в учебном процессе педагогического тестирования. Педагогическое тестирование, применяемое в системе образования, призвано обеспечить
получение оперативной и объективной информации о качестве достижений обучающихся. Под педагогическим тестированием понимается совокупность организационных и методических мероприятий, обеспечивающих разработку педагогических тестов, подготовку и проведение формализованной процедуры измерения уровня подготовленности испытуемых по конкретным разделам области знаний, а также обработку и анализ результатов [10]. Традиционно в педагогической практике под тестами учебных достижений подразумеваются тесты, которые дают конечную оценку уровня учебных достижений по завершении обучения [43]. Выделяют две группы тестов достижений: широко ориентированные тесты достижений и тесты достижений по конкретным учебным предметам. Широко ориентированные тесты достижений ориентированы на оценку навыков по основным целям обучения (например, тесты на понимание научных принципов) [2]. Тесты достижений по конкретным предметам ориентированы на оценку усвоения элементов учебных дисциплин, конкретных тем, уровня овладения навыками [43]. Такие тесты выполняют несколько функций: 5 • оценочная – средство оценки знаний и умений; • диагностическая – выявление причин успехов и недостатков; • ориентирующая – подсказывают направление последующего обучения; • мотивирующая – обеспечивают мотивацию обучающегося; • обучающая – помогают скорректировать обучение под возможности и потребности обучающегося; • информационная – дают информацию об уровне знаний, усвоенных обучающимися. Эффективный контроль качества образования возможен при использовании
объективных, надежных и валидных измерительных инструментов Доказано [1, 8, 10, 11, 15, 27, 43, 56 и др.], что педагогические тесты обладают рядом преимущественных свойств перед другими средствами педагогической диагностики и контроля: технологичность, оперативность, объективность, систематичность, комплексность, полифункциональность, универсальность, устранение негативного восприятия со стороны обучаемого на преподавателя. В связи с этим в условиях формирования национальной системы оценки качества образования тестовые технологии находят активное применение: при итоговой государственной аттестации выпускников (Единый государственный экзамен); Централизованное тестирование, при аккредитации и лицензировании образовательных учреждений, при проведении разного рода региональных мониторинговых исследований качества образования и пр. Но вместе с тем, практика применения тестовых технологий для педагогической диагностики и контроля качества обучения выявила важнейшую проблему в возрастающей активности и масштабности применения педагогических тестов для разных целей в сфере образования и их низким качеством. Современная дидактическая тестология считает, что низкое качество педагогических тестов зависит в основном от низкого качества их разработки – если они сделаны наскоро, не проверены на надёжность и валидность [22]. Решение проблем повышения качества педагогических тестов
, применяемых в системе образования для диагностики и контроля качества обучения, видится в проведении комплексной экспертизы качества на стадии их разработки. Таким образом, актуальность данного исследования определяется современными тенденциями развития тестовых технологий контроля и диагностики образования, потребностью со стороны общества и системы образования в достоверной информации о качестве образования и недостаточной разработанностью концептуальных, технологических и методических основ экспертизы педагогических тестов. 6 Отечественный и зарубежный опыт развития образования подтверждает известное положение о том, что для решения проблемы объективной оценки качества достижений обучающихся необходимо учитывать внутренние взаимосвязи и противоречия условий функционирования образовательной системы. В настоящее время в теории и практике разработки и применения тестов существует целый ряд противоречий: 9 между необходимостью в достоверной информации
о качестве учебных достижений и невозможностью ее получения из–за применения некачественных педагогических тестов; 9 между потребностью применения тестов для контроля качества достижений обучающихся и несовершенством существующих методик их разработки и экспертизы; 9 между современными требованиями к качеству тестов, как измерительному инструменту контроля, и отсутствием сбалансированной системы критериев и показателей их качества; 9 между необходимостью в качественных (стандартизированных) тестах и тестовых заданий и отсутствием методик обработки и интерпретации результатов их экспертизы; 9 между потребностью в комплексной методике экспертизы качества педагогических тестов и ее отсутствием. Экспертиза качества является обязательным этапом создания и стандартизации качественных и надежных педагогических тестов. Проблема заключается в том
, что экспертиза до сих пор методологически полностью не исследована. В связи с этим возникает проблема создания комплексной экспертизы качества педагогических тестов с позиций квалиметрического и системного подходов. 1. Систематика педагогических тестов В настоящее время для педагогической диагностики и контроля обучающихся применяется большое разнообразие педагогических тестов (таблица № 1). В первую очередь, педагогические тесты различаются по цели тестирования: тесты для входного (предварительного) контроля, которые служат основой для установления исходного уровня подготовленности обучающихся; для текущего контроля – осуществляют оперативную обратную связь в ходе изучения дисциплины; для рубежного контроля – оценивание объема накопленных знаний и тесты для итогового контроля, которые позволяют установить уровень и качество овладения материалом 7 изученной дисциплины. С точки зрения диагностической направленности тесты бывают нормативно–ориентированные (позволяют сравнивать УД отдельных испытуемых друг с другом) и критериально–ориентированные (оценивание степени овладения необходимым учебным материалом) [27]. В настоящее время в практике наибольшее применение нашли две разновидности критериально-ориентированных педагогических тестов: domian-referenced test (используется для оценивания доли от полного объема учебного
материала) и mastery tests (квалификационные тесты). В последнее время в научной литературе выделяется еще один вид педагогических тестов: нормативно-критериальные тесты – это такие тесты, которые кроме измерения уровней достижений и возможности их сопоставления с требованиями образовательных стандартов, предполагают определение потенциальных возможностей обучающихся [36]. Таблица № 1 Классификация педагогических тестов, применяемых для педагогической диагностики № Основание классификации Виды педагогических тестов 1. по времени предъявления 9 тесты для входного контроля 9 тесты для текущего контроля 9 тесты для рубежного контроля 9 тесты для итогового контроля 2. по диагностической направленности (с точки зрения интерпретации результатов) 9 нормативно-ориентированные 9 критериально-ориентированные 9 нормативно-критериальные 3. по содержанию и структуре 9 гомогенные 9 гетерогенные 4. по процедуре создания 9 стандартизированные 9 нестандартизированные 5. по количеству измеряемых признаков 9 одномерные 9 многомерные 6. по средствам предъявления 9 бланковые 9 компьютерные 8 По процедуре создания тесты бывают стандартизированные (в этом случае, мы говорим о тестовых измерителях) и нестандартизированные (тестовые материалы). Под стандартизацией понимается процесс создания теста по определенным правилам (нормам), его экспериментальная проверка и апробация среди большого контингента испытуемых для выявления соответствия теста требованиям единого стандарта, а также выявления эффективности педагогических тестов при контроле заданных параметров. Процедуры стандартизации тестов основываются на требованиях к содержанию, к форме, к статистическим данным о результатах выполнения теста и т.д., формализованных нормативных документах [42]. По содержанию и структуре тесты бывают гомогенные, проверяющие уровень знаний по отдельной дисциплине; гетерогенные – по нескольким смежным дисциплинам. По технологии предъявления выделяют компьютерные и
бланковые тесты. При компьютерном тестировании текст заданий, варианты ответов и поля для верных ответов располагаются на мониторе персонального компьютера, при бланочном тестировании – на специальных бумажных бланках. Компьютерное тестирование обладает рядом преимуществ [23], которые позволяют: • применять новые адаптивные алгоритмы тестового контроля; • использовать в тестах мультимедийные возможности компьютеров; • уменьшить объём бумажной работы и ускорить подсчёт результатов, • упростить администрирование и проводить тестирование круглый год; • обеспечить комфортные условия работы для каждого тестируемого; • повысить секретность и оперативность передаваемой информации; • снизить затраты на организацию и проведение тестирования. Педагогический тест – это многокомпонентная структура, состоящая из следующих элементов: 9 спецификации; 9
инструкции по применению; 9 инструкции по выполнению для испытуемых; 9 инструкции по обработке результатов тестирования; 9 системы тестовых заданий, расположенных определенным образом в общей структуре теста; 9 эталонов правильных ответов. 9 Главным составляющим элементом теста является тестовое задание. Общепризнанной классификацией видов тестовых заданий в отечественной практике является классификация, предложенная В.С. Аванесовым, которая включает в себя четыре основных типа тестовых заданий: 1. задания с выбором ответа (закрытые задания) – к заданию предоставляются готовые ответы, один или несколько из которых правильные и «отвлекающие» варианты
ответов (дистракторы). Основная цель заданий закрытой формы − быстро проверить ориентированность обучающегося в данной учебной дисциплине для самопроверки. При этом используется выборочность ответа на поставленный вопрос. 2. задания открытой формы – представляют собой утверждение с неизвестной переменной и используются для проверки основных понятий, законов, фактов. Ответ заданной формы тестового задания определяется в виде одного (реже двух) ключевого термина, значение которого является обязательным. 3. задания на установление правильной последовательности – предназначены для проверки правильного владения последовательностью действий, процессов, операций, суждений, вычислений. Эти задания используются, преимущественно, для оценки уровня подготовки, а также для контроля знаний основных понятий и законов изучаемой учебной дисциплины. 4. задания на установление соответствия – задания, суть которых заключается в необходимости установить соответствие элементов одного множества элементам другого. Каждый вид тестового задания подразделяется на подтипы, основанием для выделения которых является форма представленности вариантов правильных ответов. 10 Задания с выбором ответа (в закрытой форме) Тестовые задания Задания с повторяющи
мся выбором Задания с неповторяю
щимся выбором Задания с неповторяю
щимся выбором Задания с повторяющи
мся выбором Задания на установление
соответствия открытой
формы Задания на установление соответствия с вариантами За
д
ания на у
становление соответствия
Задания на установление правильной последовательности в отк
р
ытой ф
о
р
ме Задания на установление правильной последовательности в закрытой форме (с готовыми вариантами последовательности) Задания
на
установление
правильной
последовательности
Задания с 3‐
мя и более вариантами ответа Задания на сравнение величин
Задания с выбором нескольких правильных
ответов Задания на логический выбор из трех утверждений Задания с привязкой к одному информационн
ому
блоку
Задания с подчеркивани
ем частей предложения Задания с пропусками частей предложения Задания на причинно‐
следственные отношения Задания на «квазипрофесси
ональную» ситуацию Задания с 2‐
мя ответами
Задания на выбор местоположе
ния курсора мыши на экране монитора Задания открытой формы
Задания с коротким ответом
Задания с развернутым ответом
Рисунок 1. Классификация видов и подвидов педагогических тестовых заданий (В.С. Аванесов, 1995г.) 11 2. Основы квалиметрии педагогических тестов Квалиметрия – область науки, изучающая методы количественной оценки качества объектов. Слово квалиметрия происходит от латинского «gvalitas» (качество) и древнегреческого «μετρον» (мера, измеряю). За последние десятилетия количественное описание качественных явлений в образовании получает все большее распространение. Тестовая квалиметрия выступает как исследование общих проблем применения квалиметрических процедур при разработке и экспертизе педагогических тестов. Центральным понятием в рамках тестовой квалиметрии является категория «качество педагогических тестов». Согласно международным стандартам ИСО 9000−2000 и ИСО 9001−2000 под качеством в общем смысле понимается «степень, с которой совокупность собственных характеристик выполняет требования». При этом категория качества является центральной в теории общей квалиметрии и определяется через систему суждений, в которой представлены
основные системные принципы и закономерности качества в целом, среди них: 9 качество есть совокупность свойств; 9 качество есть иерархическая система свойств или качеств частей объекта или процесса (структурность качества); 9 качество динамично; 9 качество выражается в закономерной связи составляющих частей, элементов; 9 качество – основа существования объекта или процесса; 9 качество обусловливает единичность объекта или процесса, его специфичность, целостность, упорядоченность, устойчивость; 9 качество создаваемых человеком объектов и процессов обусловливает их пригодность и приспособленность для определенных целей, задач, условий, выдвигаемых человеком [37,38]. Следует особо отметить, что категория «качество педагогического теста» обладает дуальной сущностью: качество проявляет себя через свойства в системе взаимодействий и отношений, 12 в то же время свойства внутренне обусловлены качеством, при этом свойства являются основой для формирования требований к качеству тестов и его комплексной оценки в целом. В этой связи возникает проблема в методологическом плане: что есть качество теста? Это совокупность свойств и характеристик или это комплексная характеристика всех свойств педагогического теста в
целом? Попробуем разобраться в данном вопросе. В теории квалиметрии свойство определяется как объективная особенность объекта, проявляющаяся при его создании, эксплуатации или использовании по назначению. По структуре свойства могут быть простыми и сложными. Простое свойство – это такое свойство, которое не может быть разделено на другие свойства. Сложное свойство – такое свойство, которое может быть подразделено на два или более других менее сложных свойств. С целью описания свойств тестового материала обратимся к основным определениям теста. Традиционно тестирование рассматривается как метод педагогического измерения. В рамках данного подхода под тестом понимается «инструмент, состоящий из квалиметрически выверенной системы тестовых заданий, стандартизированной процедуры проведения и заранее спроектированной технологии
обработки и анализа результатов, предназначенный для измерения качеств и свойств личности, измерение которых возможно в процессе систематического обучения» [17]. Помимо традиционного подхода существует и иной, который характеризует тест как результат применения теста [1]. В последнее время в работах исследователей по дидактической тестологии [10, 11, 41 и др.] наметился качественно иной подход к определению теста с позиций системного и квалиметрического подходов, согласно которому тест рассматривается как измерительное средство, представляющее собой стандартизированную систему калиброванных заданий специфической формы, позволяющее надежно и объективно оценить уровень учебных достижений испытуемых и выразить результат в числовом эквиваленте [11]. Применение квалиметрического и системного подходов позволило выявить ряд специфических свойств, присущих тестовым материалам. С позиций квалиметрического подхода тестовые задания (ТЗ) и тест в целом детализируют требования к результатам подготовки обучающихся, формализованные в логике системо-
деятельностного подхода в тексте тестовых заданий, в инструкции к выполнению теста, в правильных ответах и критериях проверки 13 решений, которые выступают в качестве базы сравнения при оценке ответов (решений) тестируемых. С позиций системного подхода – тест рассматривается как система, состоящая из подсистем – тестовых заданий, обладающий рядом свойств, характерных для системы в целом: целостность, неаддитивность, эмерджентность, синергизм, обособленность, совместимость и адаптивность. Целостность теста характеризуется рядом свойств и особенностей. Многогранность целостности отражается
наличием у теста общей цели – гарантии оценки качества подготовки обучающихся и характеризуется дифференциацией, интеграцией и асимметрией тестовых заданий, решающих различные задачи для достижения заданной цели. Неаддитивность означает появление нового качества теста как системы, возникающее в результате интеграции ТЗ в единое целое. При этом интеграция ТЗ во многом определяется их совместимостью – взаимосвязанностью внутри теста в логике совместимости самого теста с элементами других систем, входящих в комплекс учебно-
методического обеспечения образовательного процесса: − требованиями образовательного стандарта (ОС) и образовательной программы к содержанию и результатам подготовки обучающихся; − программой и кодификатором учебной дисциплины; − другими контролирующими (оценочными) материалами (контрольными заданиями, опросниками, заданиями на выполнение лабораторных работ и пр.). Логика компоновки теста как системы должна основываться на синергизме тестовых заданий. Интеграция ТЗ приводит к появлению у теста эмерджентных свойств, которые не присущи составляющим ее элементам. Обособленность теста как системы заключается в функциональной специфике отличающейся от специфики других контролирующих (оценочных) материалов в общей иерархии построения комплексов
оценочных средств и учебно-методического обеспечения образовательного процесса. Адаптивность – свойство теста как системы, характеризуется возможностью применения теста при смене контингента обучающихся, при изменениях технологий обучения или при незначительных коррекциях целей обучения [29]. Таким образом, качество теста характеризуется совокупностью внутренних и внешних свойств. Внутренние свойства обусловлены системными связями (объект–объектными отношениями) между элементами во внутренней структуре теста и являются качественными 14 неотъемлемыми характеристиками (атрибутами), стабильными и не зависящими от исследуемого контингента обучающихся. Как отмечает К.Д. Дятлова [10] они имманентно присущи тестовому заданию. К таковым можно отнести: содержание и форму ТЗ, компоновку и логичность структуры, соответствие спецификации и др. В отличие от внутренних свойств внешние свойства теста проявляются не только в объект – объектных
, но и в субъект – объектных взаимосвязях. Первые характеризуют представленность теста в комплексе оценочных средств или в более общей системе учебно-методического обеспечения образовательного процесса. Вторые характеризуются количественными характеристиками, полученными в результате обработки результатов тестирования. Поскольку результаты тестирования разных групп испытуемых непостоянны это дает основание определять такие внешние свойства как «динамический элемент качества», проявляющийся во взаимодействии теста с внешней средой – группой испытуемых и условия проведения тестирования – источник изменения свойств во времени. Следовательно, качество педагогического теста определяется совокупностью внутренних и внешних свойств теста, которое оценивается некоторым множеством количественных и качественных характеристик. В целом качество теста как интегральное проявление его свойств есть самостоятельная категория
. В теории квалиметрии качество объекта оценивается через систему показателей. При этом система показателей качества состоит из единичных показателей качества (показатели качества, которые характеризуют одно свойство педагогического теста), единичные показатели качества агрегируются в комплексные показатели качества (показатели качества, характеризующие несколько его свойств), в свою очередь, комплексные показатели качества агрегируется в интегральный показатель качества, выраженный суммой значений единичных и комплексных показателей качества элементов педагогического теста с учетом их значимости. В общей квалиметрии в зависимости от цели оценки качества объекта используются различные методы и методики оценивания. Все методы, применяемые в квалиметрии, разделяются на две основные группы: 9 дифференциальные – применяются в основном при оценке «
главного» качества. 15 9 комплексные – применяются в большинстве случаев оценки качества (для объектов, отличающихся сложной структурой свойств, определяющих их качество). Исходя из сложной природы педагогического теста как системы, комплексная оценка его качества может определяться в два основных этапа. Первый – оценка свойств элементов теста и отдельных свойств самого теста. Второй – комплексная оценка интегрального свойства теста
. Оценка качества элементов и в целом самого теста многократно проводится при стандартизации теста. Принято использовать термин тестовые материалы применительно к тестам не прошедшим стандартизацию. Одним из основных методов оценки качества тестовых материалов является экспертиза их качества. 3. Концептуальная модель комплексной экспертизы качества педагогических тестов Под экспертизой в общем виде понимают исследование какого-
либо вопроса, требующего специальных знаний, с представлением мотивированного заключения [37]. Термин экспертиза происходит от латинского еxpertus, что означает опытный. Эффективность применения экспертизы во многом зависит от принципов ее организации и проведения, к таковым относятся: 9 принцип системности экспертизы предполагает системную организацию экспертной деятельности
, ее нормативного и методологического обеспечения; 9 принцип комплексности экспертизы позволяет выявить все структурные элементы исследуемого объекта, тем самым реализовать многокомпонентный и многофакторный анализ объектов экспертизы. Соблюдение данного принципа при организации и проведении экспертизы позволяет получить наиболее достоверную информацию об объекте; 9 принцип объективности экспертизы основывается на надежности, достоверности и полноте
получаемой в ходе экспертной деятельности информации; 16 9 принцип независимости мнений экспертов является одним из важнейших принципов, обеспечивающих объективность экспертизы; 9 принцип профессиональной компетентности экспертов – профессиональная компетентность привлекаемых экспертов определяется объемом их знаний и опытом работы в требуемой профессиональной сфере; 9 принцип преемственности этапов в проведении экспертизы означает, что каждый последующий этап включает в себя информацию от предыдущего этапа, при этом итоговое заключение об исследуемом объекте формируется кумулятивно к заключительному этапу экспертизы; 9 принцип необходимости контроля за соблюдением процедур экспертизы – во избежание неэффективности полученных результатов экспертизы необходимо четко и строго соблюдать последовательность технологических процессов экспертизы. С этой целью разрабатываются инструкции по проведению экспертизы, экспертные карты, анкеты-
опросники и пр. Таким образом, экспертиза качества тестовых материалов представляет собой специфический вид деятельности. В процессе экспертизы, оцениваемые педагогические тесты, рассматриваются с точки зрения критериев и показателей оценки качества. С позиций системного и квалиметрического подходов экспертиза качества педагогических тестов представляет собой целостную сферу деятельности, включающую процедуры анализа, измерения и собственно оценки
качества объектов. В основе технологии экспертизы выделяются оценочные акты, функциональная схема которых может быть представлена следующим образом: субъекты экспертизы, используя необходимые средства и знания, производят процедуры оценивания над объектом в целом или над его отдельными свойствами с определенной целью и получают в итоге некоторый результат (собственно оценку). Применяя концепцию оценки качества, предложенную А.И. Субетто [39], экспертизу (Э) качества тестовых материалов можно представить следующей моделью: Э = < С, О, Б, П >, где С – субъекты проведения экспертизы; 17 О – объекты экспертизы; Б – база оценивания; П – технологические этапы и процедуры экспертизы качества педагогических тестов. Субъект оценивания. В качестве субъектов оценивания качества педагогических тестов выступают организаторы экспертизы, эксперты−предметники и тестологи. Экспертная деятельность направлена на получение экспертных оценок. В процессе экспертной деятельности эксперту необходимо вынести суждение об оцениваемом объекте. В
научной литературе по экспертологии экспертные суждения трактуются как экспертные оценки. По сути своей экспертные оценки предстают как ответ эксперта по поставленному вопросу. Данный факт подразумевает, что в процессе экспертной деятельности экспертом проводится исследование свойств и характеристик оцениваемого объекта. Эти исследования могут проводиться в виде цепочки логических умозаключений, аналитических исследований, проверочных расчетов, экспериментов, моделирования или их комбинации. Сформированные в процессе проведения экспертизы, экспертные оценки могут быть представлены в виде содержательной, качественной или количественной оценки исследуемого объекта. Объект оценивания. В качестве объектов оценивания выступают тестовые материалы: ТЗ, варианты тестов и сопутствующая этапу разработки нормативная документация (спецификация, кодификатор, инструкции для тестируемых и инструкции для
организаторов тестирования и др.). База оценивания. В качестве базы оценивания качества педагогических тестов выступает сбалансированная система критериев качества и соответствующие им базовые значения показателей. В связи с тем, что целью экспертизы качества, является выявление степени соответствия оцениваемых объектов предъявляемым требованиям, возникает необходимость описать критерии качества. Согласно стандартам ИСО 9000:2000 и ИСО
9001:2000 критерий оценки качества есть совокупность требований, которые используются как основа для сравнения. Результатом экспертизы является комплексная оценка качества педагогических тестов, выраженная через интегральный показатель качества. 18 Таким образом, цель экспертизы качества педагогического теста − комплексная оценка его качества. Основными задачами экспертизы качества тестовых материалов являются: 1. оценка качества спецификации тестового материала; 2. оценка степени соответствия тестового материала целям обучения и содержанию учебной дисциплины, требованиям образовательной программы и образовательного стандарта; 3. оценка соответствия формы, содержания (значения, смысла) морфологических
(слово, символ, знак) и синтаксических (выражения, обороты) единиц тестового задания форме и содержанию аналогичных единиц, использованных (используемых) при изложении данной учебной дисциплины; 4. сбор необходимой информации о качестве тестовых материалов для постановки целей и решения задач стандартизации баз данных тестовых материалов. Принимая во внимание все выше сказанное, под комплексной экспертизой качества педагогических тестов понимается процесс системного исследования совокупности внутренних и внешних свойств ТЗ и теста в целом методами и приемами комплексного измерения и оценивания с целью получения итогового заключения о соответствии или несоответствии критериям и показателям качества. Комплексную оценку качества педагогических тестов можно рассматривать как процесс, состоящий из двух основных
этапов: Первый этап – оценка простых свойств, которая включает в себя определение целей применения педагогического теста, составление иерархической структурной схемы свойств педагогических тестов, необходимых и достаточных для оценки его качества, назначение интервалов изменения значений для каждого показателя, выбор базовых значений показателей для сравнения, определение вида зависимости между показателями простых свойств и их оценками, вычисление оценок отдельных свойств. Второй этап - оценка сложных свойств и интегрального свойства включает в себя процедуры выбора шкалы размерностей комплексной оценки (для приведения единиц измерения отдельных свойств к одному виду), определение способа нахождения значимости критерия, 19 выбор метода агрегирования единичных показателей в комплексные, вычисление комплексной оценки качества педагогического теста, анализ интегрального показателя качества. Таким образом, технологические этапы экспертизы качества педагогических тестов включают в себя следующие процедуры: 1. Формирование цели экспертизы качеств. 2. Классификацию свойств, определяющих критериальную базу оценивания качества педагогического теста. 3. Декомпозицию комплексных критериев качества педагогического
теста. 4. Формирование процедур и алгоритмов оценивания, выбор методов экспертного оценивания, апробационного тестирования и шкалирования с целью получения итоговых комплексных показателей качества ТЗ. 5. Формирование процедур и алгоритмов оценивания, выбор методов экспертного оценивания, апробационного тестирования и шкалирования с целью получения итоговых комплексных показателей качества целых сформированных тестов. 6. Формирование базовых (
нормативных) значений показателей качества педагогического теста. 7. Нормирование показателей качества педагогического теста, приведение их к стандартному виду. 8. Комплексную оценку качества педагогического теста с получением интегрального показателя их качества. Итак, экспертиза качества включает в себя комплексный анализ и оценку внутренних и внешних свойств ТЗ и теста. Комплексная оценка начинается с классификации
и анализа совокупности внутренних и внешних свойств ТЗ и теста, на основе которых формируется система критериев и показателей. 4. Критерии и показатели качества педагогического теста В качестве базы оценивания качества педагогических тестов выступает сбалансированная система критериев качества и соответствующие им базовые значения показателей. В связи с тем, что 20 целью экспертизы качества тестов, является выявление степени соответствия оцениваемых объектов предъявляемым требованиям, возникает необходимость в описании критериев качества. Согласно стандартам ИСО 9000: 2000, ИСО 9001: 2000 критерий оценки качества есть совокупность требований, которые используются как основа для сравнения. В научной литературе по дидактической тестологии нет единого мнения о том, каким количеством критериев характеризуется качество педагогического
теста, так ряд авторов выделяют два элемента системы критериев–надежность и валидность [1, 27, 43 и др.], другие рассматривают в качестве критериев качества теста надежность, валидность и объективность [3, 10, 11 и др.], третьи–надежность, валидность, объективность, экономичность и полезность [8, 22, 34 и др.]. Рассмотрим наиболее часто применяемые критерии качества при экспертизе. Надежность(reliability) – критерий качества педагогических тестов, отражающий точность педагогических измерений, степень постоянства, стабильности, устойчивости результатов тестирования. Надежным считается тест, который дает постоянные результаты, оценки при повторных предъявлениях [3]. От того, как составлен тест, как подобраны задания с точки зрения их согласованности и степени соответствия целям тестирования, насколько данный тест считается диагностическим, насколько технологичен в обработке и интерпретации результатов зависит
точность и объективность применения тестовых измерителей для контроля уровня учебных достижений обучающихся. Надежность по своей структуре представляет собой комплексный критерий качества тестовых измерителей. Он складывается из частных критериев объективности (в психодиагностике данный критерий определяется как показатель константности, т.е. относительная независимость результатов от личности экспериментатора), надежности применяемых методик и относительной стабильности контролируемых уровней учебных достижений [6]. Валидность – критерий качества педагогических тестов, отражающий обоснованность, значимость его результатов, адекватность теста целям измерения (т.е. тест дает ответ на вопрос: измеряют ли задания то, что хотели их составители) [3]. Как разновидность валидности наибольшее значение для характеристики качества педагогических тестов имеет содержательная валидность 21 (валидность по объему), которая представляет собой, степень представленности в тесте содержания программы, учебника, набора ситуаций и т. п. [3]. Так А.Г. Шмелев, характеризуя содержательную валидность в области психодиагностики отмечает, что «содержательная валидность теста автоматически требует представленности в нем моделей всех разнообразных феноменов, из которых складывается измеряемая область поведения» [45]. По мнению
ряда исследователей [1, 17, 22, 43], содержательная валидность педагогического теста отражает степень соответствия, широты трактовки того, что именно должно проверяться и измеряться данным тестом. Содержательная валидность характеризуется через концептуальную и куррикулярную(программную) валидность. Под концептуальной валидностью понимается соответствие теста или тестового задания, во-первых, содержанию, во-вторых, структуре и, в-
третьих, терминологии учебного материала [3]. Обеспечение высокой степени концептуальной валидности теста или тестового задания может быть достигнуто за счет полной систематизации учебных программ и государственных образовательных стандартов. Каждый учебник, учебное пособие или государственный образовательный стандарт представляют собой отражение определенной концепции учебной дисциплины. Помимо рассмотренных типов содержательной валидности (куррикулярная и концептуальная), которые составляют теоретическую валидность тестовых измерителей существует и очевидная валидность. Очевидная валидность характеризует целесообразность, значимость теста с точки зрения испытуемого. Критерий очевидной валидности рассматривается как желательный, позволяющий снять негативное отношение испытуемых к измерительным инструментам. Функциональная валидность – соответствие теста контролируемым уровням усвоения учебного материала. Процедура тестирования должна быть предназначена для выявления степени овладения учебным материалом на заданном
уровне. Функциональной валидностью должны обладать тестовые задания, входящие в состав теста и тест в целом. Наиболее эффективной считается методика определения соответствия тестовых заданий на основе таксономии учебных достижений. Конструктная валидность педагогического теста – это отражение в нем теоретической модели курса, его структурных пропорций и основных компонентов на всех уровнях – вплоть до 22 учебных элементов [22]. Если куррикулярная валидность характеризует степень отражения в тесте необходимых для контроля знаний, умений и навыков, то конструктная валидность отвечает на вопрос: в какой степени в тесте отражены ключевые элементы контролируемого содержания образования и насколько адекватно [22]. По мнению Т.М. Балыхиной [3], конструктная валидность определяется на основе анализа содержания теста, насколько
объект тестирования и характер заданий учитывают психологические особенности усвоения материала. Таким образом, конструктная валидность выполняет следующие функции: 1. представляет конструкт – модель психических свойств, состояний, процессов; 2. характеризует психологическое содержание тестовых заданий и тестов, контролирующих уровни учебных достижений обучающихся. Как отмечает Е.А. Михайлычев, конструктная валидность характеризуется критериями внутренней согласованности и сбалансированности тестовых заданий в тесте. Критерий внутренней согласованности заданий наиболее пригоден для характеристики тестов тематического и рубежного контроля, в структуре которых имеются закрытые тестовые задания с выбором ответа [22]. Критерий «сбалансированности» означает баланс между содержанием тестового задания и количеством дистракторов. Следует особо отметить, что критерий внутренней согласованности заданий в тесте определяет гомогенность проверяемых содержательных элементов, гармоничность внутренней организации теста. Таким образом, можно сказать, что данные критерии позволяют оценить внутреннюю композицию теста в целом и композицию каждого тестового задания, входящего в состав теста. Конструктная валидность теста характеризуется посредством основных факторов, определяющих его показатели, весом или нагрузкой каждого фактора и корреляцией теста с каждым
из них. Такая корреляция именуется факторной валидностью теста [22]. Контроль качества учебных достижений должен обладать свойством гибкости и адаптивности к изменяемым условиям обучения. Следующий не менее важный критерий качества тестов – критериальная валидность. В психодиагностике критериальная валидность рассматривается как возможность суждения по результатам теста об интересующем аспекте поведения индивида в 23 настоящем и будущем. На основании этого различают текущую валидность и прогностическую валидность. Для педагогических тестов критериальная валидность оказалась востребованной ввиду целевой направленности применения теста для контроля учебных достижений. По мнению исследователей, данный критерий наиболее информативен для оценки качества тестов, предназначенных для контроля уровня учебных достижений по общенаучным дисциплинам (математика, физика, химия
, черчение) [7, 22, 40]. Критерий прогностической валидности педагогического теста предназначен для оценки прогнозирования успеваемости обучающихся. Особенность прогностической валидности педагогических тестов заключается в том, что она должна отражать возможные профессиональные достижения в будущем. По мнению А. Анастази, для педагогических тестов наиболее подходящей является текущая валидность [2]. В отличие от прогностической, текущая валидность оценивает фактический уровень учебных достижений, что позволяет оценить степень отставания обучающихся от планируемого уровня усвоения учебной дисциплины. По сути своей, текущая валидность имеет прогностическую направленность, но эта направленность несет в себе качественно иную характеристику. Поэтому целесообразно оценивать текущую валидность для тестов рубежного контроля, а прогностическую для тестов входного контроля [2]. При этом, применяя тест с высокой степенью прогностической валидности, для входного контроля появляется возможность по результатам выполнения теста дифференцировать обучающихся по разным уровням для дальнейшего обучения, что используется наиболее часто для лингводидактического тестирования. В работе [56] для оценивания качества тестов предложена следующая система критериев качества тестов: 9 критерий соответствия (релевантности) теста: тест должен охватывать основной учебный
материал и соответствовать требованиям учебных программ; 9 критерий эффективности: эффективным и результативным считается тест, который дает большее количество независимых ответов за единицу учебного времени; при разной методике составления тестов за 15 минут тестирования от учащихся можно получить от 5 до 10 ответов; 9 критерий объективности и сложности теста: доступность и логичность заданий, определенность ответов; 24 9 критерий дифференциации теста: возможность с его помощью различать разную степень подготовленности учащихся; 9 критерий беспристрастности теста: равные возможности для всех учащихся проявить свои знания, умения, способности; 9 критерий быстроты тестирования: соответствие времени тестирования содержанию и объему знаний; 9 критерий достоверности: соответствие результатов тестирования результатам, полученным другими способами контроля. В этой
связи методологическую сложность экспертизы качества педагогических тестов составляет проблема формирования сбалансированной системы критериев и показателей оценки качества. Особую значимость в процедуре формирования логики экспертизы качества тестов приобретает проблема определения нормативных значений показателей качества. Нормативный показатель качества педагогического теста – это значение показателя качества, принятое за основу при оценивании качества объекта экспертизы [31]. Базовые показатели качества педагогического теста могут быть установлены несколькими способами: 1. в результате заимствования из зарубежных и отечественных источников; 2. в результате проведения апробационного тестирования на выборочной совокупности тестируемых, соответствующих свойствам и характеристикам репрезентативной выборки; 3. в результате формирования «эталонного теста» из совокупности использованных тестов при проведении тестирования. 25 Таблица № 2 Значения нормативных показателей надежности и валидности педагогических тестов
1
Значение коэффициента надежности Качество теста Значение коэффициента валидности 0 – 0,599 Плохое 0 – 0,09 0,600 – 0,699 Неудовлетворительное 0,10 – 0,39 0,700 – 0,799 Удовлетворительное 0,40 – 0,49 0,800 – 0,899 Хорошее 0,50 – 0,74 0,900 – 0,949 Очень хорошее 0,75 – 0,79 0,950 - 1 Отличное 0,80 – 1 Особенность, а вместе с ней и методическая сложность экспертизы, заключается в том, что показатели качества обладают разнородной выраженностью, т.е. часть показателей может быть выражена числом, а часть – лингвистическими переменными. Поэтому, в процедурах оценивания качества тестов необходимо предусматривать процедуры формализации, нормирования и интеграции показателей качества. Данная проблема может быть решена только в рамках комплексного оценивания качества. 1
Анастази А. Психологическое тестирование. –7–е изд. – СПб.: Питер, 2005. – 688с. Kubielski W. Kontrola i oceny testow dydaktycznych. – Slupsk, 1996. 26 Таблица № 3 Критерии и показатели оценки качества педагогических тестов и методы их получения № Критерий оценки качества педагогических тестов Определение Методы оценивания показателя качества педагогичес
ких тестов Способы получения показателя качества педагогических тестов 1
Содержательная валидность Степень репрезентативн
ости содержания теста по отношению к измеряемой характеристике Экспертное оценивание Метод средневзвеше
нной оценки Метод ранжирования Метод парного сравнения Метод коллективной оценки 2
Очевидная валидность Внешнее представление о тесте с точки зрения испытуемого Анализ содержания теста испытуемы
ми Анкетный опрос 3
Функциональная валидность Степень соответствия содержания теста по отношению к выявляемому уровню усвоения опыта Экспертное оценивание Установление соответствия таксономии учебных целей 27 деятельности 4
Прогностическая валидность Степень точности и обоснованност
и суждения о диагностируем
ой переменной Методы математичес
кой статистики Ретестовый способ (определяется как корреляция между результатами тестирования и результатами тестирования последующег
о обучения) 5
Критериальная валидность Степень соответствия между результатами тестирования и внешним, не относящимся к тесту критерием Методы математичес
кой статистики Ретестовый способ 6
Конструктная валидность Отражение в тесте теоретической модели курса, его структурных пропорций и основных компонентов на всех уровнях Экспертное оценивание Установление соответствия теоретической модели курса 7
Надежность Отражение точности измерения и устойчивости Методы математичес
кой Надежность параллельных форм 28 результатов к воздействию посторонних случайных факторов статистики Ретестовая надежность Надежность расщепленных частей теста 8
Сбалансирован
ность Отражение сбалансированн
ости ТЗ в тесте по сложности и структуре Методы математичес
кой статистики Подсчет коэффициентов корреляции 9
Оптимальность Отражение корректного подбора длины теста, оптимального времени его предъявления и времени его выполнения для группы тестируемых Экспертное оценивание Анкетный опрос Рассмотрев в данном параграфе основные критерии качества педагогических тестов, можно сделать вывод о том, что этап формирования системы критериев и показателей качества в процедуре комплексной экспертизы является наиболее значимым и вместе с тем наиболее сложным. 5. Комплексная экспертиза качества тестовых материалов В рамках системного подхода экспертиза качества ТМ рассматриваются как динамическая система с заранее заданными детерминированными алгоритмами и последовательно выполняемыми операциями. При этом в рамках данной системы происходит 29 разделение алгоритмов действия, где каждый модуль системы выполняет один из этапов комплексного оценивания. Рассматривая экспертизу качества ТМ как систему, можно выявить следующие ее ключевые свойства: • целостности всех подсистем и компонентов, входящих в ее структуру, обусловленное главной целью функционирования системы в целом; • комплексности, которое обеспечивает многокритериальное оценивание качества ТМ на
разных этапах экспертизы и позволяет учитывать взаимосвязь качественных и количественных показателей качества ТМ; • иерархичности − система состоит из взаимосвязанных подсистем, которые образуют иерархию; • функциональности взаимосвязанных подсистем: каждая подсистема, входящая в структуру системы в целом, обладает своими функциональными, пространственными, временными и ресурсными характеристиками; • интегрированности – система экспертизы качества ТМ является подсистемой вышестоящего уровня – системы разработки ТМ. Таким образом, внутренняя структура системы комплексной экспертизы представляет собой сложную иерархическую организацию, которая состоит из семейства взаимодействующих, иерархически расположенных элементов Рис.2.
Рисунок 2. Последовательность технологических этапов комплексной экспертизы качества тестовых материалов 30 31 Как показано на рис.2 комплексная экспертиза качества ТМ включает в себя следующие этапы: 1. предварительная экспертиза; 2. внутренняя экспертиза; 3. тестологическая экспертиза; 4. комплексная экспертиза. Предварительная экспертиза проводится с целью отбора ТМ, наиболее соответствующих формальным и структурным требованиям к качеству ТМ. Введение этапа предварительной экспертизы в структуру комплексной экспертизы качества тестовых
материалов позволяет оптимизировать систему в целом. На сегодняшний день идет активная разработка тестовых измерителей для обеспечения контроля УД. При этом бывают случаи, когда авторы не всегда знакомы с требованиями к оформлению, содержанию и структуре ТМ. Поэтому для того чтобы исключить оценивание псевдотестовых заданий на этапе экспертного оценивания и апробационного тестирования необходимо провести предварительную экспертизу авторских материалов на соответствие формальным требованиям к ТМ. На этапе внутренней экспертизы качества ТМ проводится оценивание внутренних свойств, характеризующих их качество. Объектами оценивания в данном случае выступают содержательная валидность, функциональная валидность, прогностическая валидность, уровни подготовки, на проверку которых направлено применение ТМ, соответствие кодификатору, оценивание параллельности вариантов (в
случае применения нескольких вариантов тестов) и пр. Методом проведения внутренней экспертизы качества ТМ является экспертное оценивание. Тестологическая экспертиза качества ТМ проводится после проведения тестирования с целью получения количественных характеристик качества ТМ и в случае необходимости, высчитываются нормы выполнения отдельных ТЗ и теста в целом на выборочной совокупности обучающихся. На этапе тестологической экспертизы применяются основные методы параметрической и непараметрической статистики. Заключительным этапом является комплексная экспертиза качества ТМ в основе, которой лежат методы статистики качеств и многокритериального оценивания. На данном этапе происходит 32 интеграция всех ранее полученных показателей в комплексный показатель качества, характеризующий степень соответствия каждого ТЗ и теста в целом совокупности требованиям к качеству ТМ. Остановимся подробнее на каждом этапе комплексной экспертизы качества ТМ. 5.1 Предварительная экспертиза В предварительном оценивании качества ТМ можно выделить два основных направления работ: организационное и первичное оценивание качества ТМ. Организационные мероприятия включают в себя разработку документов нормативного характера: регламент комплексной экспертизы качества ТМ, план-график проведения экспертизы, порядок экспертизы, разного рода руководства и инструкции для специалистов, участвующих в организации и проведении экспертизы. Первичное
оценивание качества ТМ включает в себя анализ кодификатора и спецификации, первичное оценивание качества тестовых заданий и тестов на соответствие формальным требованиям. На этапе предварительной экспертизы качества тестов формируется рабочая группа, состоящая из авторов-разработчиков, экспертов-предметников и тестологов. В случае необходимости проводится их обучение и аттестация. Рассчитываются коэффициенты компетентности экспертов, формируется система критериев и показателей качества тестовых измерителей, формируется электронная база данных тестовых материалов (далее ЭБД ТМ). Шаг 1
. Процесс формирования электронной базы данных тестовых материалов. На подготовительном этапе организации комплексной экспертизы качества ТМ организаторами экспертизы проводятся работы по формированию электронного базы данных тестовых материалов (ЭБД ТМ), которая является хранилищем целых сформированных тестов, отдельных тестовых заданий и нормативной документации, сопровождающей разработку ТМ. Формирование ЭБД ТМ на этапе предварительного оценивания
является первостепенной
задачей. На сегодняшний день вопрос о создании электронных баз данных ТМ считается уже решенным в положительную сторону. 33 Создание и хранение ТМ «при помощи компьютеров» в электронном виде позволяет: • хранить исходный авторский материал; • обрабатывать исходный авторский материал; • вносить необходимые изменения и дополнения; • назначать и поддерживать реквизиты тестовых заданий; • выполнять автоматизированную компоновку тестов; • проводить анализ результатов тестирования; • хранить и передавать информацию [24]. Таким образом
, основные функции, которые выполняет электронная база данных ТМ: 1. хранение тестовых заданий всех типов; 2. хранение сформированных тестов для разных целей контроля; 3. структурирование тестов и тестовых заданий по содержанию учебных дисциплин в контексте разных образовательных; 4. хранение нормативных документов процесса разработки тестов и тестовых заданий (спецификация, кодификатор, инструкции по выполнению); 5. хранение информации об истории создания теста; 6. хранение информации об авторах–разработчиках тестов и тестовых заданий. При этом ЭБД ТМ должна отвечать основным требованиям: • содержательная валидность базы (состав и взаимосвязь дидактических единиц, образующих содержание теоретической и практической составляющих учебной дисциплины); • достаточный объем (количественный состав тестовых материалов различных
видов, включаемых в банк); • возможность обеспечения ТЗ и тестами разных видов контроля (предварительный, текущий, рубежный, итоговый); • обеспечение тестовыми материалами учебных дисциплин разных специальностей и направлений подготовки; • обеспечение возможности формирования тестов, предназначенных для: 34 1. государственной аттестации; 2. определения уровня остаточных знаний; 3. промежуточной или итоговой аттестации; 4. выявления и дифференциации обучающихся с разными уровнями подготовки. Таким образом, основная функция ЭБД ТМ для процедуры экспертизы качества тестовых материалов ̶
это хранение тестовых материалов, нормативных документов, сопровождающих их разработку и их структурирование по следующим направлениям: 1. специальности; 2. по учебной дисциплине; 3. по курсу; 4. по теме, подтеме, разделу учебной дисциплины; 5. по образовательной программе; 6. по учебникам и методическим материалам; 7. по функции ТМ: обучающие или контролирующие; 8. по виду контроля, для целей которого разрабатывались ТМ; 9. по виду ТМ; 10. по предполагаемому времени, необходимому на
выполнение того или иного задания или теста в целом; 11. по предполагаемому уровню сложности ТЗ (базовый, повышенный, сложный). 12. проведение первичной структуризации ЭБД ТМ позволяет оперативно сформировать предварительные комплекты тестов по заданным параметрам с целью экспертизы степени их качества. [28, 29]. Шаг 2
. Формирование состава Рабочей группы для проведения комплексной экспертизы качества ТМ Следующим этапом предварительной экспертизы является формирование Рабочей группы, которая будет осуществлять оценивание качества ТМ предварительного банка. Классическая теория экспертного оценивания рассматривает участников экспертизы как субъектов оценивания, которые с определенной степенью погрешности могут оценить исследуемый объект по заданным 35 параметрам. Процесс проведения комплексной экспертизы качества тестовых материалов обеспечивают следующие группы специалистов: 1. организаторы комплексной экспертизы качества ТМ; 2. персонал по обслуживанию ЭБД ТМ; 3. авторы-разработчики; 4. эксперты-предметники; 5. тестологи. Обязательное требование, предъявляемое ко всем категориям специалистов, участвующих в процедурах экспертизы − высокий уровень компетентности. Понятие компетентности многогранно как
по структуре, так и по содержанию. Главными составляющими компетентности являются профессиональные и личные качества специалиста. Профессиональную компетентность составляют знания и опыт специалиста в предметной области. К личным качествам относят, прежде всего, доброжелательность, лояльность, умение работать в группе, заинтересованность и т.д. Таким образом, критериями компетентности экспертов являются: 9 уровень и профиль образования эксперта; 9 опыт работы по профилю; 9 коммуникативность; 9 лояльность по отношению к мнениям оппонентов; 9 количество и качество ранее проведенных экспертиз; 9 умение работать в команде; 9 «гибкость ума» и творческое мышление [19]. Для того чтобы сформировать группы компетентных специалистов нужно иметь четкое представление о том, для каких видов работ и на каких этапах экспертизы требуются те или иные категории специалистов. Организаторы комплексной экспертизы качества ТМ разрабатывают нормативно-технические документы, регламентирующие процедуры проведения комплексной экспертизы качества ТМ, осуществляют контроль за соблюдением регламента. Персонал по обслуживанию ЭБД ТМ обеспечивает техническую поддержку и обслуживание банка данных, формируют требования к 36 формату предоставления данных, отвечает за сохранность и секретность. Авторы–разработчики ТМ. Их основная задача: разрабатывать тестовые измерители в соответствии с формальными и содержательными требованиями, предъявляемых к тестам. Авторы должны быть знакомы с теорией дидактической тестологии, должны знать и различать виды и типы тестовых заданий. Обладать знаниями правильной формулировки тестового задания, уметь
составлять спецификацию и кодификатор теста. Разработчики тестов непосредственно прямого участия не принимают в экспертизе. Они работают только с рекомендациями по доработке и совершенствованию тестовых материалов. Эксперты–предметники осуществляют оценивание внутреннего содержания ТМ на этапе экспертного оценивания комплексной экспертизы качества ТМ. Эксперты обеспечивают самый важный этап оценивания качества измерительных инструментов, поэтому к формированию группы экспертов предъявляются наиболее строгие требования. Именно от уровня компетентности экспертов зависит эффективность процедур экспертного оценивания. Эксперты в большей степени, нежели другие категории специалистов, должны обладать навыками критического мышления, уметь правильно и логично выстраивать свои заключения и формулировать корректные замечания по качеству тестов. Кроме того, самое важное умение эксперта
̶
быть объективным по отношению к оцениваемым объектам экспертизы. Помимо прочего, эксперт должен обладать навыками работы в группе, внимательно выслушивать мнения других, при этом, уметь аргументировать свою точку зрения, в случае расхождения его умозаключения от мнения других экспертов, и при этом, он должен быть независим от влияния мнений других экспертов. Тестологи
–специалисты проводят математико-статистическую обработку результатов апробационного тестирования. Тестологи должны обладать знаниями теории дидактической тестологии, уметь выбрать наиболее подходящую и отвечающую целям экспертизы теорию параметризации педагогических тестов. Кроме того, они должны уметь работать с программно-вычислительными комплексами для оперативной обработки информации. Тестолог должен не только уметь произвести расчеты, но и проанализировать их с целью выявления причин неудовлетворительных показателей качества ТМ. 37 Методика формирования состава Рабочей группы Ранее мы рассмотрели пять категорий специалистов, обеспечивающих проведение процедур комплексной экспертизы, теперь остановимся на методиках подбора и формирования состава Рабочей группы в соответствии с уровнями компетентности специалистов. Компетентность эксперта характеризуется объективными и субъективными показателями: • объективные (формальные) показатели профессиональной компетентности эксперта – должность, стаж работы, ученая степень, участие в ранее проводимых экспертизах
; • субъективные показатели получают в результате оценки компетентности самим экспертом (самооценка) или другими экспертами (взаимооценка). При этом оценивают как глубину знаний объекта экспертизы, так и способность эксперта давать объективные оценки. Алгоритм формирования состава Рабочей группы 1 этап
. Для формирования первичного состава РГ применяется метод «снежного кома». Для этого формируется предварительная рабочая группа на основании объективных показателей профессиональной компетенции (должность, стаж работы, категория, ученая степень и пр.). Каждого из включенных в состав рабочей группы специалистов просят предложить от 3 до 10 кандидатур наиболее компетентных, по его мнению, сотрудников, которых было
бы полезно включить в состав Рабочей группы. Сформированный таким образом список потенциальных экспертов рассматривается каждым из членов первичной рабочей группы, после чего они могут добавить (или исключить) кого-то из списка. 2 этап
. Априорная оценка и взаимооценка уровня компетентности отобранных специалистов. При оценивании уровня компетентности экспертов наиболее часто используются методы самооценки и взаимооценки. При самооценке компетентности эксперт скорее оценивает степень самоуверенности, чем свою реальную компетентность. Достаточно часто эксперт преувеличивает свою реальную компетентность. На самом деле экспертов (и даже знающих людей) в конкретной области
весьма 38 мало. Бывают уклонения и в другую сторону, излишне критичное отношение к своим возможностям [26]. Взаимооценка проводится в рамках дифференциального метода, при котором, как правило, оценка дается по двум группам критериев: по критериям, характеризующим знакомство эксперта с основными источниками информации в данной области, и по критериям, характеризующим знакомство эксперта с объектами экспертизы [26]. Но при этом нужно учитывать, что при взаимооценке, помимо возможности проявления личностных и групповых симпатий и антипатий, играет роль малая осведомленность специалистов о возможностях друг друга. В этом случае разрабатываются анкеты, которые раздаются для заполнения кандидатам, после чего они анализируются, и составляется список наиболее компетентных специалистов. В этой группе методов каждый
из экспертов оценивает себя по какой-либо шкале: балльной или вербально–числовой. Одной из основных проблем при таком оценивании является проблема одинакового понимания экспертами градации шкал. 3 этап
. Практическое тестирование. Оценить компетентность эксперта можно, предложив ему, выполнить краткую экспертизу нескольких типов заданий. На этом этапе кандидатурам предлагается выполнить конкретную задачу (провести экспертное оценивание отдельного задания, теста, рассчитать показатели качества тестового материала, сформировать рекомендации и т.д.). Далее проводится оценка выполнения конкретного вида работы по критериям: 9 непротиворечивости высказываний специалиста; 9 сходства фактических значений качества ТЗ и тестов со значениями, предсказанными специалистом; 9 анализ степени отклонения мнений специалиста от коллективного мнения группы. В результате обработки и анализа формальных и субъективных показателей компетентности специалистов мы получаем показатели уровня компетентности специалистов первичного состава РГ, из которого формирует окончательный список групп по категориям
. После того, как сформированы составы групп по категориям специалистов, проводится формирование комплектов тестовых материалов по заданным параметрам для экспертизы. На этом этапе рабочими документами являются спецификация и кодификатор. Сами 39 тестовые задания и тесты еще не рассматриваются, анализируется возможность использования того или иного теста по его спецификации. После того, как описаны цели тестирования и подобраны комплекты тестов, соответствующие целям контроля уровней учебных достижений необходимо сформировать систему критериев и показателей качества тестовых материалов, по которым будет оцениваться тест или отдельные тестовые задания
. Следующим этапом является формирование системы критериев и показателей оценки качества ТМ. Шаг 3
. Методика формирования сбалансированной системы критериев и показателей качества тестовых материалов Как отмечалось ранее, каждый вид контроля обладает как общими свойствами, так и специфическими. В зависимости от целей контроля уровней учебных достижений к тестам предъявляются требования, которым они должны обязательно соответствовать. На сегодняшний день в дидактической тестологии не существует четкого разграничения
требований к качеству теста в зависимости от целей контроля. Данный факт значительно усложняет процедуру оценивания качества тестов, так как существует большое разнообразие критериев и показателей качества тестовых материалов. Оценивать тестовый материал по всем критериям – задача практически невыполнимая, так как только видов валидности существует более 40, не лучше дело обстоит и с показателями надежности [21]. Поэтому, для того чтобы эффективно провести комплексную экспертизу качества ТМ целесообразно применять наиболее значимые и информативные показатели и критерии качества. Применяемые на сегодняшний день методики определения качества ТМ не учитывают оценки значимости тех или иных критериев. В большинстве случаев наблюдается упрощенный подход, когда тестовый материал оценивается по самым общим
критериям. В этом случае в результате экспертизы мы имеем все тот же неэффективный тестовый измеритель, который обладает сомнительной надежностью и валидностью [21, 43, и др.]. Для повышения эффективности результатов экспертизы необходимо учитывать значимость критериев качества тестовых материалов. Методика определения значимости критериев и показателей качества тестов базируется на теории важности критериев, которая позволяет выявить перечень значимых критериев и показателей с помощью их весовых коэффициентов. В качестве основного метода вычисления значимых критериев и показателей 40 применяется метод анализа иерархий, позволяющий отразить различные критерии и множественность целей, интенсивность взаимодействия элементов в иерархии [21]. Методика выявления значимых критериев и показателей качества тестов включает в себя следующие этапы: 1. построение общего иерархического «дерева» системы критериев качества ТМ; 2. проведение декомпозиции общих критериев качества ТМ на частные; 3. анализ информативности частных
критериев и соответствующей им сбалансированной системе критериев и показателей; 4. определение весовых коэффициентов частных критериев и показателей с учетом коэффициента компетентности экспертов; 5. ранжирование частных критериев и показателей; 6. формирование списка значимых критериев и показателей качества ТМ. Наиболее эффективным методом разработки сбалансированной системы критериев и показателей качества теста представляется метод декомпозиции [20]. В основе данного метода лежит способ описания общих критериев через разложение их на более конкретные частные критерии. Подобный подход позволяет одновременно достичь нескольких целей. Во–первых, происходит структурирование системы критериев качества ТМ, а во–вторых, появляется возможность выявления неудовлетворительных значений показателей на самых низших уровнях, что позволяет обнаружить их источники
и выдавать конкретные рекомендации авторам по направлению корректировки ТМ. Тем самым отпадает необходимость в поиске источников неудовлетворительных показателей и значительно сокращается время при дальнейшей корректировке тестов. 41 Рисунок 3 Иерархия критериев оценки качества педагогических тестов 42 При этом нужно учитывать, что система критериев и показателей оценки качества ТМ должна формироваться с учетом основных методологических принципов: 1. критерии качества ТМ должны составлять систему; 2. система критериев и показателей качества должна быть сбалансирована по количественному составу; 3. критерии и показатели оценки качества ТМ должны иметь научное, методическое и эмпирическое
обоснование; 4. критерии должны быть измеримыми; 5. система критериев оценки качества не должна быть избыточной: при формировании перечня должны быть исключены дублирующие критерии; 6. критерии и показатели оценки качества ТМ должны быть информативными; 7. к критериям и показателям должны быть установлены базовые значения; 8. перечень критериев и показателей оценки качества ТМ должны быть утверждены в нормативных документах комплексной экспертизы. Соблюдение принципов при формировании системы критериев и показателей качества ТМ позволит усовершенствовать и тем самым оптимизировать процедуру разработки тестов, а в частности, проводить комплексную экспертизу качества тестов. В виду того, что экспертиза качества ТМ носит сложный, комплексный характер, следует описать и структурировать не только общие, но и частные критерии. Основу методики формирования сбалансированной системы критериев и показателей качества тестов, как отмечалось ранее, составляет метод декомпозиции, в основе которого лежит разбиение сложного, многокомпонентного критерия на набор более простых. Например, общий критерий валидности теста можно разложить на частные критерии содержательной, конструктной и критериальной валидности
, при объединении которых появляется возможность оценивания качества внутреннего содержания. Каждый из простых критериев, в свою очередь, может быть представлен как сложный и должен быть подвергнут разбиению. Например, критериальная валидность состоит из текущей и прогностической валидности и т.д. Этот процесс продолжается до тех пор, пока не будет достигнут самый низший уровень описания. Самые низшие критерии, которые уже не могут быть 43 подвергнуты декомпозиции, называются частными критериями. В результате применения метода последовательной многоуровневой декомпозиции будет получена иерархически организованная система критериев оценки качества ТМ, что позволит определить перечень критериев и показателей оценки качества ТМ для каждого этапа комплексной экспертизы. При формировании сбалансированной системы критериев и показателей качества ТМ для проведения комплексной экспертизы необходимо учитывать
особенности самого объекта оценивания (ТМ), который является многофакторным объектом произвольной природы [5]. При этом нужно учитывать, что свойства целого теста не сводятся к свойствам его составляющих элементов (ТЗ). При этом нужно учитывать, что отдельные свойства ТЗ могут измениться или даже исчезнуть [5]. В связи с этим, при формировании сбалансированной системы критериев и показателей качества ТМ, необходимо, прежде всего, выявить перечень приоритетных критериев и установить к ним нормативные требования. Одним из способов выявления приоритетных критериев качества ТМ является установление степени их значимости (степень информативности) для комплексной оценки. Значимость критериев может быть установлена способами факторного анализа или при помощи экспертного опроса. Наиболее распространенным способом установления
степени значимости критериев и показателей является экспертный опрос. Методика оценки значимости критериев качества тестовых материалов методом экспертного опроса Формируется общий перечень всех частных критериев оценки качества ТМ. Рабочей группе предлагается оценить значимость каждого критерия по 10–балльной шкале. Далее эти анкеты обрабатываются, и вычисляется средневзвешенная статистическая оценка значимости каждого критерия по формуле: ﯩ
∑
ﳕ
ﯕ
ﳡﳕ
ﲾ
ﳕﰸﰭ
∑
ﳕ
ﲾ
ﳕﰸﰭ
[1] где: 44 ﯩ
− средневзвешенная статистическая оценка значимости критерия оценки качества ТМ; ﯝ
– средневзвешенная статистическая оценка уровня компетентности i–
го эксперта; ﯩﯝ
– экспертная оценка значимости частного критерия оценки качества ТМ, данная экспертом ν
−му критерию. Используя данную методику можно сформировать перечень значимых частных критериев оценки качества ТМ для каждого общего критерия. Итак, для оценки качества ТМ, предназначенного для контроля качества учебных достижений обучающихся, предлагается использовать следующие общие критерии: 1. валидность; 2. надежность; Следует особо отметить, что существует ряд общих и частных критериев качества тестового материала. Общие критерии – это критерии, которые в равной степени относятся ко всем видам тестов и позволяют в общем судить о степени его качества. К таким критериям можно отнести надежность, валидность, объективность, технологичность и т.д. Частные критерии – это критерии, которые характеризуют свойства теста определенной направленности. Так, например, по мнению целого
ряда авторов [1, 8, 22, 27], тест, разрабатываемый для целей входного контроля, должен характеризоваться высокой степенью прогностической валидности, в то время как для тестов, предназначенных для рубежного контроля данный критерий оказывается менее значимым или еще один пример: для тестов текущего контроля важной характеристикой качества применяемого тестового измерителя являются высокие показатели критериальной валидности. В соответствии с предлагаемой моделью комплексной экспертизы качества тестов все частные критерии можно разделить на две группы по доминирующей функции, которая им отводится на том или ином этапе экспертизы: отборочные и оценочные.
На этапе предварительной экспертизы, цель которого отбор авторского материала, соответствующего формальным и содержательным признакам ТМ, частные критерии выполняют функцию отбора. В случае несоответствия этим требованиям, авторские тесты отправляются на доработку и корректировку. Отбор ТЗ и тестов на этапе предварительной экспертизы на предмет их соответствия требованиям теста или тестового 45 задания проводится методом экспертного оценивания. Итоговое заключение на данном этапе может иметь только одно из возможных состояний: «соответствует требованиям теста или тестового задания» – в этом случае авторский материал отправляют на следующие этапы экспертизы и «не соответствует требованиям теста или тестового задания», тогда авторский материал отправляют на доработку. Данные критерии применяются для
допуска или отклонения авторских материалов на следующие этапы экспертизы. В дальнейшем эти критерии при формировании итогового заключения о качестве тестов не используются и смысловой нагрузки не несут. Критерии, которые непосредственно участвуют в формировании итогового заключения о степени качества ТМ, по сути своей выполняют прямую оценочную функцию. Показатели данных критериев отражают степень соответствия теста или тестового задания предъявляемым требованиям. Оценки по данным критериям могут измеряться в дихотомической шкале (соответствует–не соответствует), интервальной и др. В любом случае, каждый частный критерий должен нести в себе значимость, точность и объективность оцениваемого ТМ. Шаг 4
. Следующий этап предварительной экспертизы − первичное оценивание качества ТМ, которое включает в себя: • анализ спецификации и кодификатора; • оценивание ТМ на соответствие их формальным требованиям. Оценивание качества спецификации и кодификатора теста является одним из важнейших этапов комплексной экспертизы. Это связано с тем обстоятельством, что на этапе экспертного оценивания внутреннее содержание качества ТМ оценивается экспертами в соответствии с теми характеристиками, которые заявлены в данных документах. Кодификатор представляет своего рода содержательную структуру теста. Данный документ составляется на основе рабочей программы по учебной дисциплине, разработанной в соответствии с требованиями образовательной программы и федерального государственного образовательного стандарта. Кодификатор строится на основе выявления модулей
- значимых дидактических единиц учебной дисциплины. В практике высшего профессионального образования наметилась тенденция к укрупнению дидактических единиц. Суть формирования укрупненных дидактических единиц заключается в том, что: 46 1. изучение новой темы организуется таким образом, что позволяет одновременно и совместно изучать взаимосвязанные действия, операции, функции и т.п.; 2. происходит обеспечение единства процессов составления и решения задач, уравнений, неравенств; 3. определенные и неопределенные задания рассматриваются во взаимопереходах; 4. происходит обращение структуры задания, что создает условия для противопоставления исходного и
преобразованного заданий; 5. появляется возможность выявления сложной природы знания (математического, физического и т.п.) и как следствие этого, достигается системность знаний [3]. Таким образом, в рамках учебной дисциплины каждому ТЗ приписывается 4-х значный код: раздел/тема/подтема/понятие. Спецификация – документ, который содержит в себе описание теста, предоставляемых автором теста его пользователю
[47]. Спецификация оценивается по полноте предоставляемой информации о характеристиках теста наличием описания: 1. предназначения теста; 2. структуры теста; 3. сущностей и явлений, измеряемых с помощью теста и их отношений в тесте (знания, умения, навыки, и др.); 4. показателей качества; 5. формы предъявления теста; 6. условий проведения тестирования; 7. ключей (правильных ответов
) к тесту; 8. данных о нормах выполнения теста и каждого ТЗ; 9. правил определения результатов тестирования. В случае правильного и корректного оформления данных документов проводится этап первичного оценивания качества тестов и ТЗ на соответствие их формальным требованиям. Осуществляют процедуру первичного оценивания качества ТМ две группы специалистов: тестологи и эксперты-предметники
. Тестологи оценивают авторские тестовые задания на соответствие требованиям оформления, то есть проверяют наличие всех компонентов структуры. В случае неполноты или 47 отсутствия каких-либо структурных элементов, например инструкции по выполнению заданий, вариантов ответов (для заданий закрытого типа) или эталона ответа (для заданий открытого типа) тестологи формируют рекомендации для разработчиков с целью доработки структуры ТМ. Те задания и тесты, которые соответствуют требованиям структуры, передают на оценивание экспертам-предметникам. Эксперты-
предметники оценивают корректность ТЗ
, что подразумевает содержательный анализ формулировки тестового задания в соответствии с требованиями к оформлению и содержанию ТЗ. Обобщая опыт исследователей по проблемам разработки тестов и тестовых заданий, можно сформировать следующий перечень требований, которым должны соответствовать разработанные тестовые материалы для контроля уровня учебных достижений. Все предъявляемые требования можно разделить на требования к формулировке и структуре ТЗ и теста в целом. Требования к формулировке и структуре тестовых заданий Каждый вид задания (закрытого, открытого типа, задание на установления соответствия, задания на выявление правильной последовательности) должен быть разработан в соответствии с общими требованиями к форме и содержанию тестовых заданий. При этом необходимо соблюдать соответствие и частным требованиям, учитывающих специфику формы ТЗ, входящих в структуру педагогического теста. Обобщая опыт исследователей в области
дидактической тестологии можно выделить следующие общие требования к оформлению содержания и структуры для всех типов заданий: 9 Тестовое задание должно быть сформулировано в виде повествовательного предложения утвердительного вида. 9 Тестовое задание не допускает формы альтернативного вопроса. 9 В формулировке ТЗ не должно быть повелительного наклонения (выберите, вычислите, укажите и т
.д.). 9 Не рекомендуется использовать в формулировке ТЗ вводные слова или предложения. 9 В формулировке задания не допускается наличие обобщающих слов: «всегда», «никогда», «иногда», «все» и т.п. 9 ТЗ не должно начинаться с предлога, частицы, союза. 48 9 Содержание тестового задания не должно содержать повторов, двойных отрицаний и сленга. 9 В тестовом задании не должно отображаться субъективное мнение или понимание отдельного автора. 9 Количество слов в тестовом задании не должно превышать 15, длина ответов не должна превышать 50 символов. 9 В тексте тестового задания не должно быть непреднамеренных подсказок. 9
Ответ на поставленный вопрос не должен зависеть от предыдущих ответов тестируемого. 9 Тестовое задание и варианты ответа к нему могут иметь поясняющие рисунки. 9 Обязательно соблюдение единого стиля оформления заданий, входящих в один тест. 9 Соответствие ТЗ содержанию учебной дисциплины. 9 Задания должны быть направлены на контроль значимых элементов содержания учебной дисциплины. Частные требования к оформлению ТЗ и тестов. 1. для заданий закрытого типа. 9 Тестовое задание закрытой формы состоит из неполного тестового утверждения с одним ключевым элементом и множеством допустимых заключений, одно или несколько из которых являются правильными. Тестируемый определяет правильные заключения из данного множества. В тексте задания должна быть
устранена всякая двусмысленность или неясность формулировок. 9 Основная часть задания формулируется предельно кратко, как правило, не более одного предложения из семи-восьми слов. 9 Задание имеет предельно простую синтаксическую конструкцию, в основной текст задания вводится не более одного придаточного предложения. 9 В основную часть задания следует включать как можно больше слов, оставляя для ответа не более двух-трех наиболее важных, ключевых слов для данной проблемы. 49 9 Все ответы к одному заданию должны быть приблизительно одной длины либо правильный ответ может быть короче других, но не во всех заданиях теста. 9 Частота выбора одного и того же номера места для правильного ответа в различных заданиях теста должна быть примерно одинакова либо номер места для правильного ответа выбирается
в случайном порядке. 9 Основная часть задания освобождается от всякого иррелевантного для данной проблемы материала. 9 Из ответов обязательно исключаются все повторяющиеся слова путем ввода их в основной текст заданий. 9 В вариантах ответов не рекомендуется использовать слова «все», «ни одного», «никогда», «всегда» и т.п., так как в отдельных
случаях они способствуют угадыванию правильного ответа. 9 Из числа неправильных исключаются ответы, вытекающие один из другого. 9 Из числа тестовых исключаются задания, содержащие оценочные суждения и мнения обучающихся по какому-либо вопросу. 9 Все дистракторы к каждому заданию должны быть равновероятно привлекательными для испытуемых, не знающих правильного ответа. 9 Ни один из дистракторов не должен являться частично правильным ответом, превращающимся при определенных дополнительных условиях в правильный ответ. 9 Ответ на одно задание не должен служить ключом к правильным ответам на другие задания теста, т.е. не следует использовать дистракторы из одного задания в качестве ответов к другим заданиям теста. 9 Если
задание имеет среди прочих альтернативные ответы, не следует сразу после правильного приводить альтернативный ответ, так как внимание отвечающего обычно сосредоточивается только на этих двух ответах. 9 Все ответы должны быть параллельными по конструкции и грамматически согласованными с основной частью задания теста. 2. для заданий открытого типа. 50 Задания открытого типа ставят задачу сформулировать самим тестируемым правильный ответ. Они имеют вид неполного утверждения, в котором отсутствует один или несколько ключевых элементов. В качестве ключевых элементов могут быть: число, буква, слово или словосочетание. При формулировке задания на месте ключевого элемента, необходимо поставить прочерк или многоточие. 9 ТЗ, требующие открытый ответ
, должны содержать в качестве эталонного ответа одно или два слова, либо число. 3. для заданий на выявление правильной последовательности. Данный тип заданий состоит из однородных элементов некоторой группы и четкой формулировки критерия упорядочения этих элементов. 9 Количество элементов в ТЗ должно быть от 4 и не превышать 9. Задания на выявление правильной
последовательности должны начинаться со слов: Последовательность (а не установить последовательность). 4. тестовые задания на установление соответствия. Состоят из двух групп элементов и четкой формулировки критерия выбора соответствия между ними. 9 Соответствие устанавливается по принципу 1:1 (одному элементу первой группы соответствует только один элемент второй группы) или 1:M (одному элементу первой группы соответствует М элементов второй группы). 9 Внутри каждой группы элементы должны быть однородными. 9 Количество элементов во второй группе должно превышать количество элементов первой группы, но не более чем в 1,5 раза. 9 Количество элементов в первой группе должно быть не менее двух. 9 Задания на установление соответствия должны начинаться со слов: Соответствие … (а не установить соответствие) 9 Количество элементов в ТЗ на соответствие не должно превышать 9. Вторая группа требований − требования к оформлению и структуре тестов: 1. Тест учебных достижений должен содержать от 6 до 12 контролируемых дидактических единиц. 2. Для контроля каждого раздела тест должен содержать от 3 до 7 ТЗ. 51 3. При критериально-ориентированном тестировании большая часть ТЗ должна соответствовать установленному критерию оценки (как минимум 80% тестируемых должны выполнять тест правильно). 4. При нормативно-ориентированном тестировании ТЗ в тесте должны распределяться по уровням сложности в следующей пропорции: «легких» заданий − 15 %, заданий «средней трудности» − 70 %, «трудных» заданий − 15 %. 5. Задания в тесте
располагаются по возрастающей сложности или в соответствии с логикой изучения учебной дисциплины. 6. Варианты тестов должны быть параллельными по форме, структуре, содержанию и трудности. В результате первичного анализа ТЗ и тестов экспертами формируется заключение о результатах этапа первичного оценивания, в котором содержится перечень ТЗ и тестов, соответствующих всем требованиям, и перечень ТЗ и тестов, не соответствующих тем или иным требованиям. В первом случае – организаторы экспертизы комплектуют авторский материал и отправляют на следующий этап комплексной экспертизы − экспертное оценивание, во втором − перечисляют причину отбраковки с указанием коррекционных мероприятий по совершенствованию содержания ТЗ и тестов и возвращают авторам. 5.2 Внутренняя экспертиза качества тестовых материалов Тестовые материалы, которые прошли этап предварительной экспертизы, подвергаются экспертному оцениванию. Экспертные методы оценивания (ЭО) в системах образования нашли широкое применение в силу возможности оценивания состояния объектов со слабоформализуемыми параметрами. В частности, методы ЭО используются при аттестации и аккредитации образовательных учреждений, а также при оценивании компонентов учебного процесса. Экспертное оценивание является неотъемлемой
частью комплексной экспертизы качества тестовых материалов. Экспертное оценивание ТЗ и тестов базируется на теории получения экспертных оценок с целью внутреннего оценивания их качества. Научные основы теории ЭО были заложены в середине XX века в трудах зарубежных исследователей Р. Акоффа, Ф. Эмери, Р.Льюиса и 52 др., а также в работах отечественных специалистов Г. Афанасьева, В.М. Глушкова, А.Г. Венделина и т.д. Использование процедур ЭО возможно на основании знаний об оцениваемом объекте, о процессах, в нем протекающих и возможных изменениях данного объекта в зависимости от изменения внешних условий, при наличии множества критериев и показателей качества
данных объектов. Специфика теории ЭО заключается в том, что она является сложной междисциплинарной наукой. Экспертные оценки по сути своей являются гибкими, обладают высокой степенью адаптивности, в основе их лежит оптимизационная направленность, но в то же время они характеризуются зависимостью от субъективного мнения и уровня компетентности экспертов. В теории экспертного оценивания выделяют два направления развития: 1. теория принятия рациональных решений; 2. психологическая теория принятия решения [26, 44]. В центре внимания первого направления − изучение организации работы экспертных групп с целью получения эффективного и обоснованного заключения о степени качества оцениваемых объектов. При этом применяются следующие средства к изучению проблем ЭО: 9 применение математических методов и
моделей; 9 кибернетический подход, в рамках которого используется логико-математическая формализация и моделирование; 9 поведенческая теория применяется при исследовании операций; 9 системный анализ, методология которого позволяет определять задачи и цель проведения ЭО, устанавливать возможные состояния объекта исследования, оценивать его по заданным критериям, представлять результаты исследования и контролировать выполнение принятого решения. Психологическая теория принятия решений отвечает на такие вопросы: «Как эксперты осуществляют оценивание? Как они взаимодействуют в группе? Как приходят к согласованию мнений?» и т.д. Оба эти направления необходимо учитывать при организации процедур экспертного оценивания. Итак, подсистема экспертного оценивания в системе комплексной экспертизы является важнейшим этапом в процедуре оценивания качества ТМ
как по организации работ, так и по методическому сопровождению. Сложность экспертного оценивания качества ТМ 53 связана с рядом технологических и методических факторов. Специфика применяемой технологии экспертного оценивания обусловлена особенностями оцениваемого объекта. Структура тестовых материалов требует многокомпонентного и многофакторного анализа его качества: оцениванию подвергается не только форма и содержание тестового задания, но и предлагаемые варианты ответов на задание, эталоны правильных ответов на задания, время выполнения задания, форма
предъявления теста, выборочная совокупность тестируемых, для которых предназначено данное задание, методика шкалирования результатов тестирования. Такое разнообразие элементов оценивания структуры ТМ обусловливает не только многокритериальный анализ оцениваемых объектов, но и требует от экспертов применения методов прогнозирования. Сущность метода экспертного оценивания заключается в проведении экспертами интуитивно–логического анализа, основу которого составляют способы аккумуляции научных знаний и практического опыта в профессиональной области. При этом необходимо так организовать процедуру экспертного оценивания, чтобы эксперт в наиболее полной мере мог вербализовать свои оценочные суждения о степени качества ТМ. Технология экспертного оценивания включает в себя: 1. методику формирования группы экспертов; 2. разработку экспертных карт оценки качества тестового материала
; 3. выбор метода организации работы; 4. методику обработки результатов экспертного оценивания качества ТМ; 5. методики определения согласованности мнений экспертов. В процедуре экспертного оценивания ТМ можно выделить три основных этапа: 1. Подготовительный
. Основная задача данного этапа подготовить все необходимое для процедуры ЭО. В первую очередь, должны быть подготовлены нормативные документы: анкеты, инструкции, экспертные карты, порядок и план–график работы экспертов. 2. Технологический
. На данном этапе происходит обработка и анализ оценки качества ТМ по перечню критериев, представленных экспертам, а 54 также оформление экспертных заключений о качестве тестового задания или теста в целом. 3. Заключительный
. На данном этапе происходит обработка и интерпретация результатов экспертного оценивания. Основная задача заключительного этапа состоит в том, чтобы наиболее корректно обработать протоколы экспертных оценок качества тестовых заданий и теста; сформулировать рекомендации для дальнейшей доработки и корректировки ТМ, в случае выявления заданий, которые не отвечают критериям качества, дать рекомендации по условиям проведения апробационного тестирования, шкалирования и интерпретации результатов тестирования. Важной проблемой на предварительном этапе экспертного оценивания качества ТМ является отбор и формирование группы экспертов. Вопрос о том, кто именно может выступать в роли экспертов ТМ в дидактической тестологии остается до сих пор дискуссионным. Так, по мнению М.Б.Челышковой, в качестве экспертов
могут выступать «наиболее опытные учителя, имеющие большой стаж работы с теми учащимися, для которых в конечном итоге предназначен тест» [43]. А.Н. Майоров рассматривает три категории педагогических работников, способных оценить качество тестовых материалов: управленцы, педагоги и методисты. По его мнению, основное направление работ управленцев в качестве экспертов заключается в четкой постановке
целей, задач и разработке программ тестирования. Вторая категория – педагоги, которые могут более адекватно определить уровень сложности ТЗ и оценить подбор дистракторов в заданиях закрытого типа. Третья категория – методисты, которые, выступая в роли экспертов, способны лучше проанализировать соответствие оцениваемых ТЗ программам обучения [17]. Негласным правилом отбора в группы экспертов является включение в
них самих разработчиков тестовых материалов. Н.А Гулюкина и С.В. Клишина [8] считают, что в состав экспертной комиссии обязательно должен быть включен преподаватель – разработчик тестовых материалов, который составляет план проведения экспертизы. Но на практике ЭО, данные способы формирования группы экспертов оказывается неэффективными в виду того, что преподаватели еще не в полной мере обладают навыками рефлексии результатов своей деятельности, поэтому целесообразнее формировать независимую группу экспертов от группы разработчиков тестовых материалов. 55 Следует особо отметить, что процедуры экспертного оценивания должны быть целенаправленными. Эксперты четко и ясно должны представлять себе специфику тестовых материалов и обладать навыками объективного оценивания. Тем не менее, полностью избежать субъективности в процедуре оценивания их качества невозможно. Это обусловлено тем, что каждый эксперт, а в первую очередь, преподаватель формирует свои требования
к приобретаемой в процессе обучения информации и определяет критерии оценивания получаемых знаний с точки зрения важности, востребованности в дальнейшей практике, применимости в смежных дисциплинах, тем самым, создавая личностно–
ценностный образ опыта. Процесс совершенствования профессионального опыта способствует формированию методической и методологической компетенций эксперта. Поэтому закономерно, что при оценивании какого–либо объекта эксперт пользуется личностно–
ценностным образом опыта (системой знаний, умений и навыков). При экспертном оценивании важно соблюдать строго формализованную, алгоритмизированную методику деятельности эксперта. Формализация технологического процесса экспертизы позволит получать наиболее полные, объективные данные о качестве тестовых материалов. В понятие «формализованная методика» входят такие компоненты процедуры экспертного оценивания как инструкция по проведению экспертизы
, перечень методологических правил процедуры ЭО, разработка итоговых протоколов оценки качества ТМ и руководство по их заполнению, методика обработки протоколов ЭО. Важным вопросом на данном этапе организации проведения ЭО является выбор метода получения экспертных оценок. Подбор наиболее адекватного метода позволяет снизить, а частично и устранить, факторы, снижающие достоверность экспертных оценок. Главный недостаток процедур экспертного оценивания заключается в субъективности мнений экспертов. Для того чтобы повысить достоверность экспертных оценок необходимо выбрать наиболее адекватный метод получения экспертных оценок, т.е выбрать способ работы экспертов (индивидуально или в группе). При этом, следует учитывать и психологический фактор: экспертам необходимо обеспечить психологически комфортные условия работы. На сегодняшний день
в теории экспертных оценок наиболее используемым и эффективным считается метод Дельфи. Следует отметить, что в практике зарубежной тестологии данный метод не используется с середины XX века. Как альтернатива методу Дельфи был разработан Angoff метод. Дело в том, что экспертные оценки, полученные по методу Дельфи, во–первых, обладают высокой степенью погрешности, 56 а во–вторых, чтобы получить более или менее согласованные мнения экспертов необходимо проводить несколько туров экспертного оценивания, что требует больших временных и ресурсных затрат. В отличие от метода Дельфи Angoff метод мобилен как по проведению экспертного оценивания, так и по обработке результатов экспертного оценивания. Суть Angoff метода заключается в следующем: формируется группа аттестованных
экспертов, этой группе предлагается оценить качество тестовых материалов по заданным критериям. Технологически их работа выстраивается сериями: сначала каждый эксперт заполняет экспертные карты первых пяти тестовых заданий по предлагаемым критериям. После заполнения результаты экспертного оценивания этих заданий озвучиваются либо записываются на доске. Далее просят обосновать свои мнения тех экспертов, чьи экспертные суждения наиболее значимо отличаются от экспертных суждений общей массы. При этом появляется возможность достичь наибольшего согласования мнений экспертов уже на этапе оценивания [49]. В то время как при использовании метода Дельфи подобные суждения не учитывают при формировании итогового заключения, а экспертов исключают из рабочей группы. Таблица № 4 Сравнительный анализ метода Дельфи и Angoff метода Критерии сравнения метод Дельфи Angoff метод Цель 9
сбор информации для формулирования суждения о качестве тестового материала 9 оценить качество тестовых материалов Задачи, которые могут решать эксперты 9
оценка тестового материала по заданным критериям 9 оценка тестового материала по заданным критериям; 9 формирование тестов в соответствии с целью 57 тестирования; 9 оценивание качества сформированных тестов; 9 установление минимально допустимой границы выполнения теста Уровень компетентност
и эксперта 9
определяется по результатам ЭО 9 определяется предварительно и является критерием отбора экспертов в экспертную группу Организация по количеству экспертов (групповой/инди
видуальный) 9
коллективный опрос 9 коллективный опрос Организация взаимодействи
я экспертов между собой 9
заочный анонимный –
эксперты не знают о других членах ЭО, знакомятся с мнениями других только в исключительных случаях. 9 очный–эксперты работают в группе, обмениваются мнениями. Тип по количеству туров 9
многотуровый 9 однотуровый Критерий согласованност
9
согласованность определяется после обработки 9 согласованность достигается уже на 58 и всех экспертных карт самом этапе ЭО Мнения «диссидентов» 9
игнорирование мнений «диссидентов», исключение экспертов из состава группы 9 экспертов, давших «крайние» оценки просят аргументировать свою точку зрения Но, несмотря, на внешнюю привлекательность Angoff метода, недостаток его заключается в том, что группа экспертов должна быть высоко квалифицированной, компетентной и иметь многократный опыт участия в экспертизах. В настоящее время в научной сфере существует мнение, что процедура экспертного оценивания едина для всех областей знания и основная цель ее: принятие согласованного (компромиссного) заключения
о качестве оцениваемых объектов. Но, как показывает практика, такое отношение к экспертному оцениванию тестовых материалов в условиях самостоятельного (со стороны эксперта) определения критериев оценки ТМ снижает достоверность результатов экспертизы и вызывает недоверие к полученным результатам. Этого можно избежать в случае экспертного оценивания качества тестовых материалов по заданным критериям. Для этого разрабатываются экспертные карты оценивания качества ТЗ и тестов, которые содержат в себе перечень критериев и соответствующих им показателей оценки качества. На данном этапе целесообразно провести организационное собрание группы экспертов, на котором каждому эксперту выдаются: комплекты тестов или ТЗ, прошедших предварительную экспертизу с заключением о допуске к экспертному оцениванию, спецификация, кодификатор, инструкция
по проведению экспертного оценивания, экспертная карта оценивания теста или комплектов ТЗ с перечнем критериев оценки качества и шаблон экспертного заключения. На технологическом этапе работа эксперта состоит в: ¾ оценке качества компонентов тестового задания: инструкции по выполнению задания, формулировки ТЗ, формы и структуры воплощения 59 ТЗ, времени, необходимого для его выполнения и других показателей, характеризующих ТЗ как систему; ¾ экспертном оценивании качества теста как системы: композиция теста, внутренняя согласованность заданий в тесте, соответствие цели применения данного теста, функции применения теста и пр.; ¾ оформлении итогов экспертизы в форме суждения о качестве оцениваемых объектов. Работа эксперта по
оцениванию качества тестового задания, как подсистемы теста в целом, осуществляется в три этапа. Первый этап – оценивание семантики, в том числе и корректности формулировки тестового задания. Любое содержание тестового задания может быть представлено вербально (словесно) и невербально (рисунки, графики, таблицы). В этом направлении эксперт проводит многокомпонентный анализ содержания тестового задания, а именно: 1) Предметно–содержательный анализ – эксперту необходимо оценить адекватность отражения фактического материала учебной программы, который можно представить двумя компонентами: ¾ фактологический – точность отражения фактов, событий, предметов, явлений материала преподаваемой учебной дисциплины в форме суждения; ¾ концептуальный – корректность представления содержания в формулировке ТЗ логически выделенному дидактическому модулю в соответствии со структурой содержания
учебной дисциплины. 2) Композиционный анализ. Композиция тестового задания представляет собой единство формы, содержания, инструкции по выполнению задания и разнообразных вспомогательных компонентов (такие как, таблицы, рисунки, графики). От гармоничности оформления всех составляющих ТЗ зависит логичность, содержательность, семантическая нагруженность задания, что, в свою очередь влияет на уровень восприятия тестового задания испытуемым. 3) Функциональный анализ. Тесты в педагогическом процессе выполняют ряд функций: диагностическую, прогностическую, коррекционную, воспитательную, обучающую. Тестовое задание, как компонент тестирования, тоже способно нести в себе функциональную нагруженность. В любом случае, в силу своей специфической природы, каждое задание полифункционально, но степени выраженности той или иной функции различны. От точности 60 определения функциональной значимости ТЗ зависит эффективность его применения в процедуре тестирования. 4) Вербальный анализ – грамматическое построение формы тестового суждения является одним из важнейших компонентов задания. От правильности грамматического оформления всех компонентов композиции ТЗ зависит четкость, логичность формулировки и однозначность восприятия ТЗ. Второй этап – прогнозирование успешности выполнения данного задания разными по уровню
подготовки обучающимися. Одна из наиболее сложных и трудоемких работ эксперта, заключающаяся: ¾ во–первых, в точности выделения логических операций, соответствующих результатам когнитивных действий тестируемых, что является основой для определения уровня сложности ТЗ; ¾ во–вторых, эксперт устанавливает ориентировочное время, необходимое для выполнения ТЗ. Особенность прогностического направления оценочной деятельности эксперта заключается в том, что в процессе формируются нормативы выполнения конкретного тестового задания. Третий этап – оформление итогов экспертного оценивания и рекомендаций по доработке или корректировке задания. Оформление итогов экспертного оценивания считается одним из важнейших этапов работ. Результаты экспертизы должны быть представлены в строгом формальном виде для того, чтобы они были доступны и понятны не только для эксперта, но и для тестолога, который будет проводить тестологическую экспертизу качества ТЗ и тестов после их апробации. Итоги экспертного оценивания могут быть выражены формально в протоколе, предназначенного для автоматизированной обработки. При этом эксперт заполняет отведенные для меток поля. Специфика экспертных суждений заключается в том, что результаты ЭО
по сути своей качественные (оценочно–атрибутивные), должны быть представлены числовыми величинами. Чаще всего для выражения качественной информации числовыми значениями используют трехбалльную или пятибалльную шкалы. Таким образом, эксперт представляет такие показатели тестового задания, как время, необходимое для выполнения задания, ожидаемый процент выполнения задания испытуемыми и др. Основная задача экспертного оценивания качества теста в целом заключается в доступном для экспертов анализе его свойств: практичности теста, его внутренней композиции, 61 содержательной (в том числе куррикулярной), функциональной критериальной и конструктной валидности. Для создания экспертного заключения эксперту требуется оценить: 1. Соответствие теста целям обучения и тестирования: насколько разработанный тест способен максимально точно диагностировать уровень подготовки обучающихся по соответствующему виду контроля (входной, рубежный или итоговый). 2. Практичность теста, заключающаяся в доступности инструкций и содержания
заданий теста для понимания тестируемого. 3. Куррикулярную валидность теста путем определения необходимого по каждой учебной теме количества тестовых заданий на основе кодификатора учебной дисциплины и спецификации теста с указанием в ней относительной значимости (веса) каждой темы. 4. Композицию теста путем оценивания внутренней согласованности заданий в тесте в зависимости от его назначения и гомогенности или гетерогенности. Основная задача оценивания внутренней согласованности заданий в тесте – это проверка сочетания подобранных заданий друг другу. Задания в тесте должны отражать структурную иерархию модели подготовки по учебной дисциплине. В этом же направлении эксперту необходимо оценить эффективность предложенной разработчиком схемы расположения заданий в тесте. 5. Представленность дидактических единиц
в тесте. 6. Наиболее эффективную форму предъявления теста: бланковое тестирование, компьютерное тестирование. 7. Эксперт должен оценить и дать рекомендации об эффективности использования того или иного способа расположения заданий в тесте. Понятие сбалансированности включает в себя пропорциональное наполнение теста заданиями разными уровнями сложности. Таким образом, анализ композиции теста показывает степень гармоничного
представления ключевых элементов содержания учебной дисциплины и адекватность их отражения в тесте. 8. Конструктную валидность, определяемую на основе анализа содержания теста, насколько объект тестирования и характер заданий учитывают психологические особенности тестируемых. При этом анализируются: сложность используемых ТЗ, возраст тестируемых и определенное в соответствии с их физиологическими возможностями оптимальное время выполнения теста с учетом времени необходимого для выполнения каждого ТЗ, длины и общей трудности теста. 62 9. Функциональную валидность теста на основе анализа соответствия конкретного теста тому уровню усвоения, виду деятельности, для которого он создан. 10. Содержательную валидность, на основе анализа репрезентативности проверяемых тестом способов умственной или практической деятельности, знаний, умений и навыков в соответствии с требованиями образовательной программы, кодификатора учебной дисциплины и спецификации теста. 11. Критериальную
валидность теста, отражающую значимость результатов тестирования по сравнению с некоторой внешней переменной, внешним критерием. Основная трудность в экспертной оценке носит методологический характер, поскольку она состоит в выборе значимого внешнего критерия. Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний обучающихся без использования тестов. По результатам экспертного оценивания выносится суждение о качестве и пригодности теста для целей тестирования. Заключительным процедурой ЭО является обработка протоколов экспертных оценок качества тестовых заданий и теста на согласованность мнений экспертов. Наиболее эффективной считается методика подсчета процента согласованности мнений экспертов (по Красильникову). · %
[2] где: – число категорий качества, )(vS
– сумма вариаций значений признака [5]. Данная формула определяет процент сходства мнений экспертов по совокупности общих значений выраженности внутренних свойств качества ТМ. Согласованность мнений экспертов в группе бывает разной степени согласованности: полностью согласованной, частично согласованной и несогласованной. В случае, когда мнения в группе расходятся, возникает необходимость проведения дополнительного коллективного собрания экспертов с целью обоснования крайних 63 экспертных оценок. Для участия в данном собрании можно пригласить авторов для пояснений и более подробной характеристики ТМ. Таким образом, в результате экспертного оценивания качества ТЗ и тестов мы получаем оценочно–атрибутивные суждения о качестве внутреннего содержания ТМ, рекомендации по времени, условиям проведения апробационного тестирования, данные для оценивания правильности выполненных заданий и
пр. Кроме того, эксперты могут выполнять комплектование вариантов тестов из ТЗ для проведения тестирования с учетом требуемых параметров и выборки, для которой предназначается использование теста. 5.3 Тестологическая экспертиза качества тестовых материалов В виду того, что тест является педагогическим измерительным средством, возникает необходимость его апробации на выборочной совокупности с целью выявления степени качества его внешних свойств. Апробационное тестирование проводится для сбора эмпирических данных тестовых заданий и тестов с целью выявления степени их качества. Для организации работы тестолога выдается инструкция по проведению тестологической экспертизы
качества ТЗ и тестов, комплекты ТМ, состоящих из ТЗ и тестов, прошедших предварительную экспертизу и внутреннюю экспертизу с полученными характеристиками на предыдущих этапах, спецификацию и кодификатор. Кроме характеристик ТЗ и тестов, полученных ранее, тестологи получают информацию о предполагаемой выборке испытуемых, для которой разрабатываются ТМ. Одним из важнейших этапов комплексной экспертизы качества тестов и ТЗ является установление, проверка и оценка его измерительных возможностей путём апробации на репрезентативных выборках [2, 12, 22 и др.]. Репрезентативностью выборки называется свойство выборочной совокупности (контингента, на котором проверяется тест или отдельные ТЗ) воспроизводить характеристики генеральной совокупности испытуемых со всеми его существенными демографическими особенностями [22]. Как считает К. Ингенкамп, «информативность тестовых норм
в значительной степени зависит от того, насколько велика была выборка, 64 была ли она стандартизована или нормирована и, прежде всего, каким образом она осуществлялась» [12]. При формировании выборки для апробационного тестирования необходимо придерживаться следующих требований: 1. Выборка тестируемых для проверки качества тестов и ТЗ должна включать минимум 300—400 человек и быть максимально приближённой по демографо-биографическим характеристикам. 2. Выборка должна быть репрезентативной. Репрезентативность выборки
означает, что с определённой заранее заданной погрешностью (которая научно рассчитана и будет учитываться при анализе полученных результатов) количественная и качественная структура выборочной совокупности (распределение изучаемых признаков у тех, кого мы обследуем с помощью теста) соответствует аналогичной структуре генеральной совокупности, представляет собой её миниатюрную копию, в которой те же самые значимые признаки распределены в той же пропорции или с минимально допустимыми отклонениями [22]. 3. Основу выборки составляет система взаимосвязанных элементов генеральной совокупности, удовлетворяющих требованиям полноты, точности, адекватности, удобства работы, отсутствия дублирования единиц наблюдения. При подготовке апробационного тестирования следует иметь в виду, что репрезентативная выборка включает в себя три вида страт: страта тестируемых с
низким уровнем подготовки, страта тестируемых со средним уровнем подготовки и страта тестируемых с высоким уровнем подготовки. Основой стратификации могут служить результаты предварительного контроля (вступительных испытаний) или текущего контроля успеваемости. После того, как была сформирована выборка испытуемых, проводится апробационное тестирование. При этом нужно обеспечить максимальное соблюдение времени и условий реального тестирования, для которого разрабатываются ТМ. Шаг 1
. После проведения апробационного тестирования тестологом формируются матрицы ответов испытуемых на задания, в которой содержится информация об ответах в дихотомической или политомической шкале, номер выполненного варианта тестируемым, информация о выборе варианта ответа из предложенных тестируемому. Матрицы ответов испытуемых формируются методом преобразования 65 исходных данных в набор признаков с двумя градациями. Данная процедура носит название дихотомизации ответов испытуемых [21]. Шаг 2
. Следующим этапом АП является обработка матриц ответов с целью получения и интерпретации количественных показателей ТЗ: трудности/легкости, фракции пропусков, дискриминативности ТЗ, подсчет коэффициентов корреляции подобранных дистракторов с правильным ответом (для заданий закрытого типа), подсчет значений коэффициентов корреляции ТЗ с итоговым баллом по тесту. Оценка эмпирической трудности ТЗ для заданий, оцениваемых в дихотомической шкале (1−верно выполнено задание, 0−неверно выполнено задание), проводится по формуле: [3] где: ﯝ
− доля правильных ответов на j-е задание, ﯝ
− количество студентов, выполнивших j-e задание верно, − число студентов в тестируемой группе, j −номер задания теста. Для заданий, оцениваемых в политомической шкале (2−полностью верно выполнено задание, 1−частично верно выполнено задание, 0−неверно выполнено задание), проводится по формуле: ·
[4] где: ﯝ
− доля правильных ответов на j-е задание, ﯝ
− количество студентов, выполнивших j-e задание верно, − число студентов в тестируемой группе, j −номер задания теста, −максимальное количество баллов, которое может получить один студент за решение j-го задания. 66 Коэффициент трудности задания изменяется в диапазоне (0,1) и может быть выражен в долях или %. В таблице № 5 представлены диапазоны изменения и интерпретации показателя трудности. Таблица № 5 Диапазоны изменения и интерпретации показателя трудности ТЗ Анализ количества заданий по сложности проводится в зависимости от типа вида тестирования: в случае нормативно-
ориентированного тестирования наполняемость
заданий в тест по сложности должна быть в следующей пропорции: «трудных» заданий − 15%, «легких» заданий − 15%, заданий «средней трудности» − 70%. При критериально-ориентированном тестировании на овладение базовыми навыками обучающихся большинство (от 70%) заданий должны быть «легкими» (по эмпирическим показателям, т.е. как минимум 80 % испытуемых должны правильно выполнять большинство ТЗ). Шаг 3
. Следующий показатель, который должен быть рассчитан и проанализирован − показатель величины пропусков ТЗ, который характеризуется через подсчет фракции пропусков ТЗ. Данный показатель применяется как дополнительный при оценивании дидактической корректности ТЗ. Заданием, пропущенным тестируемым при выполнении теста, считается задание, оставленное без ответа, если для любого из последующих заданий был записан правильный или ошибочный ответ. В качестве пропуска задания не принимаются задания, которые не были выполнены по причине истечения времени [56]. Фракция пропусков рассчитывается по формуле: Диапазоны изменения показателя трудности ТЗ (в долях) Интерпретация показателя трудности ТЗ 0−0,19 очень сложные ТЗ 0,2−0,49 сложные ТЗ 0,5−0,69 ТЗ средней сложности 0,7−0,89 легкие задания 0,9−1 очень легкие задания 67 [5] где: − фракция пропусков задания, הּ
− количество студентов, которые пропустили задание, − число студентов в тестируемой группе. Допустимой нормой считается значение показателя фракции пропусков, не превышающей 0,15. Шаг 4
. Дискриминативность − следующая характеристика, которая анализируется на этапе обработки результатов АТ. Дискриминативностью называется способность задания дифференцировать обучающихся на лучших и худших [42]. Высокая дискриминативность − важная характеристика удачного тестового задания. Оценка дискриминативности задания проводится по формуле: ﵫ
ﵯ
[6]
где: ﵫ
ﯣﯕﯜﯦ
ﵯ
ﯝ
− индекс дискриминативности для j-го задания теста, וּ
ﯝ
− доля учеников, правильно выполнивших j-е задание в подгруппе из 27% лучших студентов по результатам выполнения теста, הּ
ﯝ
− доля учеников, правильно выполнивших j-е задание в подгруппе из 27% худших студентов по результатам выполнения теста. Иногда при подсчете дискриминативности задания формируют группы из 25% лучших и худших, в случае малого объема выборки, на которой проводится АТ допускают ее разбиение на половины, т.е 50%. Более точные значения дискриминативности ТЗ подсчитываются по формулам: 68 ﵫ
ﵯ
ﵫ
ﵯ
ﶧ
[7] где: ﵫ
ﯣﯕﯜﯦ
ﵯ
ﯝ
−коэффициент точечно-бисериальной корреляции для j-го задания теста, ﵫ
וּ
ﵯ
ﯝ
−среднее значение индивидуальных баллов студентов, выполнивших верно j-е задание, среднее значение баллов по всей выборке студентов, ﯫ
стандартное отклонение по множеству индивидуальных баллов. ﵫ
ﵯ
ﵫ
ﵯ
ﵫ
ﵯ
ﶥ
[8]
где: ﯕﯜﯦ
ﯝ
− коэффициент точечно-бисериальной корреляции для j-го задания теста, ﵫ
וּ
ﵯ
ﯝ
−среднее значение индивидуальных баллов студентов, выполнивших верно j-е задание, ﵫ
הּ
ﵯ
ﯝ
−среднее значение индивидуальных баллов студентов, выполнивших j-е задание неверно, ﯫ
стандартное отклонение по множеству индивидуальных баллов. Значения коэффициента r
bis
для ТЗ изменяются в диапазоне [-1;1]. Максимальное значение коэффициент r
bis
= 1 принимает, когда все испытуемые с высоким уровнем подготовленности правильно выполняют j-e задание теста, а испытуемые с низким уровнем подготовленности это задание не выполняют. В этом случае ТЗ обладает максимальным дискриминативностью. При правильном выполнении ТЗ испытуемых с высоким уровнем подготовленности и испытуемых с низким уровнем подготовленности .
r
bis
= 0 Задание необходимо дорабатывать. Минимальное значение .
r
bis
= −1 бывает в случае, когда данное ТЗ испытуемых с высоким уровнем подготовленности выполнили неверно, а испытуемых с низким уровнем подготовленности — верно. ТЗ с .
r
bis
= 0 и r
bis
= −1 необходимо проанализировать дополнительно, выявить причины 69 неудовлетворительных показателей и сформулировать рекомендации для доработки авторам. В Таблице № 6 приведены диапазоны изменения показателей дискриминативности ТЗ в интервале [0;1] и их общепринятая интерпретация. Таблица № 6 Диапазоны изменения показателя дискриминативности ТЗ в интервале [0;1] В случаях, когда распределение тестовых баллов имеет отклонения от нормального, производится подсчет дифференцирующей силы задания (ДСЗ) по формуле: ﶧ
[9] где: ﯝ
− дифференцирующяя сила задания, ﯕﯜﯦ
ﯝ
− коэффициент точечно-бисериальной корреляции для j-го задания теста. Диапазоны изменения показателя дискриминативности ТЗ Интерпретация показателя дискриминативности ТЗ 0−0,2 ТЗ с неудовлетворительной дискриминативностью 0,21−0,40 ТЗ с удовлетворительной дискриминативностью 0,41−0,60 ТЗ с хорошей дискриминативностью 0,61−1 ТЗ с отличной дискриминативностью 70 Оптимальные значения a
j
изменяются в интервале от 0,5 до 2,5. При этом, как отмечает М.Б. Челышкова, задания с a
j
>2,5 обладают крайне высокой дифференцирующей способностью, однако захватывают весьма небольшой участок, поэтому их обычно используют только в тех случаях, когда необходимо достичь максимальной дискриминативности [43]. Обычно при конструировании теста отдают предпочтение заданиям со значениями в интервале 1 < a
j
< 2,5. Шаг 5
. Подсчет значений коэффициентов корреляции ТЗ с итоговым баллом по тесту, который характеризует валидность ТЗ. Формула для подсчета значений корреляции каждого ТЗ с итоговым баллом по тесту имеет вид: ﵫ
ﵯ
ﵫ
ﵯ
ﵫ
ﵯ
ﶧ
·
[10] где: ﵫ
ﯣﯕﯜﯦ
ﵯ
ﯝ
− коэффициент точечно-бисериальной корреляции для j-го задания теста, ﵫ
וּ
ﵯ
ﯝ
−среднее значение индивидуальных баллов студентов, выполнивших верно j-е задание, ﵫ
הּ
ﵯ
ﯝ
−среднее значение индивидуальных баллов студентов, выполнивших j-е задание неверно, ﯫ
стандартное отклонение по множеству индивидуальных баллов, וּ
ﯝ
количество студентов верно выполнивших j-е задание, הּ
ﯝ
количество студентов неверно выполнивших j-е задание, общее количество студентов, принявших участие в тестировании Значения ﵫ
ﵯ
изменяются в интервале [-1;1]. Задание признается валидным в случае, когда ﵫ
ﵯ
ﵒ ,. Шаг 6
. В случае наличия в тесте заданий закрытого типа, необходимо провести дистракторный анализ подобранных вариантов ответов. Главные требования к подбираемым дистракторам − это их правдоподобность и равнопривлекательность. С целью оценивания 71 качества подобранных вариантов ответов и проводится дистракторный анализ. В дидактической тестологии существуют два подхода к оцениванию качества дистракторов: первый подход основан на подсчете количества испытуемых, выбравших тот или иной дистрактор в качестве верного ответа, в этом случае анализируется частота выбора дистрактора. Второй подход основан на подсчете значения точечно-биссериального коэффициента, при
котором появляется возможность более детального анализа качества дистракторов. Итак, дистракторы признаются качественными в случае, когда значение ﵫ
ﵯ
отрицательно и по модулю не превышает 0,2. Положительное значение дистрактора ﵫ
ﵯ
бывает в том случае, когда обучающиеся с высоким уровнем подготовленности выбирают данный вариант ответа в качестве правильного. Для правильных ответов значение ﵫ
ﵯ
должно быть положительным и превышать 0,5. Отрицательное или близкое к 0 значение ﵫ
ﵯ
для правильного ответа бывает в том случае, когда обучающиеся с высоким уровнем подготовленности не выбирают данный ответ в качестве правильного. Следует особо отметить, частота выбора дистракторов в качестве правильных ответов должна быть примерно одинаковой среди испытуемых неправильно выполнивших задание. Если тот или иной дистрактор выбирают менее 5% испытуемых среди несправившихся с заданием, дистрактор признается «нерабочим» и подлежит замене. В результате выполнения всех выше названных этапов получаем два списка ТЗ: первый содержит в себе перечень ТЗ, значения показателей которых соответствуют требуемым нормам, второй − перечень заданий, значения показателей которых не соответствуют требуемым нормам. Далее переходим к следующему этапу – расчет показателей качества теста, к
таковым относятся валидность теста в целом, внутренняя однородность заданий в тесте, параллельность вариантов тестов и надежность. Шаг 7
. Расчет показателя валидности теста. Валидность теста рассчитывается как корреляция между показателями теста и некоторым внешним критерием. По сути своей показатель валидности теста − эмпирико-экспертный (т.е. рассчитывается он эмпирическим способом, но с привлечением экспертов−предметников). Сложность методики расчета показателя валидности заключается в способе его получения: во-
первых, в выборе внешнего критерия [43], а во-вторых, в установлении меры согласованности мнений экспертов. Традиционно, в качестве внешнего критерия используются результаты традиционного контроля, 72 выставленные экспертами тем же испытуемым, на которых проводилась апробация валидизируемого теста. Рассчитывается показатель валидности теста по формуле: в
∑
ﵫ
ﵯﵫ
э
ﵯ
ﰸ
ﶧ
·
[11] где: в
− коэффициент валидности теста, ﵫ
ﯜ
ﵯ − отклонение тестового балла i-го студента от среднего балла по тесту, ﵫ
ﯠﯜ
э
ﵯ − отклонение балла i-го ученика у экспертов от ﵫ
э
ﵯ − среднего арифметического экспертных оценок, ﯫ
זּ
– дисперсия баллов студентов по тесту, ﯠ
ﳣ
זּ
– дисперсия баллов экспертов, ﯠ
– количество экспертов. В Таблице № 7 приведены диапазоны изменения показателя валидности теста в интервале [0;1] и его интерпретация. Таблица № 7 Диапазоны изменения показателей валидности теста в интервале [0;1] Диапазоны изменения показателя валидности теста Интерпретация показателя валидности теста 0 – 0,09 плохая валидность 0,10 – 0,39 неудовлетворительная валидность 0,40 – 0,49 удовлетворительная валидность 0,50 – 0,74 хорошая валидность 0,75 – 0,79 очень хорошая валидность 0,80 – 1 отличная валидность 73 Шаг 8
. Расчет коэффициентов корреляции задания с заданием с целью оценивания внутренней согласованности теста. Внутренняя согласованность заданий теста − существенная характеристика теста, определяющая его гомогенность (однородность, взаимосвязанную близость заданий) [22]. По мнению М.Б. Челышковой, данный показатель характеризует «предметную чистоту теста» [43]. В этом случае применяется формула, по которой рассчитывается коэффициент : ﶥ
·
[12] где: ﯝﯟ
− коэффициент , ﯝﯟ
− доля испытуемых, выполнивших оба задания верно, ﯝ
− доля испытуемых, выполнивших верно j-е задание, ﯟ
− доля испытуемых, выполнивших верно l-е задание, ﯝ
1, ﯟ 1 ﯟ
. При анализе значений коэффициента необходимо учитывать вид контроля, для которого предназначается использование теста, в случае разработки теста для итогового контроля значение коэффициента должно быть в интервале (0; 3), для текущего – корреляция задания с заданием характеризуется высокими значениями. Задания, имеющие отрицательные значения коэффициента , рекомендуется исключать из теста, так как данные
задания свидетельствуют об отсутствии связи их содержания с содержанием других заданий теста [43]. При этом снижается гомогенность теста в целом. В Таблице № 8 приведены диапазоны изменения показателя корреляции задания с заданием в тесте в интервале [-1;1] и его интерпретация. 74 Таблица № 8 Диапазоны изменения показателя корреляции задания с заданием в тесте в интервале [-1;1] Слишком высокая внутренняя согласованность двух заданий показывает, что эти задания почти аналогичны и тяготеют к дублированию друг друга; слишком низкая (стремящаяся к нулю) означает, что задания измеряют количественно разные признаки внешнего критерия или какой-либо посторонний для
теста фактор [22]. Шаг 9
. Оценивание параллельности вариантов тестов по результатам апробационного тестирования. В целях повышения объективности и надежности педагогических измерений для тестирования используются варианты тестов, при этом они должны отвечать свойству параллельности. Формы вариантов тестов f, g, h... «считаются параллельными», если они: 9 разработаны на основе одной спецификации, 9 имеют одинаковое количество заданий попарно равной трудности с совпадающими характеристиками, в том числе и с совпадающими коэффициентами корреляции, 9 порождают на одной и той же выборке идентичные распределения наблюдаемых баллов (распределения с одинаковыми средними, дисперсией и т.д.), Диапазоны изменения показателя корреляции задания с заданием в тесте Интерпретация показателя корреляции задания с заданием −1– 0 Отсутствие внутренней согласованности 0–0,3 Слабая внутренняя согласованность 0,3–0,6 Хорошая внутренняя согласованность 0,6–0,8 Высокая внутренняя согласованность 0,8–1 Очень высокая согласованность 75 9 ковариации результатов тестирования по параллельным формам должны быть одинаковы: ﯫ
ﳕ
ﯫ
ﳖ
ﯫ
ﳑ
ﯫ
ﳙ
ﯫ
ﳔ
ﯫ
ﳝ
ڮ, где − ﯫ
ﳕ
ﯫ
ﳖ
ﯫ
ﳑ
ﯫ
ﳙ
… ковариации между тестовыми баллами по параллельным формам теста [43]. Априорно параллельность вариантов тестов задается на этапе их разработки, на этапе обработки результатов АТ проверяется расчетом коэффициента корреляции между наборами результатов выполнения параллельных форм теста по формуле Пирсона: ﵫ
ﵯ
∑
ﵫ
∑
ﰸ
ﵯﵫ
∑
ﰸ
ﵯ
ﰸ
ﶧ
∑ ﵫ
∑
ﰸ
ﵯ
ﰸ
·
ﶧ
∑ ﵫ
∑
ﰸ
ﵯ
ﰸ
[13] где: ﵫ
ﯫﯬ
ﵯ − коэффициент надежности параллельных форм тестов, ﯜ − индивидуальные баллы испытуемых в первой форме, ﯜ − индивидуальные баллы испытуемых в второй форме. В Таблице № 9 приведены диапазоны изменения показателя надежности параллельных форм тестов в интервале [-1;1] и его интерпретация. Таблица № 9 Диапазоны изменения показателя надежности параллельных форм тестов в интервале [-1;1 Диапазоны изменения показателя надежности параллельных форм тестов [-1;1] Интерпретация показателя надежности параллельных форм тестов –1–0 варианты теста абсолютно не параллельны 0–0,3 слабая степень параллельности 0,4–0,6 хорошая степень параллельности 0,7–1 отличная степень параллельности 76 Шаг 10.
Расчет и оценивание показателей надежности теста. Надежность теста в общем смысле характеризует точность измерения. Чем выше надежность, тем выше точность, с какой он измеряет уровень учебных достижений обучающихся. В случае использования теста, в котором содержатся дихотомические задания, надежность оценивается по формуле Кьюдера-
Ричардсона, которая имеет вид: ∑
·
[14] где: ﰈ
−коэффициент надежности זּהּ
, −количество заданий в тесте, ﯜ
−легкость i-го задания, ﯜ
−сложность i-го задания, ﯫ
זּ
−дисперсия результатов тестирования. Формула альфа Кронбаха применяется при оценке надежности тестирования при наличии заданий в тесте, имеющих политомическую шкалу оценивания (0, 1, 2, 3 и т.д.): ∑
[15] где: −коэффициент надежности альфа Кронбаха, −количество заданий в тесте в случае внутренней согласованности, ﯜ
זּ
−дисперсия результатов i-го задания, ﯫ
זּ
−дисперсия результатов тестирования. Формула Спирмена-Брауна применяется для расчета надежности при однократном тестировании, при этом тест разделяется на две однородные группы. מּ
[16] 77 где: ﰈ
−коэффициент эквивалентности, −коэффициент корреляции Пирсона между результатами половин теста. Применяя формулу Спирмена-Брауна, необходимо учитывать, что разница дисперсий половинок теста не должна превышать 10-20 %.На практике низкая разница дисперсий половинок теста получается редко, в этом случае применяют формулу Рулона, по которой рассчитывается коэффициент эквивалентности половинок теста. ﰷ
[17] где: ﰈ
−коэффициент эквивалентности, −дисперсия разницы между результатами половин теста, −дисперсия результатов тестирования. Коэффициент надежности теста содержится в диапазоне (0;1). Нормы к показателю надежности признаются общими для коэффициентов, полученных разными методами. В Таблице № 10 приведены диапазоны изменения показателя надежности тестов в интервале [0;1] и его интерпретация. Таблица № 10 Диапазоны изменения показателя надежности тестов в интервале [0;1] Диапазоны изменения показателя надежности теста [0;1] Интерпретация показателя надежности теста 0 – 0,599 низкая надежность 0,600 – 0,699 неудовлетворительная надежность 0,700 – 0,799 удовлетворительная надежность 0,800 – 0,899 хорошая надежность 0,900 – 0,949 очень хорошая надежность 0,950 - 1 отличная надежность 78 Шаг 11
. В случае низкого показателя надежности возникает необходимость проанализировать длину теста. Длина теста – один из факторов, влияющих на показатель надежности теста в целом. Статистический расчет необходимой длины теста проводится по обобщенному варианту формулы Спирмена−Брауна: н ,
н
מּ
н
[18]
где: н ,
− коэффициент надежности после увеличения длины теста, н
− коэффициент надежности до увеличения длины теста, − число раз, в которое увеличилась длина теста. Данная формула может применяться в том случае, когда была проведена первичная апробация и получены данные надежности исходного теста. Наиболее часто при определении длины теста исходят из общего времени, отведенного на тестирование с учетом времени выполнения каждого отдельного задания. Изначально параметры длины теста и времени выполнения каждого задания определяется автором разрабатываемого теста. На этапе ЭО эксперты оценивают их, а на этапе АТ проводится сбор данных о реальном времени, затраченном тестируемым на выполнение каждого задания и о количестве последних заданий в тесте, до которого испытуемые не смогли дойти
. Согласно данным международных исследований время выполнения зависит от типа ТЗ: с выбором ответа из четырех-пяти – тестируемый затрачивает на выполнение в среднем до 1 мин., с кратким ответом – в среднем до 2 мин., с полным свободно конструируемым ответом – до 5 мин. Исходя из этих данных высчитывается длина (количество ТЗ) теста. При этом необходимо помнить, что от длины теста зависит его надежность. Вопрос о необходимом количестве заданий в тесте в научной литературе по дидактической тестологии до сих пор остается дискуссионным: по мнению В.П. Беспалько, «общее число ТЗ в тесте определяется необходимой надежностью: для текущего контроля достаточна 20−30%-
ая (r = 0,2−0,3) надежность, тогда в тесте
содержится 10−12 операций. Для итогового контроля r = 0,7−0,75, а следовательно, р = 40−50» [4]. Для дидактических гомогенных тестов считается оптимальная длина теста от 23 до 50 тестовых суждений, для гетерогенного рекомендуется от 20 до 200 тестовых суждений [2, 8, 22, 43]. После того как рассчитаны все эмпирические показатели качества ТЗ и тестов проводится следующий этап комплексной экспертизы – осуществляется комплексное оценивание 79 с целью получения интегрального показателя качества ТМ и определяются направления их корректировки и доработки в случае неудовлетворительных показателей. 5.4 Комплексная экспертиза качества тестовых материалов Решение проблемы комплексного оценивания качества ТМ базируется на применении многокритериального подхода. Необходимость применения данного подхода обусловлена рядом причин: 1. многокомпонентностью структуры ТМ; 2. слабой формализуемостью элементов ТМ при оценивании его качества; 3. наличием компонентов структуры, которые могут быть оценены либо только с применением статистических методов, либо только с применением экспертных методов
, т.е часть показателей качества ТМ имеет только количественный характер, часть–качественный; 4. наличием посторонних факторов, которые не поддаются измерению; 5. разнородностью показателей качества ТМ: показатели могут быть выражены числом, альтернативой («есть», «нет», «соответствует», «не соответствует»), лингвистическими переменными; 6. выбором адекватной методики получения комплексных показателей качества ТМ. При комплексном оценивании качества ТМ снимается проблема несоизмеримости оценивания внутренних и внешних свойств ТМ за счет агрегирования показателей качества, основанных на построении оптимальной иерархической системы критериев и показателей. Данный этап включает в себя следующие процедуры: 1. формирование сводной таблицы показателей качества ТМ, полученных на предыдущих этапах экспертизы; 2. построение комплексных показателей качества ТМ; 3.
нормирование показателей качества ТМ; 4. определение доверительных интервалов комплексных оценок; 5. формирование вербально ? числовой шкалы качества ТМ; 6. формирование итогового заключения в виде рекомендаций: 80 • по применению стандартизированных педагогических тестов для диагностики и контроля; • для авторов по корректировке и доработке ТМ с указанием причины несоответствия к требованиям качества. Шаг 1
. По результатам предварительной экспертизы, экспертного оценивания и тестологической экспертизы мы получаем перечень критериев и показателей качества ТМ и заносим их значения в итоговую таблицу, которая формируется отдельно для каждого ТЗ и теста, или вариантов теста, в целом. На этапе формирования итогового заключения о качестве ТМ необходимо оценить их степень соответствия
нормативным значениям. При этом необходимо учитывать, что данные показатели могут характеризоваться недостаточной информацией о качестве (малоинформативные показатели), избыточной информацией, противоречивостью и ошибочностью. Поэтому при формировании итогового заключения о качестве ТМ следует учитывать только достоверные и значимые показатели. Таблица № 11 Образец сводной таблицы показателей качества ТЗ № ТЗ Показатели качества ТЗ Доверительный интервал изменения показателя качества ТЗ Фактическое значение показателя Таблица № 12 Образец сводной таблицы показателей качества теста (вариантов теста) Варианты теста Показатели качества теста Доверительный интервал изменения показателя качества теста Фактическое значение показателя 81 Шаг 2
. Построение комплексных показателей качества ТМ. Формирование комплексных показателей качества ТМ представляет собой агрегирование единичных показателей. При этом важной методологической проблемой является выбор наиболее оптимального метода агрегирования единичных показателей в комплексную оценку. Наиболее известные методы агрегирования единичных показателей в комплексную оценку: 9 метод «линейной свертки», который основан на подсчете комплексной оценки по следующей формуле: ∑
נּ
[19]
где: – комплексная оценка качества, ﯝ
− вес j- го критерия, ﯝ
– значение j- го критерия. Главным недостатком линейной «свертки» является субъективизм при определении веса критерия на основе экспертных заключений. При этом группе экспертов необходимо присвоить весовые коэффициенты всему списку единичных критериев, что неизбежно влечет за собой высокую степень неточности и погрешности. Данный метод имеет еще одно ограничение: он может быть использован
только в случае полного отсутствия или слабого взаимодействия единичных показателей между собой [31]. 9 метод формирования комплексной оценки на основе построения иерархической структуры критериев и показателей. При этом все критерии и показатели качества ТМ организуются в определенную иерархическую структуру. На каждом уровне этой структуры происходит построение агрегированной оценки предыдущего уровня. Применение данного метода снимает субъективность при линейной «свертке». Комплексная оценка формируется только по значимым критериям, тем самым повышается ее точность и достоверность. 82 Шаг 3
. Нормирование показателей качества ТМ (приведение к стандартному виду). В теории квалиметрии предлагается использовать единый диапазон оценивания [0;1] [5] так как именно в этом диапазоне: 9 обеспечивается адекватная сопоставимость показателей качества ТМ, полученных на разных этапах комплексной экспертизы; 9 задаются доверительные интервалы изменения значений показателей качества ТМ; 9 учитываются весовые коэффициенты показателей качества ТМ. Шаг 4
. Определение доверительных интервалов комплексных оценок. В виду того, что в результате формирования комплексной оценки, не всегда представляется возможным нивелировать нечеткость информации о качестве ТМ, наиболее эффективным считается установление интервалов значений комплексных оценок. Установление интервалов значений комплексных оценок качества ТМ позволяет учитывать неопределенность качественных показателей и нечеткость количественных показателей, тем самым повышая достоверность самой оценки. Интервалы могут быть заданы директивно, заимствованы из источников научной литературы или рассчитаны по результатам экспертного опроса. Для доверительных интервалов устанавливается нижний и верхний пороговый уровни. Методика установления доверительных интервалов комплексных оценок качества ТМ Группе экспертов предлагается оценить каждый комплексный показатель по заданной шкале. После этого высчитывается пороговый уровень каждого показателя по формуле: ∑
נּ
[20] где: ﯜﯝ
– оценка i- го показателя j- ым экспертом, M
ﭨ
– количество экспертов. Далее определяется окрестность порогового уровня каждого из показателей , значение которого рассчитывается по формуле: 83 ﶧ
·
∑
ﵫ
ﵯ
נּ
[21] С учетом определяется верхняя граница интервала значения каждой комплексной оценки: [22]
и нижняя: [23]
Шаг 5.
Формирование вербально ? числовой шкалы комплексной оценки качества ТМ, которая формируется по результатам комплексной экспертизы качества ТМ. В этом случае каждому установленному интервалу изменения значений приписывается вербальная характеристика комплексной оценки. Традиционно используют следующие градации: 1. недопустимо низкий уровень качества (ТМ не отвечает требованиям качества, применять для контроля качества УД нельзя); 2. низкий уровень качества (ТМ не отвечает большинству требований качества, применять для контроля уровней УД нельзя); 3. удовлетворительный уровень качества (ТМ частично не отвечает требованиям качества, необходима корректировка); 4. хороший уровень качества (ТМ соответствует требованиям качества, можно применять для контроля уровней УД); 5. очень хороший уровень качества (ТМ полностью соответствует требованиям качества
, можно применять для контроля уровней УД); 6. отличный уровень качества («образцовый» ТМ, по результатам выполнения которого можно устанавливать критерии и нормы выполнения заданий). При этом уровень градаций вербальной шкалы может быть увеличен или сокращен. Шаг 6
. Заключительным этапом экспертизы качества ТМ является этап комплексной экспертизы, на котором проводится комплексное оценивание ТМ с целью получения интегративного показателя качества 84 ТЗ и теста в целом. В силу того, что интегральные свойства теста не являются суммой свойств тестовых заданий, входящих в его структуру, возникает необходимость в получении интегрального показателя качества теста. В.И. Васильевым [5] предложено оценивать интегральное качество системы по формуле: ﯜ
∑
ﯜﯝ
ﯝ ﯡ
ﯜנּוּ
[24]
где: ﯜ
– интегральное качество i- го задания, ﯜﯝ – качество i- го задания по j- му критерию, ﯝ – коэффициент значимости каждого критерия. В рамках данной методики проводятся следующие процедуры: 1. Сначала формируется общая таблица количественных показателей ТЗ/теста, полученных на разных этапах экспертизы. № ТЗ Критерии КК
1
КК
2
КК
3
КК
4
КК
14
КК
15
КК
16
КК
17
ТЗ
1
1 3 2 3 2 81,00% 0,3 0,6 ТЗ
2
1 3 1 1 2 67,00% 0,4 0,7 ТЗ
3
2 2 1 3 2 57,00% 0,4 0,6 ТЗ
4
3 1 1 1 1 66,00% 0,4 0,5 ТЗ
10
5 2 2 3 3 13,00% 0,5 0,9 ТЗ
11
4 2 2 3 1 17,00% 0,4 0,8 max 5 3 2 3 3 81 0,5 0,9 min 1 1 1 1 1 13 0,3 0,5 85 2. Далее переводятся количественные значения в их качественные аналоги. № ТЗ Критерии КК
1
КК
2
КК
3
КК
4
КК
14
КК
15
КК
16
КК
17
ТЗ
1
1 3 3 3 2 3 1 2 ТЗ
2
1 3 1 1 2 3 2 2 ТЗ
3
2 2 1 3 2 2 2 2 ТЗ
4
2 1 1 1 1 3 2 1 ТЗ
10
4 2 2 3 1 1 1 2 ТЗ
11
1 3 3 3 2 3 1 2 3. Рассчитывается коэффициент значимости (энтропии) критерия. Н
1
Н
2
Н
3
Н
4
Н
14
Н
15
Н
16
Н
17
1,55 1,07 0,66 0,86 1,08 0,30 0,40 0,70 4. По формуле [24] высчитывается интегральное значение качества ТЗ/теста № ТЗ Качество ТЗ/теста ТЗ
1
13,81 ТЗ
2
11,40 ТЗ
3
12,39 ТЗ
4
9,02 ТЗ
10
18,16 ТЗ
11
15,34 86 5. Проводится нормирование интегральных значений качества ТЗ/теста № ТЗ Качество ТЗ/теста ТЗ
1
0,760 ТЗ
2
0,628 ТЗ
3
0,682 ТЗ
4
0,497 ТЗ
10
1,000 ТЗ
11
0,844 6. Проводится сопоставление и интерпретация полученных значений интегрального показателя с принятой шкалой. Диапазоны изменения интегрального показателя качества ТМ Интерпретация показателя качества 0 − 0,2 недопустимо низкий уровень качества ТМ 0,2 − 0,3 низкий уровень качества 0,4 − 0,5 удовлетворительный уровень качества 0,6 − 0,7 хороший уровень качества 0,8 − 0,9 очень хороший уровень качества 0,9 − 1 отличный уровень качества 87 Данная методика по расчету интегрального показателя качества ТМ позволяет: 1. обрабатывать и сопоставлять показатели, имеющие разную природу выраженности (числовые, вербальные, вербально-числовые и пр.) 2. вычислить интегральный показатель качества ТМ с учетом значимости критериев и показателей, установленных объективным способом; 3. учитывать динамику критериев и показателей; 4. на основе анализа значений энтропии
критериев и показателей позволяет выявить наиболее «проблемные» свойства ТМ, снижающие качество измерителя в целом и наметить корректирующие мероприятия по повышению качества ТМ. 6. Структурно-функциональная модель организации и проведения комплексной экспертизы качества тестовых материалов Структурно-функциональный подход при разработке комплексной экспертизы качества ТМ позволяет описать внутренние элементы организации и проведения экспертизы и установить взаимосвязи субъектов деятельности. Методологической основой описания внутренней структуры комплексной экспертизы качества ТМ является методология многоуровневых иерархических систем. Рассмотрение внутренней организации экспертизы, как многоуровневой иерархической системы, обусловлено многокомпонентностью и сложностью основного объекта оценивания
– ТМ. Как отмечалось ранее, ТМ представляет собой многокомпонентное образование, состоящее из ряда структурных элементов, каждый из которых характеризуется рядом внутренних и внешних свойств; в свою очередь, каждое свойство обладает своей топологией, которые определяются особенностями, во-
первых, множества испытуемых, во-вторых, особенностями технологии обработки результатов апробационного тестирования и, в-третьих, показателями компетентности специалистов, участвующих в разработке и экспертизе ТМ, при этом возникает необходимость оценивания всех составляющих компонентов структуры и содержания тестовых заданий и тестов в целом. Поэтому структура экспертизы как системы в данном исследовании рассматривается как многоуровневая, описываемая с позиций теории систем. Таким образом, при описании внутренней 88 структуры комплексной экспертизы нужно учитывать, что она [система], во–первых, состоит из взаимосвязанных подсистем, а, во–вторых, что эти системы образуют иерархию. Итак, существенными характеристиками, присущими всем иерархическим системам являются: 1. последовательное вертикальное расположение подсистем, составляющих данную систему; 2. приоритет действий или право вмешательства подсистем верхнего уровня; 3. зависимость действий подсистем
верхнего уровня от фактического исполнения нижними уровнями своих функций [20]. Организационную структуру комплексной экспертизы качества ТМ образуют: 9 административно–управленческий состав; 9 методический совет; 9 коллектив авторов–составителей ТМ; 9 группа экспертов–предметников; 9 группа тестологов; 9 группа организаторов, наблюдателей и дежурных для проведения тестирования. Рисунок 4. Организационная структура комплексной экспертизы качества тестовых материалов 89 90 Структурирование функций позволяет описать обязанности, роли и ответственность участников комплексной экспертизы качества ТМ. Функции административно–управленческого состава:
1. Координирует работу по проведению комплексной экспертизы качества ТМ. 2. Утверждает состав групп специалистов, обеспечивающих процедуры экспертизы. 3. Устанавливает сроки проведения работ. 4. Утверждает решения отдельных комиссий. 5. Контролирует соблюдение регламентов проведения процедур экспертизы. Функции методического совета:
1. Осуществляет методическое обеспечение комплексной экспертизы. 2. Организует разработку и утверждение документов, регламентирующих порядок проведения работ. 3. Осуществляет сбор заявок на разработку необходимых ТМ, готовит технические задания на разработку ТМ для авторов. 4. Проводит мониторинг наполняемости и полноты ПЭБТМ и банка стандартизированных тестовых измерителей. 5. Разрабатывает методики сбора, обработки и интерпретации результатов экспертизы. 6. Разрабатывает протоколы, формы, анкеты и шаблоны отчетов для экспертов, тестологов и организаторов тестирования. 7. Устанавливает сроки, условия и инструкции проведения тестирования. 8. Проводит подготовку, переподготовку и повышение квалификации всех категорий специалистов, участвующих в процедурах комплексной экспертизы. 9. Подготавливает и предоставляет предложения по совершенствованию этапов экспертизы и форм
отчетности. Функции авторов–составителей ТМ:
1. Разрабатывают тестовые задания, тесты и сопутствующую им документацию в соответствии с требованиями, изложенными в нормативных документах. 91 2. Проводят корректировку и доработку ТМ в соответствии с рекомендациями, полученными после проведения экспертизы. 3. Участвуют (по мере необходимости) в заседаниях Рабочей группы. 4. Вносят предложения по совершенствованию ТМ. Функции экспертов–предметников:
1. Участвуют в заседаниях Рабочей группы. 2. Проводят внутреннюю экспертизу по заданным критериям и показателям качества ТМ. 3. Оформляют итоги внутренней экспертизы качества ТМ по заданному шаблону. 4. Вносят предложения по оптимизации процедур внутренней экспертизы. 5. Формируют предложения по совершенствованию ТМ для авторов. 6. Формируют рекомендации по оцениванию результатов выполнения заданий, времени необходимого для выполнения каждого задания и теста в целом, минимальному критериальному баллу и пр. для группы тестологов. 7. Вносят предложения по условиям проведения апробационного тестирования и формирования выборочной совокупности тестируемых. Функции тестологов:
1. Участвуют в заседаниях Рабочей группы. 2. Проводят статистический анализ результатов апробационного тестирования. 3. Формируют рекомендации по доработке и корректировке тестовых заданий и тестов для авторов; по коррекции критериального балла (в случае значительного расхождения экспертных рекомендаций и фактических). 4. Подготавливают рекомендации по шкалированию результатов тестирования. Функции организаторов, наблюдателей и дежурных
проведения тестирования:
1. Провести тестирование с соответствующие сроки, установленные графиком. 2. Соблюдать инструкции по проведению тестирования. 92 3. Заполняют необходимые формы отчетности проведения тестирования. 4. Подготавливают рекомендации по условиям организации и проведения тестирования. 5. Оформляют итоговые отчеты о ходе тестирования. Следует особо отметить, что для эффективной работы всех групп специалистов необходимо оперативное и полное обеспечение информацией, получаемой на разных этапах экспертизы. Для этого необходимо разработать управления и взаимодействия
специалистов разных групп и схемы обмена первичной и вторичной информацией между ними. Заключение Для повышения эффективности применяемых в педагогике тестовых измерителей контроля уровней учебных достижений обучающихся предложена модель комплексной экспертизы качества тестовых материалов. Применение квалиметрического и системного подходов при разработке данной модели позволили описать экспертизу как процесс системного исследования качества ТМ методами тестовой квалиметрии. При этом было выявлено, что для проведения экспертизы необходимо, прежде
всего, описать внутреннюю структуру качества ТМ, которая обусловлена внешними и внутренними свойствами. Данный принцип рассмотрения сущности ТМ как измерительного инструмента уровня учебных достижений обучающихся определяет рассмотрение экспертизы как системы, состоящей из подсистем: 9 предварительная экспертиза; 9 внутренняя экспертиза; 9 тестологическая экспертиза; 9 комплексная экспертиза. Основой проведения комплексной экспертизы качества ТМ является система критериев и показателей оценки их качества, которая строится с учетом следующих методологических принципов: 1. критерии качества ТМ должны составлять систему; 2. система критериев и показателей качества должна быть сбалансирована по количественному составу; 93 3. критерии и показатели оценки качества ТМ должны иметь научное, методическое и эмпирическое обоснование; 4. критерии должны быть измеримыми; 5. система критериев оценки качества не должна быть избыточной: при формировании перечня должны быть исключены дублирующие критерии; 6. критерии и показатели оценки качества ТМ должны быть информативными; 7. к критериям и показателям должны быть установлены базовые значения; 8. перечень критериев и показателей оценки качества ТМ должны быть утверждены в нормативных документах комплексной экспертизы. В качестве основных критериев оценки качества ТМ в данной модели используются два основных комплексных показателя: надежность и валидность. С точки зрения процессуального подхода в рамках комплексной экспертизы качества ТМ выделены следующие технологические этапы: 1. формирование цели
экспертизы качества ТЗ и тестов. 2. классифицирование свойств ТЗ и тестов, определяющих критериальную базу оценивания качества ТМ. 3. проведение декомпозиции комплексных критериев качества тестов и ТЗ. 4. формирование процедур и алгоритмов оценивания, выбор методов экспертного оценивания, апробационного тестирования и шкалирования с целью получения итоговых комплексных показателей качества ТЗ. 5. формирование процедур и алгоритмов оценивания, выбор методов экспертного оценивания, апробационного тестирования и шкалирования с целью получения итоговых комплексных показателей качества целых сформированных тестов. 6. формирование базовых (нормативных) значений показателей качества ТЗ и тестов. 94 7. нормирование показателей качества ТЗ и тестов, приведение их к стандартному виду. 8. комплексную оценку качества ТЗ и тестов с получением интегрального показателя их качества. Для каждого технологического этапа даны методические рекомендации по организации, о методах сбора и обработки первичной информации. Предложена методика расчета интегрального показателя качества ТМ. Предлагаемая модель системы
комплексной экспертизы, основанная на методологии системного подхода и тестовой квалиметрии, позволяет повысить качество применяемых тестовых материалов для оценки и контроля уровня учебных достижений обучающихся. Разработанная сбалансированная система критериев и показателей качества ТМ позволяют сформировать перечень требований к качеству ТМ, которые могут применяться на стадии их разработки. Предложенная методика расчета интегрального показателя качества ТМ реализует собой принципы объективности и оптимальности, что позволяет формировать электронный банк стандартизированных тестовых измерителей с учетом их уровня качества. Совокупность методических рекомендаций и методик расчета и агрегирования показателей качества ТМ, описанные в процедурах комплексной экспертизы, могут быть использованы в практике подготовки специалистов в области педагогических измерений. 95 Список использованной литературы 1. Аванесов B.C. Теоретические основы разработки заданий в тестовой форме. – М.: МГТА, 1995. – 95 с. 2. Анастази А. Психологическое тестирование. – 7–е изд. – СПб.: Питер, 2005. – 688 с. 3. Балыхина Т.М.Словарь терминов и понятий тестологии. – М.: Изд–во. РУДН, 2000. – 164 с. 4. Беспалько В.П. Слагаемые педагогической технологии. – М.: Педагогика, 1989. – 191 с. 5. Васильев В.И., Красильников
В.В. и др. Статистический анализ многомерных объектов произвольной природы. Введение в статистику качества.– М.: Издательство ИКАР, 2004.–382 с. 6. Гальперин П. Я. Психология мышления и учение о поэтапном формировании умственных действий. – Введение в психологию. М., 1976. – 500 с. 7. Гальперин П.Я. Лекции по психологии. – СПб.: Книжный дом Университет; 2002, – 400 с. 8. Гулюкина
Н. А., Клишина С. В. Педагогический тест: этапы и особенности конструирования и использования. Пособие для преподавателей. – Новосибирск: Изд–во НГТУ, 2001. – 130 с. 9. Дружинин В.Н. Экспериментальная психология. – СПб: Издательство «Питер», 2000. — 320 с. 10. Дятлова К. Д. Система разработки и анализа педагогических тестов по биологии: Автореф. дисс. … док. фил. наук.: – СПб.: РГПУ им. А.И. Герцена, 2007. – 41 с. 11. Ефремова Н.Ф.Современные тестовые технологии в образовании. Учеб. пособие. – М.: Логос, 2003, – 176 с. 12. Ингекамп К. Педагогическая диагностика. – М.: Педагогика, 1991. – 127 с. 13. Клайн П. Справочное руководство по конструированию тестов. Введение в психометрическое проектирование. – Киев.: ПАН Лтд., 1994. – 288 с. 14. Ковалева Г.С. Зарубежный опыт построения и актуальные проблемы развития образовательного тестирования. М., 2001. – 120 с. 15. Майоров А. Н. Тесты школьных достижений: конструирование, проведение, использование. – М., 2000.– 352с. 96 16. Майоров А. Н.Мониторинг в образовании: Изд. 3–е, испр. и доп. – М.: Интеллект–Центр, 2005. – 424 с. 17. Майоров А.И. Тесты школьных достижений: конструирование, проведение, использование. – СПб: Образование и культура, 1997.–304 с. 18. Максимова О.А. Технология комплексной экспертизы качества тестовых материалов для контроля учебных достижений обучающихся. – Известия РГПУ им. А.И.Герцена. № 29 (65): Аспирантские тетради: Научный журнал.– СПб., 2008. – С.424–
427. 19. Менькова С.В., Пермяков О.Е., Смирнова А.С., Максимова О.А. Как работают эксперты ЕГЭ: результаты социологических исследований в Томской области. – ОКО. Оценка качества образования. Научно-методический журнал. № 1 – 2008. – С. 16-
21. 20. Месарович М., Мако Д., Тахакара Н. Теория иерархических многоуровневых систем: Пер. с англ. – М.: Мир, 1973.– 402 с. 21. Миркин Б.Г. Анализ признаков и структур. – М.: Статистика, 1980. – 318 с. 22. Михайлычев Е.А. Дидактическая тестология.– М., 2001.– 432с. 23. Московченко А.Д. Философия для технических вузов: Учебное пособие. – Томск: Том. гос. ун
-т систем управления и радиоэлектроники, 2003.– 175 с. 24. Нардюжев В.И., И.В. Нардюжев. Модели и алгоритмы информационно–вычислительной системы компьютерного тестирования. Монография.– М.: Прометей, 2000. –148 с. 25. Новейший философский словарь. – Минск.: Книжный Дом, 2003.–1279 с. 26. Орлов А.И. Экспертные оценки. Учебное пособие. М., 2002. – 64 с. 27. Переверзев В. Ю. Критериально–ориентированные педагогические тесты для итоговой аттестации студентов.– М.: НМЦ СПО Минобразования РФ, 1999. – 152 с. 28. Пермяков О.Е., Максимова О.А. Общие подходы к стандартизации тестовых заданий и тестов в электронных банках данных. – Развитие тестовых технологий в России. Тезисы докладов IX Всероссийской научно-методической конференции 27-28 ноября. – М.: «Федеральный центр тестирования», 2007. – С.133–136. 29. Пермяков О.Е., Максимова О.А. Процедуры комплексной экспертизы качества тестовых заданий и тестов при формировании 97 банка данных. – Журнал научных публикаций аспирантов и докторантов. №4 – 2008. – С.110–114. 30. Пермяков О.Е., Максимова О.А. Формализация экспертного оценивания качества тестовых материалов с позиций системного подхода.// Вестник педагогических инноваций. № 3 (7). – Новосибирск, 2006. – 158 с. 31. Портнова И.М. Совершенствование системы оценивания качества продукции: автореф. дисс. на соискание ученой степени канд. техн. наук. – Пенза, 2005. – 17 с. 32. Примерная методика обобщения и анализа информации о качестве образования в вузе и системе его обеспечения // Серия: Нормативно-методическое обеспечение мониторинга качества образования в России. / Под научной редакцией д-ра техн. наук, проф., Н.А. Селезнёвой, д-ра экон. наук, д-ра филос. наук А.И. Субетто. - М.: Исследовательский центр по проблемам качества подготовки специалистов, 2001. - 21 с. 33. Примерная методика организации структурно-
функционального анализа деятельности вуза // Серия: Нормативно-методическое обеспечение мониторинга качества образования в России. / Под научной редакцией д-ра
техн. наук, проф., Н.А. Селезнёвой, д-ра экон. наук, д-ра филос. наук А.И. Субетто. - М.: Исследовательский центр по проблемам качества подготовки специалистов, 2001. - 33 с. 34. Родионов Б. У., Татур А. О. Инструкция для составителя тестов. Центр тестирования МИФИ. – М.: МИФИ, 1995. – 10 с. 35. Родионов Б. У., Татур А. О. Стандарты и тесты в образовании. – М.: Исслед. центр, 1995. – 48 с. 36. Сафонцев С.А. Образовательная квалиметрия в системе повышения квалификации. – Ростов–на–Дону: Издательство Ростовского университета, 2004.–155 с. 37. Селезнева Н. А. Качество высшего образования как объект системного исследования: Лекция–доклад.–М.: ИЦПКПС, 2001– 79 с. 38. Современный словарь иностранных слов. – М.: Русский язык
, 1993. – 740 с. 39. Субетто А.И. Введение в квалиметрию высшей школы. Книга 2. «Концепция квалиметрии. Система категорий и понятий.»/ Учеб. пособие. – М.: Исследовательский центр по проблемам управления качеством подготовки специалистов, 1990.– 117 с. 40. Субетто А.И. Оценочные средства и технологии аттестации качества подготовки специалистов в вузах: методология, 98 методика, практика. / Монография. – СПб.-М.: Исследовательский центр проблем качества подготовки специалистов, 2004. – 280 с. 41. Талызина Н. Ф. Теоретические основы контроля в учебном процессе. М.: Знание, 1983. – 96 с. 42. Родионов Б. У., Татур А. О. Стандарты и тесты в образовании. М.: МИФИ, 1995. – 82 с. 43. Татур Ю.Г. Основные положения, определяющие создание фондов оценочных средств
для итоговой государственной аттестации выпускников вузов на соответствие требованиям ГОС ВПО. / Проблемы качества образования. Книга 2. Оценка качества подготовки выпускников образовательных учреждений. // Материалы XI Всероссийской научно-
методической конференции. - М.; Уфа: Исследовательский центр проблем качества подготовки специалистов, 2001. - 30 с. 44. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. – М.: Логос, 2002. – 432 с
. 45. Черепанов В.С. Экспертные оценки в педагогических исследованиях. – М., 1989.– 152 с. 46. Шмелев А.Г. Основы психодиагностики. Учебное пособие для студентов педвузов. – Москва, Ростов-на-Дону: Феникс, 1996 – 535 с. 47. Эденборо Р. Практическая психометрия. Эффективное интервьюирование.– СПб.: Питер, 2003. – 384 с. 48. Экспертиза качества и апробация педагогических тестов. Общие требования: Стандарт.– М.: Федеральный
центр тестирования, 2006.– 49 с. 49. Яковлев Е.В. Квалиметрический подход в педагогическом исследовании: новое видение // Педагогика. №3. С. 49–54. 50. Angoff W.N. Scales, norms and equivalent scores. In Thorndike R.L. (Ed.) Educational measurement (2-nd ed.). Washington, DC: American Council of Education, 1971. – P.508–600. 51. Berk, R. A. Standart setting: the next generation.// Applied Measurement in Education. – № 9.–1996.– P. 215–235. 52. Bloom, B. S. et. al. Taxonomy of Education Objectives: The Classification of Education Goals, Handbook 1: Cognitive Domain. N–Y, David McKay Co., 1956.– P. 187–215. 53. Wright B.D., Stone M.H. Best test design, Chicago: Mesa Press, 1979. –220 р. 99 54. Thorndike R.L. (ed.) Educational measurement ( 2nd ed.) Washington, DC: American Council of Education, 1971. –126 р. 55. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen, Denmark: Danish Institute for Educational Research, 1960.– 207 р. 56. Trevor G. Bond, Christine M. Fox Applying the Rasch
Model: Fundamental Measurement in the Human Sciences, 2001.– 235 р. 57. Kubielski W. Podsatwy konstruowania i oceny testow dydaktycznych. – Slupsk, 1994. 58. Kubielski W. Kontrola i oceny testow dydaktycznych. – Slupsk, 1996. 59. Denek K. Pomiar efektywnosci ksztalcenia w szkole wyzszej. – Warszawa, 1980. 60. Niemierko B. Pomiar rezultatow ksztalcenia. – Warszawa, 1999. Список принятых сокращений УД – учебные достижения ЗУН – знания, умения, навыки КК – критерий качества ТМ – тестовые материалы ТЗ – тестовое задание БД – база данных ЭБД ТМ – электронная база данных тестовых материалов Э – экспертиза КЭКТМ – комплексная экспертиза качества тестовых материалов ЭО – экспертная оценка АТ – апробационное тестирование 100 Томский областной институт повышения квалификации и переподготовки работников образования Монография О.Е. Пермяков, О.А.Максимова Основы технологии комплексной экспертизы качества педагогических тестов Оригинал макет подготовлен редакционно-издательским отделом ТОИПКРО: Сазанова Т.А., Фарышева Г.Ф. Подписано в печать 27. 05.2008г. Тираж 250 экз. Отпечатано на полиграфическом оборудовании ТОИПКРО 634034, г.Томск, ул. Пирогова, 10, к. 108, тел.(3822) 42−06−95, e−mail nio@edu.tomsk.ru 
Автор
M_Oksana
Документ
Категория
Исследования
Просмотров
4 232
Размер файла
1 276 Кб
Теги
педагогический, тестов, технология, качества, комплексная, основы, экспертиза, максимова
1/--страниц
Пожаловаться на содержимое документа