Проверка знаний или угадайка: как разработать хороший тест для оценки знаний

Подготовка качественного теста, объективно оценивающего знания по разным дисциплинам, требует понимания образовательных целей, справедливой системы оценивания и ясных формулировок, сокращающих до минимума возможность угадать правильный ответ. Для этого необходимы высокая квалификация самого разработчика и привлечение экспертов для контроля содержания заданий.

В ходе открытых мероприятий Зимней школы Института образования НИУ ВШЭ аналитик Центра психометрики и измерений в образовании Инобра Екатерина Александрова провела мастер-класс «Проверка знаний или угадайка: правильные подходы к разработке тестов».

Она отметила, что использует слово «тест» в более широком смысле: не просто набор заданий с выбором ответа, а инструмент измерения, который может включать разные типы оценивания. По ее мнению, хороший тест не начинается с написания задания, ему должна предшествовать сложная подготовка, в частности формирование спецификации теста, которую затем придется представлять заинтересованным лицам.

Екатерина Александрова

Для правильного планирования теста разработчику нужно сначала сформулировать ряд образовательных целей в глаголах действия, которые описывают наблюдаемое поведение тестируемого. Если образовательные цели сформулированы ясно, они легко превращаются в результаты измерения при планировании теста, и на их основе легче разработать задания, в качестве которых разработчики будут уверены. Если тест изначально опирается на набор ключевых образовательных целей, то это обеспечивает его внутреннюю сбалансированность.

Далее создается спецификация — базовый документ, на основе которого разрабатываются задания. В спецификации разработчик описывает количество и формат тестовых заданий, их связь с образовательными целями, систему начисления баллов и правила администрирования. Нередко спецификация может включать детальное описание процесса разработки и результаты психометрического анализа теста после апробации (пилотного тестирования).

Комплект документов, который считается достаточным для проведения тестирования, включает спецификацию, задания и ключи к тесту, объясняющие заинтересованным лицам процедуру тестирования. «Все проводившие тестирование знают, насколько важно, чтобы люди понимали, почему ставятся такие оценки, можно ли подать апелляцию и другое», — пояснила эксперт Института образования.

Спецификация обязательно базируется на документах, содержащих перечень образовательных целей, и определяет глубину (сложность) теста. Например, при разработке теста для школы или вуза разработчики опираются на ФГОС, учебные планы или программы курса. Глубина освоения знаний в тесте определяется при помощи таксономий. Наиболее часто использующейся таксономией является таксономия Блума.

При разработке спецификации будет полезным изучить российские и международные стандарты тестирования, например Российский стандарт тестирования персонала и стандарты образовательного и психологического тестирования, разработанные международными ассоциациями.

«В процессе разработки спецификации вы принимаете ряд важных решений для ответа на вопрос, какой вывод о респонденте вы планируете сделать по результатам теста. От этого зависит, будет тестирование формирующим или итоговым, сколько сложных заданий будет в тесте, будут ли там открытые вопросы и так далее», — подчеркивает эксперт.

В результате создается матрица, определяющая, какие элементы содержания программы оцениваются и на какой глубине. В частности, для каждой темы курса разработчик устанавливает уровень глубины освоения материала по таксономии, определяет подходящий тип заданий и их количество в тесте и прописывает наблюдаемые индикаторы для каждого уровня — что именно должен сделать студент, чтобы получить необходимый балл при прохождении теста. Екатерина Александрова отметила: «Матрица помогает обосновать тест — что он измеряет, почему он выглядит так, а не иначе. Это помогает защищать тест перед внешними критиками».

Существуют и специфические ошибки, нередко допускаемые разработчиками. Например, варианты ответов допускают высокую вероятность угадывания. Получается, что процесс тестирования подменяется лотереей.

Однако, если задания разработаны качественно, риск угадывания минимален. Есть несколько правил, направленных на снижение его вероятности. Например, формулировки заданий или вариантов ответов не должны включать подсказок, допускающих, в частности, возможность отбросить некоторые варианты, исходя из общих знаний. Еще один важный элемент разработки тестов — не создавать паттернов правильных ответов, когда экзаменуемый догадывается, что один или два варианта (например, второй или третий по порядку) чаще оказываются верными.

Фото: iStock

Правила разработки также касаются неверных вариантов ответа (дистракторов). Например, нельзя допускать очевидно неверные варианты. Дистракторы должны выглядеть убедительно и привлекательно наравне с правильным ответом. Есть определенные ошибки, которые разработчик может допустить из-за «замыленного глаза». Например, случается, что верные ответы — самые длинные и с максимальным числом терминов среди всех вариантов. Респонденты рассказывали, что таким образом они угадывали ответы на теоретических экзаменах по вождению автомобиля.

Другими ошибками при разработке тестов докладчик назвала проблему составления инструкций, без которых неясно, что нужно сделать в задании, несогласованность вариантов ответа, когда они описывают разные явления или имеют разную окраску — позитивную или негативную, присутствие субъективных оценок в формулировке задания, когда используются слова «самый частый», «самый важный», и прочее.

Екатерина Александрова также напомнила об иных просчетах авторов тестов: неаргументированное начисление баллов, присвоение заданиям весов, подгонка количества заданий под общий балл.

«Важное правило: одно задание должно содержать одну проблему. Нельзя спросить, какая река самая длинная и широкая. У вас такого не будет, если иметь четкую спецификацию», — уточнила эксперт Института образования НИУ ВШЭ.

Докладчик также обратила внимание, что разработчик тестов не должен и не может быть экспертом по всем дисциплинам. Ему следует быть специалистом в принципах разработки тестов, но содержательную часть задания согласовывать с экспертом по предмету. Он задает содержание теста, а разработчик описывает его в глаголах действия. «Чем специфичнее дисциплина, тем плотнее надо сотрудничать с экспертами, вы строите каркас задания, а эксперт наполняет его знаниями», — сказала эксперт.

В завершение Екатерина Александрова высказала мнение об использовании искусственного интеллекта в разработке тестов: «Вероятно, ChatGPT может разработать тестовые задания, но по отзывам могу сказать, что они пока не достигают высокого качества». По мнению эксперта, ИИ пока сложно предугадать поведение респондента при взаимодействии с тестом и избегать ошибок при разработке, в особенности когда речь идет о заданиях с открытым ответом, где нужен хороший рубрикатор. Кроме того, о качестве тестовых заданий можно судить только после апробации теста на выборке.