Валидность
Измеряет ли тест то, что должен? Современные источники доказательств:
1. Содержание ↓
Соответствие заданий учебному плану и важности тем.
Пример: Использование Блюпринта (матрицы теста), чтобы убедиться, что в экзамене по кардиологии 20% вопросов посвящено ИБС, а не только редким порокам.
2. Процесс ответа ↓
Анализ того, какие когнитивные механизмы задействует студент.
Пример: Опрос студентов после теста ("Как вы решали эту задачу?") подтверждает, что они использовали клиническое мышление, а не исключали ответы по грамматическим подсказкам.
3. Внутренняя структура ↓
Статистическая связь между пунктами теста.
Пример: Расчет индекса дискриминации. Если "сильные" студенты ошибаются в вопросе чаще "слабых", вопрос работает против валидности структуры.
4. Связь с другими переменными ↓
Корреляция баллов с результатами других проверенных методов.
Пример: Студенты с высокими баллами за компьютерный тест (теория) должны показывать лучшие результаты на ОСКЭ (практика). Если корреляции нет — тест под вопросом.
5. Последствия ↓
Влияние оценки на стиль обучения и общество.
Пример: Введение обязательного практического экзамена заставило студентов больше времени проводить в клинике, а не в библиотеке с учебниками.
Надежность
Воспроизводимость результата. Основные инструменты измерения:
1. Коэффициент Альфа Кронбаха (α) ↓
Показывает внутреннюю согласованность теста (все вопросы измеряют одно и то же).
Пример: В тесте из 50 вопросов по анатомии α = 0.85. Это значит, что вопросы согласованы. Если α = 0.4, то вопросы слишком разнородны или случайны.
2. Межэкспертная надежность ↓
Степень согласия между двумя или более экзаменаторами.
Пример: Два профессора оценивают один и тот же навык студента на станции ОСКЭ. Если их баллы почти совпадают (высокий Каппа Коэна), оценка надежна.
3. Стандартная ошибка измерения ↓
Показывает "разброс" балла студента из-за случайной ошибки.
Пример: Если SEM = 2 балла, а студент набрал 70, мы можем быть уверены, что его "истинный" балл находится в диапазоне 68–72.
4. Тест-ретест ↓
Показывает стабильность результатов одного и того же теста при повторном проведении.
Пример: Студент проходит один и тот же тест в понедельник и в среду без дополнительного обучения. Если баллы близки, тест стабилен. Если результаты существенно отличаются, значит в измерении много случайной ошибки.
5. G-коэффициент ↓
Современный метод, позволяющий понять, ЧТО именно вносит ошибку: сложность станции, строгость эксперта или сам студент.
Пример: При анализе ОСКЭ учитываются студент, станция и экзаменатор. G-анализ показал, что значительная часть вариабельности связана со строгостью экспертов. Вывод: нужно увеличить число экзаменаторов или провести их калибровку.
Пирамида Миллера
Нажмите на уровень пирамиды для описания
Форматы оценки:
Таксономия Блума
Выберите уровень таксономии