Принципы оценки в медицинском образовании

Валидность

Измеряет ли тест то, что должен? Современные источники доказательств:

1. Содержание ↓

Соответствие заданий учебному плану и важности тем.

Пример: Использование Блюпринта (матрицы теста), чтобы убедиться, что в экзамене по кардиологии 20% вопросов посвящено ИБС, а не только редким порокам.

2. Процесс ответа ↓

Анализ того, какие когнитивные механизмы задействует студент.

Пример: Опрос студентов после теста ("Как вы решали эту задачу?") подтверждает, что они использовали клиническое мышление, а не исключали ответы по грамматическим подсказкам.

3. Внутренняя структура ↓

Статистическая связь между пунктами теста.

Пример: Расчет индекса дискриминации. Если "сильные" студенты ошибаются в вопросе чаще "слабых", вопрос работает против валидности структуры.

4. Связь с другими переменными ↓

Корреляция баллов с результатами других проверенных методов.

Пример: Студенты с высокими баллами за компьютерный тест (теория) должны показывать лучшие результаты на ОСКЭ (практика). Если корреляции нет — тест под вопросом.

5. Последствия ↓

Влияние оценки на стиль обучения и общество.

Пример: Введение обязательного практического экзамена заставило студентов больше времени проводить в клинике, а не в библиотеке с учебниками.

Надежность

Воспроизводимость результата. Основные инструменты измерения:

1. Коэффициент Альфа Кронбаха (α) ↓

Показывает внутреннюю согласованность теста (все вопросы измеряют одно и то же).

Пример: В тесте из 50 вопросов по анатомии α = 0.85. Это значит, что вопросы согласованы. Если α = 0.4, то вопросы слишком разнородны или случайны.

2. Межэкспертная надежность ↓

Степень согласия между двумя или более экзаменаторами.

Пример: Два профессора оценивают один и тот же навык студента на станции ОСКЭ. Если их баллы почти совпадают (высокий Каппа Коэна), оценка надежна.

3. Стандартная ошибка измерения ↓

Показывает "разброс" балла студента из-за случайной ошибки.

Пример: Если SEM = 2 балла, а студент набрал 70, мы можем быть уверены, что его "истинный" балл находится в диапазоне 68–72.

4. Тест-ретест ↓

Показывает стабильность результатов одного и того же теста при повторном проведении.

Пример: Студент проходит один и тот же тест в понедельник и в среду без дополнительного обучения. Если баллы близки, тест стабилен. Если результаты существенно отличаются, значит в измерении много случайной ошибки.

5. G-коэффициент ↓

Современный метод, позволяющий понять, ЧТО именно вносит ошибку: сложность станции, строгость эксперта или сам студент.

Пример: При анализе ОСКЭ учитываются студент, станция и экзаменатор. G-анализ показал, что значительная часть вариабельности связана со строгостью экспертов. Вывод: нужно увеличить число экзаменаторов или провести их калибровку.

Пирамида Миллера

ДЕЛАЕТ

ПОКАЗЫВАЕТ КАК

ЗНАЕТ КАК

ЗНАЕТ

Нажмите на уровень пирамиды для описания

Таксономия Блума

Создание

Оценка

Анализ

Применение

Понимание

Запоминание

Выберите уровень таксономии

Формула Полезности (U)

V (Validity) — Валидность 0.50

R (Reliability) — Надежность 0.50

E (Education) — Эффект 0.50

A (Acceptability) — Приемлемость 0.50

C (Cost) — Ресурсы 0.50

Общая полезность (U)

0.031

U = V × R × E × A × C

Оценка в медицинском образовании

Валидность

Надежность

Пирамида Миллера

Форматы оценки:

Таксономия Блума

Глаголы:

Примеры вопросов:

Формула Полезности (U)