Интерактивный учебный модуль по методологии оценки в медицинском и профессиональном образовании здравоохранения
Оценивание — это систематический процесс сбора данных об обучении студентов с использованием соответствующих методов, стандартов и критериев, служащий множеству целей. Нажмите на карточку, чтобы узнать подробнее.
Измерение результатов обучения отдельного студента
Анализ эффективности программы или курса в целом
«Оценивание управляет обучением.» — Студенты, как правило, более мотивированы изучать то, что, по их мнению, войдёт в экзамен, а не то, что предписано учебной программой. Это делает оценивание мощным инструментом формирования учебного поведения.
Нажмите на каждый уровень пирамиды, чтобы узнать, какие компетенции он отражает и какие методы оценки на нём применяются.
👆 Нажмите на уровень пирамиды, чтобы увидеть описание
Два нижних уровня пирамиды (Knows и Knows How) представляют когнитивные компетенции: базовые знания и их применение в клинических ситуациях. Оцениваются с помощью письменных тестов, эссе и устных экзаменов.
Уровень Shows How — демонстрация навыков в симулированных условиях (ОСКЭ, стандартизированные пациенты). Уровень Does — реальная практика; по Миллеру, он остаётся в значительной мере ненаблюдаемым.
Валидность — это способность метода оценивать именно то, что он призван оценивать. Это не свойство метода как такового, а свойство результатов его применения в конкретном контексте.
Метод оценки должен соответствовать характеру компетенций (знания, навыки, отношения), которые предполагается оценить.
Содержание и задания оценки должны быть согласованы с учебными целями соответствующей программы или курса.
Необходимо охватить достаточно большую выборку знаний или умений: чем больше вопросов, кейсов, наблюдений, тем выше валидность.
Валидность — качественное понятие, которое нельзя выразить одним числом (в отличие от надёжности). Однако её можно подтвердить количественно: если более подготовленные специалисты получают значимо более высокие баллы — это свидетельство валидности.
Соотнесите каждое изображение мишени с правильной характеристикой теста. Нажмите на вариант ответа.
Надёжность — это точность и воспроизводимость результатов оценки. Если дать один и тот же тест тем же студентам через неделю, насколько похожими будут результаты? Передвигайте слайдеры, чтобы увидеть, как объём выборки влияет на коэффициент надёжности.
R(n) = n·r₁ / [1 + (n−1)·r₁], где r₁ — базовая надёжность одной единицы, n — количество единиц. Чем больше объём выборки, тем выше надёжность, но прирост замедляется.
Оценка знаний
Демонстрация практических навыков
Оценка на рабочем месте
Длинный клинический кейс
Результаты нестабильны. Нельзя использовать для серьёзных решений.
Приемлема для текущей оценки. Для итоговой — нежелательна.
Золотой стандарт для итоговых экзаменов.
Надёжность — это не характеристика метода, а характеристика выборки. Даже «субъективный» метод можно сделать надёжным при достаточном числе наблюдений. Например, чтобы устный экзамен достиг надёжности МВО из 100 вопросов, нужно провести опрос по ~4–5 различным кейсам с разными экзаменаторами.
Один тест даётся дважды в короткий промежуток. Корреляция двух результатов = коэффициент надёжности.
Две эквивалентные версии теста. Студенты проходят обе; результаты коррелируются.
Задания делятся на две группы (чётные/нечётные). Корреляция двух половин.
Среднее всех возможных расщеплений. Самый распространённый показатель для внутренней согласованности.
Вариант для дихотомических заданий (верно/неверно). Аналог α для МВО.
Стандартная ошибка измерения. Не зависит от однородности группы; интерпретируется как доверительный интервал вокруг балла.
Два ключевых вида оценки различаются по цели, временному охвату и техническим требованиям. При этом они не являются жёстко разделёнными — суммативная оценка может выполнять формативную функцию, и наоборот.
| Характеристика | 🔴 Суммативная | 🟢 Формативная |
|---|---|---|
| Основная цель | Оценка результата обучения («оценка обучения») | Поддержка процесса обучения («оценка для обучения») |
| Функция | Решения о допуске, аттестации, отборе | Обратная связь, диагностика трудностей |
| Время проведения | В конце курса / этапа; нечасто | Регулярно в ходе обучения; как можно чаще |
| Охват содержания | Максимально полный охват | Может быть частичным / целенаправленным |
| Валидность | ✅ Обязательна | ✅ Обязательна |
| Надёжность | ✅ Строгое требование | ⚠️ Частично приемлемо |
| Ставки | Средние–высокие | Низкие |
| Роль оценок/баллов | Ключевая (зачёт/незачёт) | Второстепенная, часто без оценки |
| Стандартизация условий | Строгая | Гибкая |
| Пример | Итоговый государственный экзамен, ОСКЭ | Разбор клинического случая с обратной связью |
На Конференции Оттавы 2010 года была принята согласованная система из 7 критериев качественной оценки (Norcini et al., 2011). Нажмите на критерий, чтобы узнать подробнее и увидеть его значимость для разных стейкхолдеров.
| Критерий | Суммативная | Формативная | Пациенты | Регуляторы |
|---|
Результаты оценки можно интерпретировать двумя принципиально разными способами. Выбор зависит от цели теста.
Результат студента сравнивается с результатами других студентов
Результат студента сравнивается с заданным стандартом освоения материала
Отделяет студентов на основе их результатов относительно друг друга. Например, «сдают верхние 70%». Число сдавших остаётся постоянным, но качество знаний может меняться год от года.
Отделяет студентов на основе того, насколько они освоили материал. Например, «минимум 65% правильных ответов». Могут сдать все или не сдать никто — зависит от знаний, а не от группы.
Ответьте на вопросы по материалам модуля. Вы можете пройти тест несколько раз.
Фундаментальные принципы, которые следует помнить при проектировании системы оценки
Оценивание управляет обучением — студенты готовятся к тому, что будет в экзамене
Валидность первична: надёжные результаты бессмысленны без валидности
Надёжность — свойство выборки, а не метода: увеличь число наблюдений
Пирамида Миллера: разные компетенции требуют разных методов оценки
Суммативная + формативная = система оценки, обеспечивающая качество и развитие
Критерии Оттавы: валидность, надёжность, эквивалентность, осуществимость, образовательный эффект, каталитический эффект, приемлемость