Основы оценивания
в медицинском образовании

Интерактивный учебный модуль по методологии оценки в медицинском и профессиональном образовании здравоохранения

По материалам Norcini & Troncon, 2019 Пирамида Миллера Критерии Оттавы Формула Спирмена–Брауна
Раздел 1

Цели и контекст оценивания

Оценивание — это систематический процесс сбора данных об обучении студентов с использованием соответствующих методов, стандартов и критериев, служащий множеству целей. Нажмите на карточку, чтобы узнать подробнее.

⚠️ Важное разграничение понятий

📋
Оценивание (Assessment)

Измерение результатов обучения отдельного студента

🔍
Оценка (Evaluation)

Анализ эффективности программы или курса в целом

💡 Принцип Джорджа Миллера:

«Оценивание управляет обучением.» — Студенты, как правило, более мотивированы изучать то, что, по их мнению, войдёт в экзамен, а не то, что предписано учебной программой. Это делает оценивание мощным инструментом формирования учебного поведения.

Раздел 2

Пирамида компетентности Миллера

Нажмите на каждый уровень пирамиды, чтобы узнать, какие компетенции он отражает и какие методы оценки на нём применяются.

👆 Нажмите на уровень пирамиды, чтобы увидеть описание

🔍 Когнитивные компетенции

Два нижних уровня пирамиды (Knows и Knows How) представляют когнитивные компетенции: базовые знания и их применение в клинических ситуациях. Оцениваются с помощью письменных тестов, эссе и устных экзаменов.

🏥 Практические компетенции

Уровень Shows How — демонстрация навыков в симулированных условиях (ОСКЭ, стандартизированные пациенты). Уровень Does — реальная практика; по Миллеру, он остаётся в значительной мере ненаблюдаемым.

Раздел 3

Валидность

Валидность — это способность метода оценивать именно то, что он призван оценивать. Это не свойство метода как такового, а свойство результатов его применения в конкретном контексте.

🎯

Метод должен соответствовать цели

Метод оценки должен соответствовать характеру компетенций (знания, навыки, отношения), которые предполагается оценить.

📋

Содержание = программа

Содержание и задания оценки должны быть согласованы с учебными целями соответствующей программы или курса.

🔢

Достаточная выборка

Необходимо охватить достаточно большую выборку знаний или умений: чем больше вопросов, кейсов, наблюдений, тем выше валидность.

Ключевое различие:

Валидность — качественное понятие, которое нельзя выразить одним числом (в отличие от надёжности). Однако её можно подтвердить количественно: если более подготовленные специалисты получают значимо более высокие баллы — это свидетельство валидности.

✅ Что усиливает валидность

  • Большое число вопросов или заданий
  • Содержание согласовано с учебными целями
  • Вопросы чётко сформулированы, соответствующей сложности
  • Метод соответствует оцениваемому уровню пирамиды Миллера
  • Разнообразие клинических случаев (ОСКЭ)
  • Хорошо обученные экзаменаторы
  • Хорошо обученные стандартизированные пациенты
  • Комфортные условия проведения
  • Меры против списывания

❌ Угрозы валидности

  • Слишком мало вопросов или наблюдений
  • Нерепрезентативные случаи (не отражают реальную распространённость)
  • Неясные или некорректно составленные вопросы
  • Несоответствие метода оцениваемым компетенциям
  • Плохо обученные экзаменаторы
  • Неподготовленные стандартизированные пациенты
  • Чрезмерная тревожность студентов
  • Неудобные условия (шум, теснота)
  • Предвзятость экзаменатора

🚨 Угрозы валидности: письменные экзамены

Нерелевантное содержание
Вопросы не соответствуют программе
Плохо сформулированные вопросы
Двусмысленность, ошибки в тексте
Неадекватный уровень сложности
Слишком лёгкие или слишком трудные задания
Тревожность экзаменуемых
Нарушает концентрацию, искажает результат

🚨 Угрозы валидности: ОСКЭ и клинические навыки

Мало станций
Недостаточная выборка навыков
Нерепрезентативные кейсы
Редкие или нетипичные случаи
Плохо обученные экзаменаторы
Предвзятость, непоследовательность
Слабо подготовленные СП
Нестандартизированная презентация случаев

🎯 Интерактивная мишень: валидность и надёжность

Соотнесите каждое изображение мишени с правильной характеристикой теста. Нажмите на вариант ответа.

Раздел 4

Надёжность

Надёжность — это точность и воспроизводимость результатов оценки. Если дать один и тот же тест тем же студентам через неделю, насколько похожими будут результаты? Передвигайте слайдеры, чтобы увидеть, как объём выборки влияет на коэффициент надёжности.

📐 Формула Спирмена–Брауна:

R(n) = n·r₁ / [1 + (n−1)·r₁], где r₁ — базовая надёжность одной единицы, n — количество единиц. Чем больше объём выборки, тем выше надёжность, но прирост замедляется.

Метод оценки
Объём выборки
Коэф. надёжности (R)

Тестовые задания (МВО)

Оценка знаний

100
0.80

ОСКЭ

Демонстрация практических навыков

12
0.65

Клиническое наблюдение (WBA)

Оценка на рабочем месте

8
0.70

Собеседование по клинической задаче

Длинный клинический кейс

2
0.40
Низкая (< 0.60)

Результаты нестабильны. Нельзя использовать для серьёзных решений.

Средняя (0.60–0.80)

Приемлема для текущей оценки. Для итоговой — нежелательна.

Высокая (> 0.80)

Золотой стандарт для итоговых экзаменов.

📌 Главный вывод

Надёжность — это не характеристика метода, а характеристика выборки. Даже «субъективный» метод можно сделать надёжным при достаточном числе наблюдений. Например, чтобы устный экзамен достиг надёжности МВО из 100 вопросов, нужно провести опрос по ~4–5 различным кейсам с разными экзаменаторами.

Виды коэффициентов надёжности

Тест-ретест

Один тест даётся дважды в короткий промежуток. Корреляция двух результатов = коэффициент надёжности.

Параллельные формы

Две эквивалентные версии теста. Студенты проходят обе; результаты коррелируются.

Расщеплённые половины

Задания делятся на две группы (чётные/нечётные). Корреляция двух половин.

Кронбах α

Среднее всех возможных расщеплений. Самый распространённый показатель для внутренней согласованности.

KR-20

Вариант для дихотомических заданий (верно/неверно). Аналог α для МВО.

СОИ (SEM)

Стандартная ошибка измерения. Не зависит от однородности группы; интерпретируется как доверительный интервал вокруг балла.

Раздел 5

Суммативное и формативное оценивание

Два ключевых вида оценки различаются по цели, временному охвату и техническим требованиям. При этом они не являются жёстко разделёнными — суммативная оценка может выполнять формативную функцию, и наоборот.

Характеристика 🔴 Суммативная 🟢 Формативная
Основная цельОценка результата обучения («оценка обучения»)Поддержка процесса обучения («оценка для обучения»)
ФункцияРешения о допуске, аттестации, отбореОбратная связь, диагностика трудностей
Время проведенияВ конце курса / этапа; нечастоРегулярно в ходе обучения; как можно чаще
Охват содержанияМаксимально полный охватМожет быть частичным / целенаправленным
Валидность✅ Обязательна✅ Обязательна
Надёжность✅ Строгое требование⚠️ Частично приемлемо
СтавкиСредние–высокиеНизкие
Роль оценок/балловКлючевая (зачёт/незачёт)Второстепенная, часто без оценки
Стандартизация условийСтрогаяГибкая
ПримерИтоговый государственный экзамен, ОСКЭРазбор клинического случая с обратной связью

🔴 Суммативная: четыре роли для студента

  • 📊 Измерение достижений и принятие решений о допуске
  • 🗺️ Направляет содержание и способ подготовки
  • 💪 Мотивирует к обучению
  • 🔄 Подкрепляет/корректирует стратегии обучения

🟢 Формативная: четыре роли для студента

  • 📨 Обратная связь по сильным сторонам и пробелам
  • 🎓 Обратная связь для преподавателей
  • 🔍 Диагностика трудностей
  • 🪞 Развитие самоосознанности и саморегуляции

🔁 Правила Пендлтона: структурированная обратная связь

1
Уточнение фактов — при необходимости
2
Студент перечисляет, что получилось хорошо
3
Преподаватель называет, что получилось хорошо
4
Студент называет зоны для улучшения
5
Преподаватель называет зоны для улучшения
6
Согласование плана действий
Раздел 6

Критерии качественного оценивания

На Конференции Оттавы 2010 года была принята согласованная система из 7 критериев качественной оценки (Norcini et al., 2011). Нажмите на критерий, чтобы узнать подробнее и увидеть его значимость для разных стейкхолдеров.

Приоритеты критериев по типу оценки

Критерий Суммативная Формативная Пациенты Регуляторы
Раздел 7

Интерпретация результатов и стандарты

Результаты оценки можно интерпретировать двумя принципиально разными способами. Выбор зависит от цели теста.

📊 Нормативно-ориентированная

Результат студента сравнивается с результатами других студентов

Выше 70% группы
Применяется для: отбора (ординатура, резидентура), вручения наград, составления рейтинга

🎯 Критериально-ориентированная

Результат студента сравнивается с заданным стандартом освоения материала

75%
✅ Зачёт (порог 65%)
Применяется для: допуска к практике, аттестации, сертификации

📐 Относительный стандарт

Отделяет студентов на основе их результатов относительно друг друга. Например, «сдают верхние 70%». Число сдавших остаётся постоянным, но качество знаний может меняться год от года.

🎯 Абсолютный стандарт

Отделяет студентов на основе того, насколько они освоили материал. Например, «минимум 65% правильных ответов». Могут сдать все или не сдать никто — зависит от знаний, а не от группы.

Раздел 8

Проверь свои знания

Ответьте на вопросы по материалам модуля. Вы можете пройти тест несколько раз.

Ключевые идеи модуля

Фундаментальные принципы, которые следует помнить при проектировании системы оценки

1

Оценивание управляет обучением — студенты готовятся к тому, что будет в экзамене

2

Валидность первична: надёжные результаты бессмысленны без валидности

3

Надёжность — свойство выборки, а не метода: увеличь число наблюдений

4

Пирамида Миллера: разные компетенции требуют разных методов оценки

5

Суммативная + формативная = система оценки, обеспечивающая качество и развитие

7

Критерии Оттавы: валидность, надёжность, эквивалентность, осуществимость, образовательный эффект, каталитический эффект, приемлемость