Психометрика и ИИ в медицинском образовании

Валидность

Валидность — это обоснованность выводов по результатам теста. Если тест валиден, значит, высокий балл студента действительно означает его готовность к работе, а не просто навык разгадывания тестов.

Надежность

Надежность — это точность измерения. Она показывает, насколько стабильны результаты теста при его повторном использовании или при проверке разными экспертами.

Подробный разбор нормативов

1 Индекс сложности (P)

Показывает процент студентов, которые справились с заданием. Это «пропускная способность» вопроса.

P = Верные ответы / Всего студентов

Норма: 0.30 — 0.70. Оптимально — 0.50.

Пример расчета:

В группе 200 человек. На вопрос ответили верно 40 человек.
Расчет: 40 / 200 = 0.20.
Интерпретация: Вопрос слишком трудный (P < 0.3). Его нужно упростить или проверить на наличие фактических ошибок.

2 Индекс дискриминации (D)

Показывает способность вопроса разделять «сильных» и «слабых» студентов. Мы сравниваем успехи лучших и худших участников теста.

D = Ph — Pl

Норма: ≥ 0.30 — отлично; < 0.20 — плохо.

Пример расчета:

Берем топ-50 студентов по общему баллу и 50 худших.
В топе верно ответили 45 (Ph = 0.9).
Среди слабых верно ответили 10 (Pl = 0.2).
Расчет: 0.9 — 0.2 = 0.7.
Интерпретация: Отличное задание. Оно четко отсеивает тех, кто знает, от тех, кто не знает.

3 Альфа Кронбаха (α)

Это главный показатель надежности. Индекс показывает, насколько согласованно работают все вопросы теста как единый инструмент.

α = [k / (k — 1)] * [1 — (Σ дисперсий вопросов / дисперсия общего балла)]

Практический смысл: Если у вас α = 0.85, значит, 85% вариативности баллов студентов вызваны их реальными знаниями, а 15% — случайной ошибкой. Если α < 0.60, оценки студентов — это случайные числа.

Лаборатория расчетов

Калькулятор сложности

Всего студентов

Верных ответов

0.50

Калькулятор дискриминации

Верно в сильной группе (0.0-1.0)

Верно в слабой группе (0.0-1.0)

0.60

Анализ эффективности вариантов ответа (MCQ-5)

Вариант	Сильная группа (27%)	Слабая группа (27%)	Методический статус
А (Ключ)	85%	30%	Верный ответ
Б	5%	45%	Работает (привлекает неподготовленных)
В	1%	2%	Нефункциональный («мусорный»)
Г	7%	18%	Слабая привлекательность
Д	2%	5%	Требует замены

Пример детального разбора вариантов (MCQ-5)

Клинический случай:

Пациент 55 лет, жалобы на внезапную одышку и боли в груди после длительного авиаперелета. При обследовании: подозрение на ТЭЛА. Какое исследование является «золотым стандартом» диагностики в данной ситуации?

А) КТ-ангиография легочных артерий (КЛЮЧ)

Разбор: Сильные студенты выбирают этот вариант в 90% случаев. Это прямой стандарт диагностики по современным рекомендациям.

Б) Рентгенография органов грудной клетки (СЛАБЫЙ ДИСТРАКТОР)

Разбор: Его выбирают около 10% студентов. Исследование полезно, но не является стандартом подтверждения ТЭЛА. Имеет низкую различительную способность.

В) ЭКГ в 12 отведениях (НЕФУНКЦИОНАЛЬНЫЙ / МУСОРНЫЙ)

Разбор: Никто из сильной группы и почти никто из слабой его не выбирает. Этот вариант балласта не участвует в измерении знаний, его нужно заменить на более правдоподобный.

Г) Определение D-димера (ЛОВУШКА / СИЛЬНЫЙ ДИСТРАКТОР)

Разбор: Выбирают 40% слабой группы. Студенты знают о связи теста с ТЭЛА, но не понимают, что при высокой клинической вероятности D-димер не является «золотым стандартом» подтверждения.

Д) Перфузионная сцинтиграфия легких (УСТАРЕВАЮЩИЙ ДИСТРАКТОР)

Разбор: Выбирается редко. Раньше был стандартом, сейчас уступил КТ. Хорошо работает для проверки актуальности знаний у опытных врачей.

Тренажёр «Глаз эксперта»

Проверьте 5 заданий на наличие дефектов. Сначала найдите проблемы сами, а потом нажмите кнопку для сравнения с анализом ИИ.

Конструктор профессиональных запросов

Тип материала

Фокус аудита

Ваш промпт: