Оценивание работ с ИИ: Методология

Генеративная психометрика

Мы переходим от жестких шаблонов к анализу семантики. ИИ не просто ищет ключевые слова, а понимает логические связи в тексте.

БЯМ удерживают связность даже в длинных эссе и клинических кейсах благодаря механизму самовнимания.

в 10 раз быстрее

Создание 50 валидных заданий:

Эксперт: 211 мин

ИИ: 20 мин

Автоматизация рутины высвобождает ресурсы. Преподаватель больше не тратит часы на вычитку базовых ошибок, а фокусируется на анализе сложных пограничных случаев и доработке критериев оценки. Когнитивная нагрузка снижается, качество обратной связи растет.

Иерархия методов промптинга

Без примеров (Zero-shot)

Только инструкция. Высокий риск нарушения формата и поверхностных ответов.

С примерами (Few-shot)

2-3 эталонных образца («золотой стандарт»). Стабилизирует формат и строгость.

Цепочка рассуждений (CoT)

ИИ сначала пишет обоснование, а потом ставит балл. Повышает точность логики.

Мультиагентные системы (Надежность > 88%)

Агент доменов Следит за соответствием программе.

Агент сценария Создает контекст или клинический случай.

Агент чек-листа Прописывает критерии проверки.

Агент пациента Симулирует ответы на аттестации.

Архитектура ИИ-рубрикатора

Запрос должен быть иерархичным. Нажмите на компонент, чтобы увидеть детали.

Пример: «Ты — старший экзаменатор-клиницист с 20-летним стажем. Твоя задача — провести беспристрастную оценку навыков постановки диагноза». Это задает нужный тон и уровень строгости.

Полный перечень индикаторов. Вместо «хороший ответ» пишем «студент указал не менее 3 патогенетических механизмов». Это устраняет неявные знания, которые ИИ может понять неверно.

Инструкция: 1. Прочитай работу. 2. Проверь на соответствие критерию А. 3. Напиши обоснование. 4. Поставь балл. Такая последовательность резко снижает ошибки.

Методика «Отражение и пересмотр»

Используйте ИИ для самоанализа. Модель может проанализировать, в каких пунктах рубрики у нее возникают затруднения, и предложить более четкие формулировки. Это итеративный процесс выявления неявных знаний преподавателя.

Как это сделать на практике

Шаг 1. Промпт:

Ты — ассистент преподавателя. Мы тестируем рубрику оценивания. Вот текущая черновая рубрика: [ВСТАВИТЬ ТЕКСТ РУБРИКИ]. Вот ответ студента: [ВСТАВИТЬ ОТВЕТ]. Моя эталонная экспертная оценка за этот ответ: [УКАЗАТЬ ВАШИ БАЛЛЫ]. Твоя задача: Самостоятельно оцени этот ответ строго по предоставленной рубрике. Сравни свою оценку с моей эталонной. Если есть расхождения, объясни, почему ты снизил или завысил балл. Укажи, какие именно формулировки в текущей рубрике кажутся тебе размытыми, неоднозначными или вызывают неуверенность при выставлении оценки»..

Шаг 2.:

«Опираясь на выявленные сложности и расхождения, переформулируй критерии исходной рубрики так, чтобы они стали максимально однозначными и понятными для алгоритмической оценки (для ИИ). Требования к новой рубрике: Используй лаконичные и эксплицитные (прямые) инструкции. Избегай неоднозначности, которая может трактоваться по-разному. Замени общие фразы на четкие поведенческие индикаторы (что конкретно должно быть в тексте для получения балла). Добавь краткие пояснения для узких терминов, если они есть. Выведи обновленную рубрику в виде таблицы.

Шаг 3. Валидация
После получения новой рубрики (AI-optimized rubric), возьмите другое эссе студента и попросите ИИ оценить его уже по обновленным правилам.

Надежность и психометрический аудит

Коэффициент Каппа Коэна

> 0.60

Существенное согласие ИИ с экспертом-человеком.

Внутриклассовая корреляция (ICC)

0.75 – 0.82

Отличный уровень надежности для моделей 70B+ параметров.

Критические риски

⚠ Фактические ошибки (5–15%): особенно критично в медицине.
⚠ Галлюцинации ссылок (10–20%): вымышленные источники.
⚠ Ложноположительные оценки (до 45%): у малых моделей (8B) без рубрик.

Методы минимизации

✔ Технология ГДВ (RAG): ограничение базы только проверенными гайдлайнами.
✔ Прямой запрет на цитирование: устраняет выдуманные ссылки.
✔ Комбинация «Рубрика + Примеры»: балансирует строгость шкалы.

Человек в контуре управления

«Иллюзия объективности» ИИ не должна заменять профессиональное суждение. Студент всегда имеет право на апелляцию к эксперту-человеку.

Генератор промптов для оценивания

Тип работы

Уровень обучения

Индикаторы для оценки

Дополнительные критерии (свободный ввод)

Техника анализа

Готовый промпт

Настройте параметры слева и нажмите кнопку...