LLM Тренажёр — Как работают языковые модели

Токенизация · Внимание · Генерация · Оценка заданий
API
🎓 Что такое токенизация?
Токенизация — первый шаг обработки текста. Текст разбивается на токены — минимальные единицы для модели. BPE (Byte Pair Encoding): частые слова = 1 токен, редкие медтермины дробятся на подслова.
«Гипертония» → [«Г», «ипер», «тон», «ия»] — 4 токена
💡 Стоимость API = количество токенов. Русский текст ≈ 1.5–2× дороже английского.
Текст
Модель
🎓 Разница моделей
cl100k_base — настоящий BPE-токенизатор от GPT-4 / GPT-3.5 (через CDN gpt-tokenizer). Реальные ID, реальное число токенов.
BPE (упрощённый) — учебная имитация на маленьком словаре медицинских терминов.
По словам — огромный словарь, проблема с незнакомыми словами.
По символам — универсально, но очень длинные последовательности.
💸 Калькулятор стоимости (А2)
Запрос:
В месяц:
Семестр:
🎓 Из чего складывается стоимость?
Цена API считается отдельно за входные и выходные токены. Условно: ответ модели обычно в 2-3 раза длиннее промпта (берём ×3 для генерации). На русском токенов ~1.7× больше, чем на английском, — что прямо удорожает работу с нативным RU-контентом.
🌐 Сравнение языков RU vs EN (B2)

Один и тот же клинический текст на русском обычно требует в 1.5-2 раза больше токенов, чем на английском. Прямое влияние на стоимость API.

Статистика
Токенов
0
Символов
0
Ток/симв
0
🎓 Контекстное окно
Лимит модели: GPT-4o 128K, Claude 200K, DeepSeek 128K. Вход + выход вместе не могут превышать лимит.
0 из 128 000
Результат токенизации наведите на токен
Таблица токенов
#ТокенТипID
🎓 Механизм внимания
Self-Attention — каждый токен «смотрит» на все остальные, решая, какие важны. Слово «он» в «Пациент поступил, он жаловался» — модель связывает «он» с «Пациент».
Attention(Q, K, V) = softmax(QKᵀ / √d) × V
Текст
Голова внимания
1
🎓 Multi-Head Attention
Модель имеет несколько голов — каждая ищет свой тип связей. GPT-4: 96 голов. Переключайте ползунок!
Маска
🎓 Каузальная маска
В GPT каждый токен видит только предыдущие. В BERT — все. Чёрный треугольник = скрытое «будущее».
📍 Откуда эта матрица и как она формируется?

Матрица ниже — это выход блока Self-Attention из архитектуры трансформера (показана под матрицей). Каждый токен (строка) «смотрит» на остальные (столбцы) и решает, насколько важна каждая связь. Сумма каждой строки = 100% (softmax).

⚠️ Это учебная симуляция, а не реальные веса модели. Реальные attention-значения существуют внутри LLM, но провайдеры API (DeepSeek, OpenAI, Claude) их не возвращают — слишком большой объём данных и закрытая архитектура. Чтобы получить настоящие веса, нужно запускать модель локально через библиотеку вроде transformers (Python) с hooks на attention-слои.

🔌 Подключение к ИИ (DeepSeek/OpenAI/Moodle Core AI) на эту матрицу не влияет — она генерируется JavaScript для демонстрации общих паттернов. API используется только во вкладках «Генерация», «Оценка», «Галлюцинации».

🧮 Как считается: для каждой клетки задаётся «логит» (предпочтение), затем по строке применяется softmax. Большие логиты после softmax дают пики 50–70%, малые — 1–3%. Каждая «голова» использует свою формулу логитов (см. описание справа). Переключайте голову ползунком, чтобы увидеть разные паттерны.

Матрица внимания · голова 1 наведите на ячейку — увидите %, кликните — детали ниже
Архитектура трансформера ↑ матрица выше — это выход блока Self-Attention. Нажмите на блок для деталей.
🎓 Как LLM генерирует текст?
LLM генерирует по одному токену. На каждом шаге — вероятность всех возможных продолжений (50 000+), затем выбор одного. Параметры сэмплирования определяют как выбирается.
P(следующий_токен | все_предыдущие_токены)
При подключённом API используется настоящая модель DeepSeek. Без API — демо-генерация по словарю медицинских фраз.
Промпт
Использовать DeepSeek API
Параметры сэмплирования
🎓 Temperature — «креативность»
T=0: всегда выбирается самый вероятный токен. Идеально для медицинских фактов — ответ детерминирован.
T=0.7: вероятности «смягчаются» — менее вероятные варианты тоже имеют шанс.
T=1.5+: вероятности почти выравниваются — «креативный хаос», много бессмыслицы.
P'(token) = softmax(logits / T)
Деление logits на T: ↑T = более равномерное распределение
🎓 Top-K — ограничение выбора
Top-K ограничивает выбор только K самыми вероятными токенами. Все остальные отбрасываются.
K=1: greedy — всегда лучший вариант.
K=5–10: разумный выбор для медицины.
K=50: широкий, но шумный выбор.
🎓 Top-P — адаптивный отбор
Top-P выбирает минимальный набор токенов, чья суммарная вероятность ≥ P.
P=0.9: берутся токены, покрывающие 90% вероятности.
Адаптивнее Top-K: если один токен = 95%, он единственный кандидат. Если вероятности размазаны — кандидатов много.
🎓 Скорость визуализации
Реальная генерация DeepSeek: ~50–100 токенов/сек. Здесь скорость замедлена, чтобы видеть процесс пошагово. При API-генерации скорость влияет только на паузу между отображением слов.
Сгенерированный текст
Нажмите «Генерировать»...
Вероятности (демо-визуализация)
🎓 Как читать диаграмму
Длина полоски = вероятность токена. Зелёная = выбранный. При T=0 всегда побеждает топ-1. При T=1.5 — почти случайный выбор. При подключённом API модель генерирует реальный медицинский текст, а бары показывают симулированное распределение.
🌡️ Сравнение температур (B1)
🎓 Зачем сравнивать?
Один и тот же промпт → 3 параллельных вызова модели с разными T. Покажет студентам, что для медицинских задач T=0–0.3 даёт стабильные ответы, а T=1.5 — творческий бред. Полезно перед лекцией о выборе параметров.
🎓 Как LLM оценивает работы?
Оценка — это тоже генерация! Модель не «проверяет» алгоритмически. Она генерирует текст оценки токен за токеном, «рассуждая» на основе паттернов из миллионов текстов.
Нажмите «Запустить анализ» — вы увидите пошаговую анимацию: как модель сканирует текст, выделяет аспекты и формирует оценку.
⚠️ Всегда проверяйте оценку модели. LLM может «галлюцинировать».
Тип задания
Рубрика
Работа студента
Анализ
Использовать DeepSeek API
Процесс анализа
Текст работы появится здесь после запуска анализа
«Мыслительный процесс» модели
Итоговая оценка
👁️ Промпт, отправленный модели
🎓 Что такое галлюцинация LLM?
Галлюцинация — модель уверенно даёт правдоподобный, но неверный ответ. Особенно опасно в медицине: неправильная доза препарата, несуществующее противопоказание, устаревший протокол.
В этом тренажёре вы увидите два ответа на один вопрос: без grounding (модель «из головы») и с контекстом (мини-RAG). Контраст наглядно показывает ценность подачи источников.
⚠️ Без проверки по официальному источнику ответ LLM в медицине — гипотеза, а не рекомендация.
Сценарий
Вопрос врача
Контекст из источника
Сравнение: ответ LLM с источником и без
🔴 Без grounding (только «знания» модели)
Выберите сценарий и нажмите «Сравнить ответы»
🟢 С контекстом (RAG-style grounding)
⚠️ Важно: в реальной клинической практике любой ответ LLM должен проверяться по официальным источникам (клин. рекомендации МЗ РФ, регистр лекарств, протоколы). LLM — инструмент поддержки решений, не их источник.
🎓 Зачем эта вкладка?
Перед тем, как использовать LLM в клинической практике, преподавателю и студентам стоит чётко представлять, в каких случаях модель ошибётся. 7 типичных классов ошибок справа — то, что чаще всего ломает медицинский LLM-сценарий. У каждой карточки — конкретное решение.
💡 Используйте эту вкладку как чек-лист перед запуском любого LLM-инструмента в учебном или клиническом контексте.
Категории
Связанные демо
Галлюцинации — увидеть в действии
Генерация — попробовать temperature
Токенизация — языковая деградация
⚠️ Типичные ошибки LLM в клиническом контексте

7 классов ошибок, которые чаще всего ломают применение LLM в медицине. У каждой — конкретное решение и ссылка на демо в других вкладках.

Шаг 1 из N

Заголовок

Текст пояснения.