LLM Тренажёр — Как работают большие языковые модели

🎓 Что такое токенизация?▼

Токенизация — первый шаг обработки текста. Текст разбивается на токены — минимальные единицы для модели. BPE (Byte Pair Encoding): частые слова = 1 токен, редкие медтермины дробятся на подслова.

«Гипертония» → [«Г», «ипер», «тон», «ия»] — 4 токена

💡 Стоимость API = количество токенов. Русский текст ≈ 1.5–2× дороже английского.

Текст

Модель

🎓 Разница моделей▼

cl100k_base — настоящий BPE-токенизатор от GPT-4 / GPT-3.5 (через CDN gpt-tokenizer). Реальные ID, реальное число токенов.
BPE (упрощённый) — учебная имитация на маленьком словаре медицинских терминов.
По словам — огромный словарь, проблема с незнакомыми словами.
По символам — универсально, но очень длинные последовательности.

💸 Калькулятор стоимости (А2)

Студентов Запросов студ./день Учебных дней/мес.

Запрос:—

В месяц:—

Семестр:—

🎓 Из чего складывается стоимость?▼

Цена API считается отдельно за входные и выходные токены. Условно: ответ модели обычно в 2-3 раза длиннее промпта (берём ×3 для генерации). На русском токенов ~1.7× больше, чем на английском, — что прямо удорожает работу с нативным RU-контентом.

🌐 Сравнение языков RU vs EN (B2)

Один и тот же клинический текст на русском обычно требует в 1.5-2 раза больше токенов, чем на английском. Прямое влияние на стоимость API.

Статистика

Токенов

0

Символов

0

Ток/симв

0

🎓 Контекстное окно▼

Лимит модели: GPT-4o 128K, Claude 200K, DeepSeek 128K. Вход + выход вместе не могут превышать лимит.

0 из 128 000

Результат токенизации наведите на токен

Таблица токенов

#	Токен	Тип	ID

🎓 Механизм внимания▼

Self-Attention — каждый токен «смотрит» на все остальные, решая, какие важны. Слово «он» в «Пациент поступил, он жаловался» — модель связывает «он» с «Пациент».

Attention(Q, K, V) = softmax(QKᵀ / √d) × V

Текст

Голова внимания

1

🎓 Multi-Head Attention▼

Модель имеет несколько голов — каждая ищет свой тип связей. GPT-4: 96 голов. Переключайте ползунок!

Маска

🎓 Каузальная маска▼

В GPT каждый токен видит только предыдущие. В BERT — все. Чёрный треугольник = скрытое «будущее».

📍 Откуда эта матрица и как она формируется?

Матрица ниже — это выход блока Self-Attention из архитектуры трансформера (показана под матрицей). Каждый токен (строка) «смотрит» на остальные (столбцы) и решает, насколько важна каждая связь. Сумма каждой строки = 100% (softmax).

⚠️ Это учебная симуляция, а не реальные веса модели. Реальные attention-значения существуют внутри LLM, но провайдеры API (DeepSeek, OpenAI, Claude) их не возвращают — слишком большой объём данных и закрытая архитектура. Чтобы получить настоящие веса, нужно запускать модель локально через библиотеку вроде transformers (Python) с hooks на attention-слои.

🔌 Подключение к ИИ (DeepSeek/OpenAI/Moodle Core AI) на эту матрицу не влияет — она генерируется JavaScript для демонстрации общих паттернов. API используется только во вкладках «Генерация», «Оценка», «Галлюцинации».

🧮 Как считается: для каждой клетки задаётся «логит» (предпочтение), затем по строке применяется softmax. Большие логиты после softmax дают пики 50–70%, малые — 1–3%. Каждая «голова» использует свою формулу логитов (см. описание справа). Переключайте голову ползунком, чтобы увидеть разные паттерны.

Матрица внимания · голова 1 наведите на ячейку — увидите %, кликните — детали ниже

Архитектура трансформера ↑ матрица выше — это выход блока Self-Attention. Нажмите на блок для деталей.

🎓 Как LLM генерирует текст?▼

LLM генерирует по одному токену. На каждом шаге — вероятность всех возможных продолжений (50 000+), затем выбор одного. Параметры сэмплирования определяют как выбирается.

P(следующий_токен | все_предыдущие_токены)

При подключённом API используется настоящая модель DeepSeek. Без API — демо-генерация по словарю медицинских фраз.

Промпт

Использовать DeepSeek API

—

Параметры сэмплирования

🌡️ Temperature: 0.7

🎓 Temperature — «креативность»▼

T=0: всегда выбирается самый вероятный токен. Идеально для медицинских фактов — ответ детерминирован.
T=0.7: вероятности «смягчаются» — менее вероятные варианты тоже имеют шанс.
T=1.5+: вероятности почти выравниваются — «креативный хаос», много бессмыслицы.

P'(token) = softmax(logits / T)
Деление logits на T: ↑T = более равномерное распределение

🎯 Top-K: 8

🎓 Top-K — ограничение выбора▼

Top-K ограничивает выбор только K самыми вероятными токенами. Все остальные отбрасываются.
K=1: greedy — всегда лучший вариант.
K=5–10: разумный выбор для медицины.
K=50: широкий, но шумный выбор.

🎲 Top-P (Nucleus): 0.90

🎓 Top-P — адаптивный отбор▼

Top-P выбирает минимальный набор токенов, чья суммарная вероятность ≥ P.
P=0.9: берутся токены, покрывающие 90% вероятности.
Адаптивнее Top-K: если один токен = 95%, он единственный кандидат. Если вероятности размазаны — кандидатов много.

Макс. токенов: 25

Скорость визуализации (мс): 400

🎓 Скорость визуализации▼

Реальная генерация DeepSeek: ~50–100 токенов/сек. Здесь скорость замедлена, чтобы видеть процесс пошагово. При API-генерации скорость влияет только на паузу между отображением слов.

Сгенерированный текст

Нажмите «Генерировать»...

Вероятности (демо-визуализация)

🎓 Как читать диаграмму▼

Длина полоски = вероятность токена. Зелёная = выбранный. При T=0 всегда побеждает топ-1. При T=1.5 — почти случайный выбор. При подключённом API модель генерирует реальный медицинский текст, а бары показывают симулированное распределение.

🌡️ Сравнение температур (B1)

🎓 Зачем сравнивать?▼

Один и тот же промпт → 3 параллельных вызова модели с разными T. Покажет студентам, что для медицинских задач T=0–0.3 даёт стабильные ответы, а T=1.5 — творческий бред. Полезно перед лекцией о выборе параметров.

🎓 Как LLM оценивает работы?▼

Оценка — это тоже генерация! Модель не «проверяет» алгоритмически. Она генерирует текст оценки токен за токеном, «рассуждая» на основе паттернов из миллионов текстов.

Нажмите «Запустить анализ» — вы увидите пошаговую анимацию: как модель сканирует текст, выделяет аспекты и формирует оценку.

⚠️ Всегда проверяйте оценку модели. LLM может «галлюцинировать».

Тип задания

Рубрика

Работа студента

Анализ

Использовать DeepSeek API

—

Процесс анализа

Текст работы появится здесь после запуска анализа

«Мыслительный процесс» модели

Итоговая оценка

👁️ Промпт, отправленный модели▼

🎓 Что такое галлюцинация LLM?▼

Галлюцинация — модель уверенно даёт правдоподобный, но неверный ответ. Особенно опасно в медицине: неправильная доза препарата, несуществующее противопоказание, устаревший протокол.

В этом тренажёре вы увидите два ответа на один вопрос: без grounding (модель «из головы») и с контекстом (мини-RAG). Контраст наглядно показывает ценность подачи источников.

⚠️ Без проверки по официальному источнику ответ LLM в медицине — гипотеза, а не рекомендация.

Сценарий

Вопрос врача

Контекст из источника

Сравнение: ответ LLM с источником и без

🔴 Без grounding (только «знания» модели)

Выберите сценарий и нажмите «Сравнить ответы»

🟢 С контекстом (RAG-style grounding)

—

⚠️ Важно: в реальной клинической практике любой ответ LLM должен проверяться по официальным источникам (клин. рекомендации МЗ РФ, регистр лекарств, протоколы). LLM — инструмент поддержки решений, не их источник.

🎓 Зачем эта вкладка?▼

Перед тем, как использовать LLM в клинической практике, преподавателю и студентам стоит чётко представлять, в каких случаях модель ошибётся. 7 типичных классов ошибок справа — то, что чаще всего ломает медицинский LLM-сценарий. У каждой карточки — конкретное решение.

💡 Используйте эту вкладку как чек-лист перед запуском любого LLM-инструмента в учебном или клиническом контексте.

Категории

Связанные демо

→ Галлюцинации — увидеть в действии

→ Генерация — попробовать temperature

→ Токенизация — языковая деградация

⚠️ Типичные ошибки LLM в клиническом контексте

7 классов ошибок, которые чаще всего ломают применение LLM в медицине. У каждой — конкретное решение и ссылка на демо в других вкладках.

LLM Тренажёр — Как работают языковые модели

🔴 Без grounding (только «знания» модели)

🟢 С контекстом (RAG-style grounding)

Шаг 1 из N

Заголовок

LLM Тренажёр — Как работают языковые модели

🔴 Без grounding (только «знания» модели)

🟢 С контекстом (RAG-style grounding)

⚙️ Настройки источника ИИ

Шаг 1 из N

Заголовок