LLM Тренажёр — Как работают языковые модели

Токенизация · Внимание · Генерация · Оценка заданий
API
🎓 Что такое токенизация?
Токенизация — первый шаг обработки текста. Текст разбивается на токены — минимальные единицы для модели. BPE (Byte Pair Encoding): частые слова = 1 токен, редкие медтермины дробятся на подслова.
«Гипертония» → [«Г», «ипер», «тон», «ия»] — 4 токена
💡 Стоимость API = количество токенов. Русский текст ≈ 1.5–2× дороже английского.
Текст
Модель
🎓 Разница моделей
BPE дает баланс: чуть больше токенов на русский текст, но зато устойчивость к любым строкам и адекватное качество; на английском, наоборот, BPE часто даже экономичнее «по словам» за счёт слияния частых выражений.
По словам — огромный словарь, проблема с незнакомыми словами.
По символам — универсально, но очень длинные последовательности.
Статистика
Токенов
0
Символов
0
Ток/симв
0
🎓 Контекстное окно
Лимит модели: GPT-4o 128K, Claude 200K, DeepSeek 128K. Вход + выход вместе не могут превышать лимит.
0 из 128 000
Результат токенизации наведите на токен
Таблица токенов
#ТокенТипID
🎓 Механизм внимания
Self-Attention — каждый токен «смотрит» на все остальные, решая, какие важны. Слово «он» в «Пациент поступил, он жаловался» — модель связывает «он» с «Пациент».
Attention(Q, K, V) = softmax(QKᵀ / √d) × V
Текст
Голова внимания
1
🎓 Multi-Head Attention
Модель имеет несколько голов — каждая ищет свой тип связей. GPT-4: 96 голов. Переключайте ползунок!
Маска
🎓 Каузальная маска
В GPT каждый токен видит только предыдущие. В BERT — все. Чёрный треугольник = скрытое «будущее».
Матрица внимания
Архитектура трансформера нажмите на блок
🎓 Как LLM генерирует текст?
LLM генерирует по одному токену. На каждом шаге — вероятность всех возможных продолжений (50 000+), затем выбор одного. Параметры сэмплирования определяют как выбирается.
P(следующий_токен | все_предыдущие_токены)
При подключённом API используется настоящая модель DeepSeek. Без API — демо-генерация по словарю медицинских фраз.
Промпт
Использовать DeepSeek API
Параметры сэмплирования
🎓 Temperature — «креативность»
T=0: всегда выбирается самый вероятный токен. Идеально для медицинских фактов — ответ детерминирован.
T=0.7: вероятности «смягчаются» — менее вероятные варианты тоже имеют шанс.
T=1.5+: вероятности почти выравниваются — «креативный хаос», много бессмыслицы.
P'(token) = softmax(logits / T)
Деление logits на T: ↑T = более равномерное распределение
🎓 Top-K — ограничение выбора
Top-K ограничивает выбор только K самыми вероятными токенами. Все остальные отбрасываются.
K=1: greedy — всегда лучший вариант.
K=5–10: разумный выбор для медицины.
K=50: широкий, но шумный выбор.
🎓 Top-P — адаптивный отбор
Top-P выбирает минимальный набор токенов, чья суммарная вероятность ≥ P.
P=0.9: берутся токены, покрывающие 90% вероятности.
Адаптивнее Top-K: если один токен = 95%, он единственный кандидат. Если вероятности размазаны — кандидатов много.
🎓 Скорость визуализации
Реальная генерация DeepSeek: ~50–100 токенов/сек. Здесь скорость замедлена, чтобы видеть процесс пошагово. При API-генерации скорость влияет только на паузу между отображением слов.
Сгенерированный текст
Нажмите «Генерировать»...
Вероятности (демо-визуализация)
🎓 Как читать диаграмму
Длина полоски = вероятность токена. Зелёная = выбранный. При T=0 всегда побеждает топ-1. При T=1.5 — почти случайный выбор. При подключённом API модель генерирует реальный медицинский текст, а бары показывают симулированное распределение.
🎓 Как LLM оценивает работы?
Оценка — это тоже генерация! Модель не «проверяет» алгоритмически. Она генерирует текст оценки токен за токеном, «рассуждая» на основе паттернов из миллионов текстов.
Нажмите «Запустить анализ» — вы увидите пошаговую анимацию: как модель сканирует текст, выделяет аспекты и формирует оценку.
⚠️ Всегда проверяйте оценку модели. LLM может «галлюцинировать».
Тип задания
Рубрика
Работа студента
Анализ
Использовать DeepSeek API
Процесс анализа
Текст работы появится здесь после запуска анализа
«Мыслительный процесс» модели
Итоговая оценка
👁️ Промпт, отправленный модели