Токенизация · Внимание · Генерация · Оценка заданий
API
🎓 Что такое токенизация?▼
Токенизация — первый шаг обработки текста. Текст разбивается на токены — минимальные единицы для модели. BPE (Byte Pair Encoding): частые слова = 1 токен, редкие медтермины дробятся на подслова.
💡 Стоимость API = количество токенов. Русский текст ≈ 1.5–2× дороже английского.
Текст
Модель
🎓 Разница моделей▼
BPE дает баланс: чуть больше токенов на русский текст, но зато устойчивость к любым строкам и адекватное качество; на английском, наоборот, BPE часто даже экономичнее «по словам» за счёт слияния частых выражений. По словам — огромный словарь, проблема с незнакомыми словами. По символам — универсально, но очень длинные последовательности.
Статистика
Токенов
0
Символов
0
Ток/симв
0
🎓 Контекстное окно▼
Лимит модели: GPT-4o 128K, Claude 200K, DeepSeek 128K. Вход + выход вместе не могут превышать лимит.
0 из 128 000
Результат токенизации наведите на токен
Таблица токенов
#
Токен
Тип
ID
🎓 Механизм внимания▼
Self-Attention — каждый токен «смотрит» на все остальные, решая, какие важны. Слово «он» в «Пациент поступил, он жаловался» — модель связывает «он» с «Пациент».
Attention(Q, K, V) = softmax(QKᵀ / √d) × V
Текст
Голова внимания
1
🎓 Multi-Head Attention▼
Модель имеет несколько голов — каждая ищет свой тип связей. GPT-4: 96 голов. Переключайте ползунок!
Маска
🎓 Каузальная маска▼
В GPT каждый токен видит только предыдущие. В BERT — все. Чёрный треугольник = скрытое «будущее».
Матрица внимания
Архитектура трансформера нажмите на блок
🎓 Как LLM генерирует текст?▼
LLM генерирует по одному токену. На каждом шаге — вероятность всех возможных продолжений (50 000+), затем выбор одного. Параметры сэмплирования определяют как выбирается.
P(следующий_токен | все_предыдущие_токены)
При подключённом API используется настоящая модель DeepSeek. Без API — демо-генерация по словарю медицинских фраз.
Промпт
Использовать DeepSeek API—
Параметры сэмплирования
🎓 Temperature — «креативность»▼
T=0: всегда выбирается самый вероятный токен. Идеально для медицинских фактов — ответ детерминирован. T=0.7: вероятности «смягчаются» — менее вероятные варианты тоже имеют шанс. T=1.5+: вероятности почти выравниваются — «креативный хаос», много бессмыслицы.
P'(token) = softmax(logits / T) Деление logits на T: ↑T = более равномерное распределение
🎓 Top-K — ограничение выбора▼
Top-K ограничивает выбор только K самыми вероятными токенами. Все остальные отбрасываются. K=1: greedy — всегда лучший вариант. K=5–10: разумный выбор для медицины. K=50: широкий, но шумный выбор.
🎓 Top-P — адаптивный отбор▼
Top-P выбирает минимальный набор токенов, чья суммарная вероятность ≥ P. P=0.9: берутся токены, покрывающие 90% вероятности. Адаптивнее Top-K: если один токен = 95%, он единственный кандидат. Если вероятности размазаны — кандидатов много.
🎓 Скорость визуализации▼
Реальная генерация DeepSeek: ~50–100 токенов/сек. Здесь скорость замедлена, чтобы видеть процесс пошагово. При API-генерации скорость влияет только на паузу между отображением слов.
Сгенерированный текст
Нажмите «Генерировать»...
Вероятности (демо-визуализация)
🎓 Как читать диаграмму▼
Длина полоски = вероятность токена. Зелёная = выбранный. При T=0 всегда побеждает топ-1. При T=1.5 — почти случайный выбор. При подключённом API модель генерирует реальный медицинский текст, а бары показывают симулированное распределение.
🎓 Как LLM оценивает работы?▼
Оценка — это тоже генерация! Модель не «проверяет» алгоритмически. Она генерирует текст оценки токен за токеном, «рассуждая» на основе паттернов из миллионов текстов.
Нажмите «Запустить анализ» — вы увидите пошаговую анимацию: как модель сканирует текст, выделяет аспекты и формирует оценку.
⚠️ Всегда проверяйте оценку модели. LLM может «галлюцинировать».