RAG Тренажёр — Учебный конструктор

Retrieval-Augmented Generation
🎓 Что такое векторная база данных?
Векторная база данных хранит информацию как числовые векторы (эмбеддинги). Каждый медицинский термин превращается в массив чисел, отражающий его смысл. Близкие по смыслу термины → близкие векторы в пространстве.
«кардиолог» → encode → [0.82, -0.15, 0.44, ...] → dim=32–1536
Пример: «кардиолог» и «сердце» будут рядом в векторном пространстве, а «кардиолог» и «рентген» — далеко. Модель «понимает», что кардиолог связан с сердцем, а не с визуализацией.
В этом тренажёре используются специальные демо-эмбеддинги с медицинскими семантическими осями (кардио, нейро, онко, хирургия, диагностика, фармакология, острота, инвазивность и т.д.), чтобы арифметика и поиск давали осмысленные результаты.
Медицинские термины
Термины (перетащите в калькулятор)
🔄 Арифметика векторов
🎓 Как работает арифметика?
Векторная арифметика показывает, что модели «понимают» смысловые связи. Вычитая один концепт и добавляя другой, можно перемещаться по семантическому пространству медицины.
vec(кардиолог) − vec(сердце) + vec(мозг) ≈ невролог
«Специалист по X» − орган₁ + орган₂ = «Специалист по Y»
💡 Попробуйте медицинские аналогии:
• кардиолог − сердце + мозг ≈ невролог
• хирург − операция + диагноз ≈ терапевт
• антибиотик − пневмония + диабет ≈ инсулин
• педиатр − ребёнок + пациент ≈ терапевт
слот A
слот B
+
слот C
=
?
Параметры
0.30
📐 Порог сходства
Показывает связи с косинусной близостью ≥ порога. Низкий порог = много связей (шумно), высокий = только самые близкие пары.
💡 Двигайте ползунок и наблюдайте, как меняется граф!
40
📊 Матрица сходства (Heatmap)
🎓 Как читать матрицу?
Каждая ячейка показывает косинусную близость между парой терминов. Зелёный = семантически близки (например, «кардиолог» и «сердце»), красный = далеки (например, «рентген» и «инсулин»). Кликните на ячейку, чтобы подсветить пару на графе.
🎯 Кластеризация
3
🎓 Что такое кластеризация?
K-Means автоматически группирует термины по семантической близости. Узлы одного кластера получают одинаковый цвет. Например, модель может объединить в один кластер органы (сердце, мозг, лёгкие), в другой — специалистов (кардиолог, невролог), в третий — препараты (антибиотик, аспирин, инсулин).
🔍 Поиск (KNN)
Статистика
Узлов0
Связей0
Кластеров-
📄 Загрузка
✂️ Чанкинг
🔮 Эмбеддинг
💾 Хранение
🔍 Поиск
🤖 Генерация
🎓 Что такое RAG?
RAG — LLM получает контекст из ваших документов перед ответом. Загрузите клинический текст и задайте вопрос.
Подключение
Проверка...
Загрузка документа
📂
Перетащите .txt или нажмите
✂️ Чанкинг
200
50
✂️ Параметры чанкинга
Размер — баланс точности и контекста. Overlap — перекрытие, спасает от потери на стыках.
💡 Оптимум: 200–500, overlap 10–20%
Top-K
3
🎯 Top-K
Сколько ближайших чанков передать LLM. K=3–5 оптимально.
📖 Загрузите клинический текст → чанкинг → задайте вопрос
🌡️0.3
📋 Чанки

Шаг 1 из N

Заголовок

Текст пояснения.