Рассказываем, как мы структурировали три разные базы знаний для одного агента, внедрили RAG-оптимизированную документацию с метаданными и избавились от дублирования контента с помощью... других агентов.

Вызов: один агент, три источника

Когда мы запускали агента-помощника для Agentech, перед нами встала интересная задача. Агент должен был уметь отвечать на совершенно разные типы вопросов:

"Как настроить интеграцию с Telegram?" → нужна техническая документация
"Покажи пример использования для интернет-магазина" → нужны практические кейсы из блога
"Какие у вас тарифы и условия использования?" → нужны правовые документы

Один агент, но три совершенно разных источника информации. Каждый со своими особенностями и требованиями к структуре.

Наше решение: три базы, много агентов

Вместо попытки запихнуть всё в одну большую базу, мы создали три специализированные. Но главное преимущество такого подхода — переиспользование баз в разных агентах.

Например, база "Правовые документы" подключена не только к основному агенту-помощнику, но и к агенту для партнёров, агенту в CRM для менеджеров. Все получают одинаковую актуальную информацию о тарифах и условиях.

База "Блог" используется и в агенте техподдержки (для примеров решений), и в агенте для продаж (для демонстрации возможностей).

Три специализированные базы знаний

База "Блог"

Назначение: Практические кейсы и примеры использования
Содержание: Статьи типа "Как создать агента для интернет-магазина", реальные сценарии, готовые промпты
Оптимизация: Богатые ключевые слова для разнообразных сценариев использования и семантического поиска

База "Документация"

Назначение: Пользовательские инструкции и руководства
Содержание: Как создать агента, настроить интеграции, работать с базой знаний
Оптимизация: Исчерпывающие метаданные с техническими синонимами и переводами

⚖️ База "Правовые документы"

Назначение: Официальная информация
Содержание: Оферта, политика конфиденциальности, тарифы, реквизиты
Оптимизация: Точная юридическая терминология в ключевых словах для точности

RAG-оптимизация с помощью метаданных

В отличие от традиционных подходов с чанками, мы внедрили систему на основе метаданных для оптимальной производительности RAG:

Метаданные для каждой секции:

Каждая логическая секция имеет ключевые слова, включая синонимы, переводы и доменные варианты
Саммари предоставляют контекст для переранжирования и понимания
HTML-разделители чанков на естественных границах контента

Пример из нашей базы "Блог":

html
undefined

Этот подход даёт нам точный контроль над тем, что пользователи находят при поиске.

Как работает поиск по трём базам

Когда пользователь задаёт вопрос, происходит следующее:

Анализ запроса: Система извлекает ключевые концепции и намерения
Параллельный поиск: Одновременный поиск по всем трём базам с использованием семантического и ключевого соответствия
Буст метаданных: Результаты с совпадающими ключевыми словами получают повышение в ранжировании
Умная комбинация: Агент синтезирует информацию из разных источников

Примеры в действии:

Вопрос: "Можно ли использовать вашу платформу для интернет-магазина и сколько это стоит?"

Процесс поиска:

Ключевые слова "интернет-магазин" совпадают с метаданными Блога → находит кейс для e-commerce
Ключевые слова "стоит", "тарифы" совпадают с Правовыми документами → находит страницу с ценами
Агент комбинирует оба результата для исчерпывающего ответа

Автоматизация: агенты следят за агентами

Главная проблема любой базы знаний — она устаревает. Мы решили эту проблему радикально: поставили агентов следить за порядком.

Агент документации: следит за кодом и обновляет метаданные

Как работает:

Анализирует изменения кода при деплое
Определяет затронутые разделы документации
Обновляет контент И ключевые слова в метаданных
Корректирует саммари для отражения новой функциональности
Создаёт черновики для одобрения командой

Пример: Мы добавили поддержку OAuth. Агент:

Находит все разделы про аутентификацию
Добавляет "OAuth", "OAuth2", "авторизация OAuth" в ключевые слова
Обновляет саммари с упоминанием возможности OAuth
Переписывает затронутые инструкции

Агент блога: предотвращает дублирование

Как работает:

Анализирует черновики новых статей
Сравнивает ключевые слова и саммари с существующим контентом
Определяет пересечения и пробелы
Предлагает уникальные углы для исследования

Пример: Пишем о "настройке агента для HR". Агент сообщает:

Существующая статья покрывает базовую HR-автоматизацию
Пересечение ключевых слов: "HR", "рекрутинг", "онбординг"
Отсутствует покрытие: "оценка производительности", "интеграция учёта времени"
Предложение: сосредоточиться на продвинутых HR-процессах, ещё не документированных

Структура контента для понимания ИИ

В отличие от документов для людей, ИИ-агентам нужна семантическая ясность:

Семантические заголовки с контекстом

markdown
# Как подключить Telegram-бота к агенту

**Цель:** Обеспечить общение агент-пользователь через Telegram
**Предварительные требования:** Активный агент, токен Telegram-бота
**Результат:** Полностью функциональный Telegram-бот, подключенный к вашему агенту

NO_INDEX для несущественного контента

html

Добро пожаловать в наше руководство по интеграции! В этой статье мы пройдём через...
[Оглавление]
[Навигационные ссылки]

Метрики, которые мы отслеживаем

Метрики качества поиска

Процент попаданий по ключевым словам: Как часто совпадения ключевых слов улучшают результаты
Точность семантического соответствия: Чистый поиск по эмбеддингам против гибридного поиска
Релевантность результатов: Обратная связь пользователей о качестве ответов
Запросы без результатов: Что пользователи ищут, но не находят

Метрики здоровья контента

Покрытие метаданными: Разделы с/без правильных метаданных
Свежесть ключевых слов: Когда ключевые слова последний раз проверялись
Точность саммари: Насколько хорошо саммари соответствуют фактическому контенту
Валидность перекрёстных ссылок: Битые ссылки между связанным контентом

Аналитика использования

Самые искомые ключевые слова: Помогает оптимизировать метаданные
Общие паттерны запросов: Показывает, как пользователи формулируют вопросы
Показатель отказов по разделам: Указывает на проблемы качества контента

Лучшие практики внедрения

Начните с аудита контента

Определите типы контента → распределите по соответствующим базам
Отметьте неиндексируемый контент → добавьте теги NO_INDEX
Определите логические границы → расставьте разделители чанков
Извлеките ключевые концепции → создайте начальные списки ключевых слов

Процесс создания метаданных

Прочитайте чанк → поймите основную информацию
Составьте список поисковых терминов → как пользователи будут это искать?
Добавьте переводы → английский + родной язык
Включите синонимы → технические и разговорные термины
Напишите саммари → конкретное, не общее

Чеклист контроля качества

✅ У каждого чанка есть RAG_META
✅ Ключевые слова соответствуют глубине фактического контента
✅ Саммари конкретные и описательные
✅ Теги NO_INDEX на навигации/воде
✅ Разделители чанков на логических разрывах

Результаты и планы на будущее

Достигнутые результаты

Улучшение на 70% в успешности первого запроса
Сокращение на 90% дублирования контента
Обновления в реальном времени с каждым деплоем кода
Гибридный поиск превосходит чистый семантический на 40%

Предстоящая автоматизация

Анализатор паттернов запросов: Автоматически предлагает недостающие ключевые слова из поисков пользователей
Детектор семантического дрейфа: Определяет, когда саммари больше не соответствуют контенту
Кросс-базовый оптимизатор: Находит возможности для связывания связанного контента
Фреймворк A/B-тестирования: Автоматически тестирует разные стратегии ключевых слов

Хотите внедрить RAG-оптимизированные базы знаний? Начните с правильной структуры метаданных и сосредоточьтесь на ключевых словах, которые соответствуют тому, как на самом деле ищут ваши пользователи. Автоматизация может прийти позже, когда вы поймёте паттерны вашего контента.

agentech

Как мы организовали базы знаний для ИИ-агентов: опыт Agentech