Рассказываем, как мы структурировали три разные базы знаний для одного агента, внедрили RAG-оптимизированную документацию с метаданными и избавились от дублирования контента с помощью... других агентов.

Вызов: один агент, три источника

Когда мы запускали агента-помощника для Agentech, перед нами встала интересная задача. Агент должен был уметь отвечать на совершенно разные типы вопросов:

  • "Как настроить интеграцию с Telegram?" → нужна техническая документация
  • "Покажи пример использования для интернет-магазина" → нужны практические кейсы из блога
  • "Какие у вас тарифы и условия использования?" → нужны правовые документы

Один агент, но три совершенно разных источника информации. Каждый со своими особенностями и требованиями к структуре.

Наше решение: три базы, много агентов

Вместо попытки запихнуть всё в одну большую базу, мы создали три специализированные. Но главное преимущество такого подхода — переиспользование баз в разных агентах.

Например, база "Правовые документы" подключена не только к основному агенту-помощнику, но и к агенту для партнёров, агенту в CRM для менеджеров. Все получают одинаковую актуальную информацию о тарифах и условиях.

База "Блог" используется и в агенте техподдержки (для примеров решений), и в агенте для продаж (для демонстрации возможностей).

Три специализированные базы знаний

База "Блог"

Назначение: Практические кейсы и примеры использования
Содержание: Статьи типа "Как создать агента для интернет-магазина", реальные сценарии, готовые промпты
Оптимизация: Богатые ключевые слова для разнообразных сценариев использования и семантического поиска

База "Документация"

Назначение: Пользовательские инструкции и руководства
Содержание: Как создать агента, настроить интеграции, работать с базой знаний
Оптимизация: Исчерпывающие метаданные с техническими синонимами и переводами

⚖️ База "Правовые документы"

Назначение: Официальная информация
Содержание: Оферта, политика конфиденциальности, тарифы, реквизиты
Оптимизация: Точная юридическая терминология в ключевых словах для точности

RAG-оптимизация с помощью метаданных

В отличие от традиционных подходов с чанками, мы внедрили систему на основе метаданных для оптимальной производительности RAG:

Метаданные для каждой секции:

  • Каждая логическая секция имеет ключевые слова, включая синонимы, переводы и доменные варианты
  • Саммари предоставляют контекст для переранжирования и понимания
  • HTML-разделители чанков на естественных границах контента

Пример из нашей базы "Блог":

html
undefined

Этот подход даёт нам точный контроль над тем, что пользователи находят при поиске.

Как работает поиск по трём базам

Когда пользователь задаёт вопрос, происходит следующее:

  1. Анализ запроса: Система извлекает ключевые концепции и намерения
  2. Параллельный поиск: Одновременный поиск по всем трём базам с использованием семантического и ключевого соответствия
  3. Буст метаданных: Результаты с совпадающими ключевыми словами получают повышение в ранжировании
  4. Умная комбинация: Агент синтезирует информацию из разных источников

Примеры в действии:

Вопрос: "Можно ли использовать вашу платформу для интернет-магазина и сколько это стоит?"

Процесс поиска:

  • Ключевые слова "интернет-магазин" совпадают с метаданными Блога → находит кейс для e-commerce
  • Ключевые слова "стоит", "тарифы" совпадают с Правовыми документами → находит страницу с ценами
  • Агент комбинирует оба результата для исчерпывающего ответа

Автоматизация: агенты следят за агентами

Главная проблема любой базы знаний — она устаревает. Мы решили эту проблему радикально: поставили агентов следить за порядком.

Агент документации: следит за кодом и обновляет метаданные

Как работает:

  1. Анализирует изменения кода при деплое
  2. Определяет затронутые разделы документации
  3. Обновляет контент И ключевые слова в метаданных
  4. Корректирует саммари для отражения новой функциональности
  5. Создаёт черновики для одобрения командой

Пример: Мы добавили поддержку OAuth. Агент:

  • Находит все разделы про аутентификацию
  • Добавляет "OAuth", "OAuth2", "авторизация OAuth" в ключевые слова
  • Обновляет саммари с упоминанием возможности OAuth
  • Переписывает затронутые инструкции

Агент блога: предотвращает дублирование

Как работает:

  1. Анализирует черновики новых статей
  2. Сравнивает ключевые слова и саммари с существующим контентом
  3. Определяет пересечения и пробелы
  4. Предлагает уникальные углы для исследования

Пример: Пишем о "настройке агента для HR". Агент сообщает:

  • Существующая статья покрывает базовую HR-автоматизацию
  • Пересечение ключевых слов: "HR", "рекрутинг", "онбординг"
  • Отсутствует покрытие: "оценка производительности", "интеграция учёта времени"
  • Предложение: сосредоточиться на продвинутых HR-процессах, ещё не документированных

Структура контента для понимания ИИ

В отличие от документов для людей, ИИ-агентам нужна семантическая ясность:

Семантические заголовки с контекстом

markdown
# Как подключить Telegram-бота к агенту

**Цель:** Обеспечить общение агент-пользователь через Telegram
**Предварительные требования:** Активный агент, токен Telegram-бота
**Результат:** Полностью функциональный Telegram-бот, подключенный к вашему агенту

NO_INDEX для несущественного контента

html

Добро пожаловать в наше руководство по интеграции! В этой статье мы пройдём через...
[Оглавление]
[Навигационные ссылки]

Метрики, которые мы отслеживаем

Метрики качества поиска

  • Процент попаданий по ключевым словам: Как часто совпадения ключевых слов улучшают результаты
  • Точность семантического соответствия: Чистый поиск по эмбеддингам против гибридного поиска
  • Релевантность результатов: Обратная связь пользователей о качестве ответов
  • Запросы без результатов: Что пользователи ищут, но не находят

Метрики здоровья контента

  • Покрытие метаданными: Разделы с/без правильных метаданных
  • Свежесть ключевых слов: Когда ключевые слова последний раз проверялись
  • Точность саммари: Насколько хорошо саммари соответствуют фактическому контенту
  • Валидность перекрёстных ссылок: Битые ссылки между связанным контентом

Аналитика использования

  • Самые искомые ключевые слова: Помогает оптимизировать метаданные
  • Общие паттерны запросов: Показывает, как пользователи формулируют вопросы
  • Показатель отказов по разделам: Указывает на проблемы качества контента

Лучшие практики внедрения

Начните с аудита контента

  1. Определите типы контента → распределите по соответствующим базам
  2. Отметьте неиндексируемый контент → добавьте теги NO_INDEX
  3. Определите логические границы → расставьте разделители чанков
  4. Извлеките ключевые концепции → создайте начальные списки ключевых слов

Процесс создания метаданных

  1. Прочитайте чанк → поймите основную информацию
  2. Составьте список поисковых терминов → как пользователи будут это искать?
  3. Добавьте переводы → английский + родной язык
  4. Включите синонимы → технические и разговорные термины
  5. Напишите саммари → конкретное, не общее

Чеклист контроля качества

  • ✅ У каждого чанка есть RAG_META
  • ✅ Ключевые слова соответствуют глубине фактического контента
  • ✅ Саммари конкретные и описательные
  • ✅ Теги NO_INDEX на навигации/воде
  • ✅ Разделители чанков на логических разрывах

Результаты и планы на будущее

Достигнутые результаты

  • Улучшение на 70% в успешности первого запроса
  • Сокращение на 90% дублирования контента
  • Обновления в реальном времени с каждым деплоем кода
  • Гибридный поиск превосходит чистый семантический на 40%

Предстоящая автоматизация

  • Анализатор паттернов запросов: Автоматически предлагает недостающие ключевые слова из поисков пользователей
  • Детектор семантического дрейфа: Определяет, когда саммари больше не соответствуют контенту
  • Кросс-базовый оптимизатор: Находит возможности для связывания связанного контента
  • Фреймворк A/B-тестирования: Автоматически тестирует разные стратегии ключевых слов

Хотите внедрить RAG-оптимизированные базы знаний? Начните с правильной структуры метаданных и сосредоточьтесь на ключевых словах, которые соответствуют тому, как на самом деле ищут ваши пользователи. Автоматизация может прийти позже, когда вы поймёте паттерны вашего контента.