Рассказываем, как мы структурировали три разные базы знаний для одного агента, внедрили RAG-оптимизированную документацию с метаданными и избавились от дублирования контента с помощью... других агентов.
Вызов: один агент, три источника
Когда мы запускали агента-помощника для Agentech, перед нами встала интересная задача. Агент должен был уметь отвечать на совершенно разные типы вопросов:
- "Как настроить интеграцию с Telegram?" → нужна техническая документация
- "Покажи пример использования для интернет-магазина" → нужны практические кейсы из блога
- "Какие у вас тарифы и условия использования?" → нужны правовые документы
Один агент, но три совершенно разных источника информации. Каждый со своими особенностями и требованиями к структуре.
Наше решение: три базы, много агентов
Вместо попытки запихнуть всё в одну большую базу, мы создали три специализированные. Но главное преимущество такого подхода — переиспользование баз в разных агентах.
Например, база "Правовые документы" подключена не только к основному агенту-помощнику, но и к агенту для партнёров, агенту в CRM для менеджеров. Все получают одинаковую актуальную информацию о тарифах и условиях.
База "Блог" используется и в агенте техподдержки (для примеров решений), и в агенте для продаж (для демонстрации возможностей).
Три специализированные базы знаний
База "Блог"
Назначение: Практические кейсы и примеры использования
Содержание: Статьи типа "Как создать агента для интернет-магазина", реальные сценарии, готовые промпты
Оптимизация: Богатые ключевые слова для разнообразных сценариев использования и семантического поиска
База "Документация"
Назначение: Пользовательские инструкции и руководства
Содержание: Как создать агента, настроить интеграции, работать с базой знаний
Оптимизация: Исчерпывающие метаданные с техническими синонимами и переводами
⚖️ База "Правовые документы"
Назначение: Официальная информация
Содержание: Оферта, политика конфиденциальности, тарифы, реквизиты
Оптимизация: Точная юридическая терминология в ключевых словах для точности
RAG-оптимизация с помощью метаданных
В отличие от традиционных подходов с чанками, мы внедрили систему на основе метаданных для оптимальной производительности RAG:
Метаданные для каждой секции:
- Каждая логическая секция имеет ключевые слова, включая синонимы, переводы и доменные варианты
- Саммари предоставляют контекст для переранжирования и понимания
- HTML-разделители чанков на естественных границах контента
Пример из нашей базы "Блог":
htmlundefined
Этот подход даёт нам точный контроль над тем, что пользователи находят при поиске.
Как работает поиск по трём базам
Когда пользователь задаёт вопрос, происходит следующее:
- Анализ запроса: Система извлекает ключевые концепции и намерения
- Параллельный поиск: Одновременный поиск по всем трём базам с использованием семантического и ключевого соответствия
- Буст метаданных: Результаты с совпадающими ключевыми словами получают повышение в ранжировании
- Умная комбинация: Агент синтезирует информацию из разных источников
Примеры в действии:
Вопрос: "Можно ли использовать вашу платформу для интернет-магазина и сколько это стоит?"
Процесс поиска:
- Ключевые слова "интернет-магазин" совпадают с метаданными Блога → находит кейс для e-commerce
- Ключевые слова "стоит", "тарифы" совпадают с Правовыми документами → находит страницу с ценами
- Агент комбинирует оба результата для исчерпывающего ответа
Автоматизация: агенты следят за агентами
Главная проблема любой базы знаний — она устаревает. Мы решили эту проблему радикально: поставили агентов следить за порядком.
Агент документации: следит за кодом и обновляет метаданные
Как работает:
- Анализирует изменения кода при деплое
- Определяет затронутые разделы документации
- Обновляет контент И ключевые слова в метаданных
- Корректирует саммари для отражения новой функциональности
- Создаёт черновики для одобрения командой
Пример: Мы добавили поддержку OAuth. Агент:
- Находит все разделы про аутентификацию
- Добавляет "OAuth", "OAuth2", "авторизация OAuth" в ключевые слова
- Обновляет саммари с упоминанием возможности OAuth
- Переписывает затронутые инструкции
Агент блога: предотвращает дублирование
Как работает:
- Анализирует черновики новых статей
- Сравнивает ключевые слова и саммари с существующим контентом
- Определяет пересечения и пробелы
- Предлагает уникальные углы для исследования
Пример: Пишем о "настройке агента для HR". Агент сообщает:
- Существующая статья покрывает базовую HR-автоматизацию
- Пересечение ключевых слов: "HR", "рекрутинг", "онбординг"
- Отсутствует покрытие: "оценка производительности", "интеграция учёта времени"
- Предложение: сосредоточиться на продвинутых HR-процессах, ещё не документированных
Структура контента для понимания ИИ
В отличие от документов для людей, ИИ-агентам нужна семантическая ясность:
Семантические заголовки с контекстом
markdown# Как подключить Telegram-бота к агенту **Цель:** Обеспечить общение агент-пользователь через Telegram **Предварительные требования:** Активный агент, токен Telegram-бота **Результат:** Полностью функциональный Telegram-бот, подключенный к вашему агенту
NO_INDEX для несущественного контента
htmlДобро пожаловать в наше руководство по интеграции! В этой статье мы пройдём через... [Оглавление] [Навигационные ссылки]
Метрики, которые мы отслеживаем
Метрики качества поиска
- Процент попаданий по ключевым словам: Как часто совпадения ключевых слов улучшают результаты
- Точность семантического соответствия: Чистый поиск по эмбеддингам против гибридного поиска
- Релевантность результатов: Обратная связь пользователей о качестве ответов
- Запросы без результатов: Что пользователи ищут, но не находят
Метрики здоровья контента
- Покрытие метаданными: Разделы с/без правильных метаданных
- Свежесть ключевых слов: Когда ключевые слова последний раз проверялись
- Точность саммари: Насколько хорошо саммари соответствуют фактическому контенту
- Валидность перекрёстных ссылок: Битые ссылки между связанным контентом
Аналитика использования
- Самые искомые ключевые слова: Помогает оптимизировать метаданные
- Общие паттерны запросов: Показывает, как пользователи формулируют вопросы
- Показатель отказов по разделам: Указывает на проблемы качества контента
Лучшие практики внедрения
Начните с аудита контента
- Определите типы контента → распределите по соответствующим базам
- Отметьте неиндексируемый контент → добавьте теги NO_INDEX
- Определите логические границы → расставьте разделители чанков
- Извлеките ключевые концепции → создайте начальные списки ключевых слов
Процесс создания метаданных
- Прочитайте чанк → поймите основную информацию
- Составьте список поисковых терминов → как пользователи будут это искать?
- Добавьте переводы → английский + родной язык
- Включите синонимы → технические и разговорные термины
- Напишите саммари → конкретное, не общее
Чеклист контроля качества
- ✅ У каждого чанка есть RAG_META
- ✅ Ключевые слова соответствуют глубине фактического контента
- ✅ Саммари конкретные и описательные
- ✅ Теги NO_INDEX на навигации/воде
- ✅ Разделители чанков на логических разрывах
Результаты и планы на будущее
Достигнутые результаты
- Улучшение на 70% в успешности первого запроса
- Сокращение на 90% дублирования контента
- Обновления в реальном времени с каждым деплоем кода
- Гибридный поиск превосходит чистый семантический на 40%
Предстоящая автоматизация
- Анализатор паттернов запросов: Автоматически предлагает недостающие ключевые слова из поисков пользователей
- Детектор семантического дрейфа: Определяет, когда саммари больше не соответствуют контенту
- Кросс-базовый оптимизатор: Находит возможности для связывания связанного контента
- Фреймворк A/B-тестирования: Автоматически тестирует разные стратегии ключевых слов
Хотите внедрить RAG-оптимизированные базы знаний? Начните с правильной структуры метаданных и сосредоточьтесь на ключевых словах, которые соответствуют тому, как на самом деле ищут ваши пользователи. Автоматизация может прийти позже, когда вы поймёте паттерны вашего контента.