Использование корпуса в RAG и ассистентах
Назначение и аудитория
Материал для разработчиков и редакторов, которые подключают эту wiki к поиску, RAG или ИИ-ассистентам.
Входные данные
- Клон репозитория или статическая сборка сайта.
- Артефакты в каталоге
exports/:exports/knowledge-index.jsonlиexports/knowledge-graph.json(генерируютсяnpm run export:knowledge). - Файлы
llms.txtиKNOWLEDGE.mdв корне репозитория. - Инженерные решения (стек экспорта, политика проверки внешних ссылок):
openspec/engineering-notes.md.
Инструменты
- Node.js 20+, скрипты в
scripts/(export-knowledge-index.mjs, линтеры метаданных). - Любой RAG-стек поверх Markdown или JSONL.
Шаги
- Прочитайте точку входа для моделей (
llms.txt,KNOWLEDGE.md) — там зафиксированы разделы и правила ссылок. - Используйте
knowledge-index.jsonlкак источник метаданных (content_type,entity_type,tags,slug,draft). - Отфильтруйте
draft: true, если индексируете только опубликованное в продакшен-навигации. - Чанкуйте по заголовкам
##и###, сохраняяslugстраницы в метаданных чанка для цитирования. - Для регрессии retrieval используйте
tests/qa-validation.jsonl(целевой объём 50–100+ сценариев; схема проверяетсяnpm run lint:qaпротив актуальногоknowledge-index.jsonl). Лексический baseline:npm run qa:retrieval— ожидаемые slug из каждого сценария должны попадать в топ-200 примитивного ранжирования поtitle,description,tags,sidebar_labelиaliasesв индексе (см.scripts/qa-retrieval-regression.mjs).
Воспроизводимый пример
npm ci
npm run export:knowledge
head -n 3 exports/knowledge-index.jsonl
Проверка результата
npm run export:knowledge -- --check в CI гарантирует, что закоммиченный индекс совпадает с генерацией из wiki/.
Ограничения и типовые ошибки
- Внешние URL в карточках меняются; для контроля живости подключена еженедельная проверка ссылок.
- Не подменяйте канонические пути сайта произвольными URL зеркал без пометки в ответе ассистента.
- Сводка известных пробелов корпуса (поиск по сайту, черновики,
related_pages): файлKNOWLEDGE.mdв корне репозитория.