Перейти к основному содержимому

Измерения качества источника данных

Страница задаёт одинаковые смыслы для полей качества из редакционных спецификаций репозитория (openspec/specs/data-source-quality, openspec/specs/corpus-metadata): их можно переносить во frontmatter (data_completeness, machine_readability, …) после согласования волны миграции в AGENTS.md и линтере. Пока поля живут в теле карточки по шаблону в файле wiki/data-sources/data-source-card-template.md (черновик для авторов в репозитории), используйте формулировки ниже.

last_verified во frontmatter

Каноническое имя поля даты последней редакционной проверки карточки — last_verified (формат даты как в остальном корпусе, обычно YYYY-MM-DD). В текстах отчётов и чек-листах встречается разговорное «последняя проверка» или last_checked: в YAML новых карточек не вводите синонимы как отдельные ключи, пока экспорт не расширен иначе.

Измерения

data_completeness — полнота данных

Смысл: насколько витрина или набор покрывает заявленный объект (все строки бюджета, только агрегаты, только текущий год, пропуски по территориям и т.д.).

Типичные значения в тексте карточки: полная / частичная / неизвестна. Для «частичной» обязательно поясните чего не хватает (нет муниципального уровня, нет кассы, только PDF и т.д.).

machine_readability — машиночитаемость

Смысл: как устроен доступ для скриптов и повторяемых выгрузок.

Градации (ориентир): стабильный API; каталог файлов (CSV, JSON, XML, XLSX); только HTML-таблицы; преимущественно PDF; смешанный режим. Укажите типичные форматы и ограничения (капча, сессии, нестабильные URL).

Смысл: насколько публикация близка к официальному первичному источнику.

Различайте: официальный оператор ведомства или Казначейства; зеркало; гражданский агрегатор; академическая переупаковка. Для гражданских источников требования к явности лицензии и различению первичного источника строже (см. план наполнения).

update_lag — задержка обновления

Смысл: оценка лага между фактом (конец периода, публикация ведомством) и появлением данных в той форме, в которой вы их забираете.

Формулируйте в днях/месяцах относительно известного цикла (например «месячное исполнение с задержкой до N рабочих дней»), не как абстрактное «редко».

archive_depth — глубина архива

Смысл: есть ли история и на какой горизонт (сколько финансовых лет доступно в том же канале доступа).

Укажите разрывы (например смена платформы обрезала старые годы).

license_or_terms — лицензия и условия

Смысл: что позволено делать с повторной публикацией, коммерческим использованием, атрибуцией.

Если условия неясны, так и напишите и отнесите риск на потребителя данных.

Связь с how-to по качеству

Связанные разделы

  • Источники данных — карточки, куда переносится блок «Качество и верификация».
  • Шаблон для новой карточки: файл wiki/data-sources/data-source-card-template.md в репозитории (на сайте не публикуется как стабильный URL из-за draft: true).