DuckDB: аналитика бюджетных данных
Локальный SQL к CSV без сервера БД: read_csv_auto, агрегация по региону; учебный файл и pip install duckdb.
Локальный SQL к CSV без сервера БД: read_csv_auto, агрегация по региону; учебный файл и pip install duckdb.
Нормализация 20-значного КБК в pandas: удаление пробелов между частями кода, строка, ведущие нули, хвост .0 из Excel, left merge со справочником и контроль неприсоединившихся строк; глоссарий КБК и открытые справочники Минфина.
Сборка URL паспорта набора из каталога list.json: поле link, префикс null/, User-Agent и таймауты; офлайн-фрагмент каталога для проверки логики без сети.
Потоковый разбор XML внутри ZIP как в массовых выгрузках ЕИС: iterparse, очистка дерева, разделение 44-ФЗ и 223-ФЗ; без привязки к закрытым URL СОИ.
Python, pandas, DuckDB: запросы к API, разбор XML закупок, join по КБК, пайплайны обновления и контроль качества данных.
Минимальный контракт качества на выгрузке: дубликаты ключа, баланс иерархии сумм, диапазон дат; учебный CSV и stdlib Python.
Make-цель с curl для снимка list.csv Минфина, фрагмент расписания GitHub Actions и связка с проверками качества перед коммитом артефактов.
флагманский годовой статистический ежегодник Росстата: каталог выпусков на rosstat.gov.ru с PDF, архивами и множеством вложений на страницах выпусков; для аналитики нужны скачивание карточки года, разбор ZIP и извлечение таблиц из PDF/Excel, стабильного API под всю серию нет.
ежегодный краткий статистический обзор РФ на сайте Росстата: карточки выпусков, архивы, тематические файлы Microsoft Word и Excel по разделам; для машиночитаемого анализа таблицы извлекают парсером (включая разбор DOCX/XLSX) или вручную, стабильного публичного API под серию нет.