Перейти к основному содержимому

9 страниц с тегом "automation"

Посмотреть все теги

Pandas: работа с таблицами КБК

Нормализация 20-значного КБК в pandas: удаление пробелов между частями кода, строка, ведущие нули, хвост .0 из Excel, left merge со справочником и контроль неприсоединившихся строк; глоссарий КБК и открытые справочники Минфина.

Python: данные через API budget.gov.ru

Сборка URL паспорта набора из каталога list.json: поле link, префикс null/, User-Agent и таймауты; офлайн-фрагмент каталога для проверки логики без сети.

Python: парсинг XML из ЕИС Закупок

Потоковый разбор XML внутри ZIP как в массовых выгрузках ЕИС: iterparse, очистка дерева, разделение 44-ФЗ и 223-ФЗ; без привязки к закрытым URL СОИ.

Автоматизация

Python, pandas, DuckDB: запросы к API, разбор XML закупок, join по КБК, пайплайны обновления и контроль качества данных.

Контроль качества данных

Минимальный контракт качества на выгрузке: дубликаты ключа, баланс иерархии сумм, диапазон дат; учебный CSV и stdlib Python.

Росстат: Российский статистический ежегодник

флагманский годовой статистический ежегодник Росстата: каталог выпусков на rosstat.gov.ru с PDF, архивами и множеством вложений на страницах выпусков; для аналитики нужны скачивание карточки года, разбор ZIP и извлечение таблиц из PDF/Excel, стабильного API под всю серию нет.

Росстат: статистический сборник «Россия в цифрах»

ежегодный краткий статистический обзор РФ на сайте Росстата: карточки выпусков, архивы, тематические файлы Microsoft Word и Excel по разделам; для машиночитаемого анализа таблицы извлекают парсером (включая разбор DOCX/XLSX) или вручную, стабильного публичного API под серию нет.