Данный репозиторий содержит структурированную коллекцию датасетов по различным направлениям (демография, экономика, инфраструктура и др.), а также ноутбуки с моделями и анализом данных.
├── Общие признаки/
│ └── Демография/
│ └── Здравоохранение/
│ └── Экономика/
│ └── Инфраструктура/
│ └── ОПЖ/
│ └── СКР/
├── Финальный вариант/
│ └── ...
├── Предсказания 2025-2026/
│ └── ...
├── notebooks/
│ ├── YourModel/
│ ├── EDA.ipynb
├── model_training.ipynb
│ └── ...
└── README.md
Каждая тематическая папка содержит один или несколько файлов в форматах:
.csv
.xlsx
.xls
Файлы могут быть:
сырыми данными (raw),
предобработанными данными (processed),
агрегированными таблицами (например, общая_таблица.xlsx).
Каждый датасет содержит отдельный лист с паспортом, где подробно указаны источники, ответственные люди и реквизиты для обратной связи.
В этой директории размещены:
Ноутбуки исследовательского анализа данных (EDA)
Модели машинного обучения
Вспомогательные ноутбуки (чистка, подготовка признаков и т.д.)
Каждый ноутбук сопровождается кратким описанием внутри.
Здесь же расположены отчёты и графики по метрикам
Здесь находятся финальные датасеты, а также корреляционный анализ по Пирсону и p-value признаков. Некоторые признаки показали низкий p-value, однако мы их оставили так как с ними метрики моделей оказались лучше
В качестве лучшей модели был выбран XGBoost. Для него и некоторых других моделей мы сделали синтетические предсказания на 2025-2026 года.
Все новые датасеты должны попадать в соответствующую тематическую папку.
Названия файлов должны быть информативными и понятными.
При добавлении преобразованных таблиц необходимо указать источник данных.
Для новых моделей создавайте отдельные директории в notebooks/.
Получение метрик производится автоматически, если вы загрузили предсказания модели в формате predictions_afr.xslx и predictions_ele.xlsx
Excel-файлы обязательно должны содержать колонки predicitons и <target> (СКР или ОПЖ)