📊 Репозиторий с датасетами и моделями

Данный репозиторий содержит структурированную коллекцию датасетов по различным направлениям (демография, экономика, инфраструктура и др.), а также ноутбуки с моделями и анализом данных.

📁 Структура репозитория

├── Общие признаки/
│   └── Демография/
│   └── Здравоохранение/
│   └── Экономика/
│   └── Инфраструктура/
│   └── ОПЖ/
│   └── СКР/
├── Финальный вариант/
│   └── ...
├── Предсказания 2025-2026/
│   └── ...
├── notebooks/
│   ├── YourModel/
│       ├── EDA.ipynb
        ├── model_training.ipynb
│   └── ...
└── README.md

🗂 Общие признаки

Каждая тематическая папка содержит один или несколько файлов в форматах:

.csv

.xlsx

.xls

Файлы могут быть:

сырыми данными (raw),

предобработанными данными (processed),

агрегированными таблицами (например, общая_таблица.xlsx).

Каждый датасет содержит отдельный лист с паспортом, где подробно указаны источники, ответственные люди и реквизиты для обратной связи.

📓 Папка notebooks/

В этой директории размещены:

Ноутбуки исследовательского анализа данных (EDA)

Модели машинного обучения

Вспомогательные ноутбуки (чистка, подготовка признаков и т.д.)

Каждый ноутбук сопровождается кратким описанием внутри.

Здесь же расположены отчёты и графики по метрикам

⭐ Финальный вариант

Здесь находятся финальные датасеты, а также корреляционный анализ по Пирсону и p-value признаков. Некоторые признаки показали низкий p-value, однако мы их оставили так как с ними метрики моделей оказались лучше

🐦 Предсказания 2025-2026

В качестве лучшей модели был выбран XGBoost. Для него и некоторых других моделей мы сделали синтетические предсказания на 2025-2026 года.

📝 Правила обновления данных

Все новые датасеты должны попадать в соответствующую тематическую папку.

Названия файлов должны быть информативными и понятными.

При добавлении преобразованных таблиц необходимо указать источник данных.

Для новых моделей создавайте отдельные директории в notebooks/.

Получение метрик производится автоматически, если вы загрузили предсказания модели в формате predictions_afr.xslx и predictions_ele.xlsx

Excel-файлы обязательно должны содержать колонки predicitons и <target> (СКР или ОПЖ)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📊 Репозиторий с датасетами и моделями

📁 Структура репозитория

🗂 Общие признаки

📓 Папка notebooks/

⭐ Финальный вариант

🐦 Предсказания 2025-2026

📝 Правила обновления данных

About

Uh oh!

Releases

Packages

Contributors 4

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 128 Commits
notebooks		notebooks
Общие признаки		Общие признаки
Предсказания 2025-2026		Предсказания 2025-2026
Финальный вариант		Финальный вариант
README.md		README.md
население.csv		население.csv
население.xlsx		население.xlsx
общая_таблица.xlsx		общая_таблица.xlsx

Balots/DataAndMopdels

Folders and files

Latest commit

History

Repository files navigation

📊 Репозиторий с датасетами и моделями

📁 Структура репозитория

🗂 Общие признаки

📓 Папка notebooks/

⭐ Финальный вариант

🐦 Предсказания 2025-2026

📝 Правила обновления данных

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Uh oh!

Languages

Packages