Skip to content

Balots/DataAndMopdels

Repository files navigation

📊 Репозиторий с датасетами и моделями

Данный репозиторий содержит структурированную коллекцию датасетов по различным направлениям (демография, экономика, инфраструктура и др.), а также ноутбуки с моделями и анализом данных.

📁 Структура репозитория

├── Общие признаки/
│   └── Демография/
│   └── Здравоохранение/
│   └── Экономика/
│   └── Инфраструктура/
│   └── ОПЖ/
│   └── СКР/
├── Финальный вариант/
│   └── ...
├── Предсказания 2025-2026/
│   └── ...
├── notebooks/
│   ├── YourModel/
│       ├── EDA.ipynb
        ├── model_training.ipynb
│   └── ...
└── README.md

🗂 Общие признаки

Каждая тематическая папка содержит один или несколько файлов в форматах:

.csv

.xlsx

.xls

Файлы могут быть:

сырыми данными (raw),

предобработанными данными (processed),

агрегированными таблицами (например, общая_таблица.xlsx).

Каждый датасет содержит отдельный лист с паспортом, где подробно указаны источники, ответственные люди и реквизиты для обратной связи.

📓 Папка notebooks/

В этой директории размещены:

Ноутбуки исследовательского анализа данных (EDA)

Модели машинного обучения

Вспомогательные ноутбуки (чистка, подготовка признаков и т.д.)

Каждый ноутбук сопровождается кратким описанием внутри.

Здесь же расположены отчёты и графики по метрикам

⭐ Финальный вариант

Здесь находятся финальные датасеты, а также корреляционный анализ по Пирсону и p-value признаков. Некоторые признаки показали низкий p-value, однако мы их оставили так как с ними метрики моделей оказались лучше

🐦 Предсказания 2025-2026

В качестве лучшей модели был выбран XGBoost. Для него и некоторых других моделей мы сделали синтетические предсказания на 2025-2026 года.

📝 Правила обновления данных

Все новые датасеты должны попадать в соответствующую тематическую папку.

Названия файлов должны быть информативными и понятными.

При добавлении преобразованных таблиц необходимо указать источник данных.

Для новых моделей создавайте отдельные директории в notebooks/.

Получение метрик производится автоматически, если вы загрузили предсказания модели в формате predictions_afr.xslx и predictions_ele.xlsx

Excel-файлы обязательно должны содержать колонки predicitons и <target> (СКР или ОПЖ)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •