Всем привет!

Запускается блок статей состоящий из 5 частей, в каждом из которых мы с Вами будем разбирать шаги анализа данных. Каждая часть будет выходить, предположительно, раз в неделю и при завершении проект будет выложен на GitHub.

Так же хотел бы заметить, что в данном блоке мы не будет настраивать среду разработки, в которой будет фиксироваться код - это необходимо сделать самостоятельно.

Дата сет (файл .CSV) “Пожары в России: данные о местах и типах природных пожаров за 2012–2021 гг.”. Этот файл в бесплатном доступе с открытой лицензией, скачать его можно здесь.

Язык программирования: Python

Среда разработки Jupyter Notebook (среда так же доступная и бесплатная), но вы можете использовать среду разработки привычную Вам.

У вас есть все необходимые вводные данные, поэтому вы можете параллельно анализировать и прокачивать свой skill !

P.s. так же в некоторых местах будут ссылки на дополнительный (бесплатный) материал с целью более детального изучения.

Блок состоит из 5 частей:

  • декомпозиция;

  • открытие файла и предобработка данных;

  • исследовательский анализ;

  • проверка гипотез;

  • создание dashboard.

В этой части мы познакомимся с понятием "декомпозиция", и подготовим план для дальнейшей работы.

Декомпозиция

Это метод разделения целого на части. Процесс основан на пути перехода от более важных до менее значимых задач. Функциональная композиция — процесс изучения и анализирования отдельных частей, составляющих сложную процедуру.

Ниже опишем план, по которому мы с Вами будем работать:

1. Изучение общей информации
2. Предобработка данных
2.1. Проверка корректности наименований колонок;
2.2. Проверка и обработка пропущенных значений;
2.3. Проверка и обработка дубликатов;
2.4. Проверка и обработка типов данных;
3. Исследовательский анализ данных
3.1. Сезонное измерение количества возгораний, группируя по типу пожаров;
3.2. Подсчет суммарного количества возгораний в одном месте;
3.3. Сезонное измерение количества возгораний, группируя по причинам возгорания (умышленное и природное)
4. Проверка гипотез
4.1. Гипотеза: "Среднее количество пожаров "неконтролируемого пала" и "контролируемого пала" одинаково"
4.2. Гипотеза: "Среднее количество пожаров "лесных" и "торфяных" одинаково"
4.3. Гипотеза: "Количество пожаров в 2012 году меньше, чем в 2021"
5. Вывод
6. Создание dashboard


Мы с Вами работаем вместе, поэтому в комментариях можете делиться Вашими успехами, а если есть неудачи, то давайте разберем их.

Ваш юный аналитик данных, Алексей!

Комментарии (2)


  1. False_it
    05.09.2022 23:16
    +1

    На мой взгляд, интересный формат подачи информации, если это будет цикл статей… жду следующую


    1. Siciliez88 Автор
      05.09.2022 23:17

      Это цикл, следующая часть на следующей неделе)