Привет! Это команда Яндекс Практикума. Эксперты курса «Специалист по Data Science» поделились 12 статьями, которые помогут ближе познакомиться с разведочным анализом и основами статистики, — рассказываем о них и делимся ссылками.
Что такое EDA и статистический анализ данных
Разведочный (или исследовательский) анализ данных, или Exploratory Data Analysis (EDA), — это процесс, в ходе которого аналитик знакомится с данными, прежде чем переходить к сложным аналитическим моделям. Это основа работы с данными, которая помогает как осознать, что за информация доступна аналитику, так и понять, возникнут ли трудности с её будущим анализом.
EDA используются во всех сферах, где работают с данными: в финтехе, торговле, маркетинге, производстве и не только.
Статистический анализ — один из инструментов EDA и работы с данными в принципе. Это набор статистических методов, связанных с количественной оценкой данных. Например, вычисление среднего или медианного значения — это одни из самых простых методов статистического анализа.
На курсе «Специалист по Data Science» разведочному и статистическому анализу посвящены два блока: студенты знакомятся с инструментами и закрепляют материал на практике — исследуют объявления о продаже недвижимости в Петербурге и Ленобласти, а потом проверяют гипотезы сервисы аренды самокатов, чтобы помочь вырастить бизнес. Погрузиться в тему можно и без обучения — поможет подборка материалов от экспертов курса.
1. «Практика EDA», Дмитрий Макаров

Практический разбор системного анализа двух датасетов с помощью инструментов EDA. Материал полезен тем, кто только знакомится с основами разведочного анализа данных.
2. «Разведочный анализ (EDA)», Otus

Погружение в цели EDA и его инструменты, такие как гистограммы, «ящики с усами», тепловые карты и сводные статистики. В материале есть визуализации и примеры кода.
3. «Топ-9 библиотек в Python для профессионального анализа данных», Практикум

Обзор главных библиотек для аналитика: от pandas, которая поможет подготовить данные, до scikit-learn для машинного обучения.
4. «Исследование данных: подробное руководство», Astera

Пошаговый разбор исследования данных: от сбора до обработки, поиска выбросов и отображения с помощью статистики и визуализации.
5. EDA with pandas, Yevhen Strakhov

Разбор шагов разведочного анализа с помощью Python — в частности библиотек pandas, NumPy, Matplotlib и Seaborn.
6. Matplotlib vs. seaborn vs. Plotly vs. MATLAB vs. ggplot2 vs. pandas, Ritza articles

Последовательное попарное сравнение инструментов визуализации данных. Без победителей и проигравших, но с конкретными сценариями, когда стоит использовать тот или иной инструмент.
7. «Основы статистики: просто о сложных формулах», Stepik

Материал о том, как статистика помогает отличать верные выводы от ложных, — с техническим подходом, но на человечном языке и с наглядными примерами распространённых ошибок.
8. «Я прочитал книгу “Статистика и котики” и начал разбираться в анализе данных», Никита Смирнов

Краткий отзыв о популярной книге о статистике для новичков. Если вы не занимаетесь анализом данных, но чувствуете, что испытываете к ним интерес, начните с рецензии, а потом, может, и книги.
9. «Основы статистики», Stepik

Курс-знакомство с основными понятиями и методами математической статистики. Рассчитан на три недели и доступен бесплатно.
10. «Как понять (и простить) теорию вероятностей?», Маргарита Меликян

Выжимка о теории вероятностей — не поможет понять этот раздел математики с наскока, но может стать памяткой по проблемным местам, если уже ориентируетесь в предмете.
11. «Теория вероятностей и статистика», Ю. Н. Тюрин и др.

Пособие для учеников старших классов — самодостаточный материал с теорией без лишнего формализма и задачами для закрепления материала. Рассматривает ряд тем, связанных со статистикой и теорией вероятностей, включая комбинаторику, непрерывные распределения и закон больших чисел.
12. statistical models, hypothesis tests, and data exploration, statsmodels

Курс по библиотеке Python statsmodels, которая используется для статистического анализа и объединяет графические возможности Matplotlib, инструменты подготовки данных pandas и математический функционал NumPy и SciPy.
19cancer84
Спасибо, очень информативно.