Привет, Хабр!

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Сегодня в этой статье обсудим 20 проектов по аналитике данных для новичков, которые помогут приобрести базовые и полезные знания в обработке данных и которые Вы сможете использовать для создания своего портфолио. 

Эти проекты будут охватывать наиболее востребованные навыки анализа данных и наиболее часто используемые инструменты анализа данных: Excel, SQL, Python, R, Tableau, Power BI.

Итак, погнали:

1. Панель мониторинга колл-центра с помощью Excel

В руководстве по анализу данных с помощью Excel Вы узнаете, как предварительно обрабатывать данные и изменять их на предпочитаемые Вами типы данных: 

  • научитесь создавать сводные таблицы и строить на их основе диаграммы и карту;

  • узнаете, как спроектировать структуру и фон панели мониторинга, а также вставить в нее диаграммы и карты;

  • узнаете, как использовать функцию фильтра и срезы, чтобы сделать вашу панель интерактивной.

Руководство и набор данных:

2. Ответы на бизнес-вопросы с помощью SQL

Во втором руководстве Вы изучите и попрактикуетесь в рабочем процессе анализа данных SQL, ответив на несколько бизнес-вопросов с SQL в Jupyter. Вы узнаете, как читать и использовать схему базы данных, а также как отправлять запросы к базе данных для объединения таблиц и возврата из них определенной информации.

Задача: Музыкальный магазин Chinook сотрудничает со звукозаписывающей компанией. Выполните анализ данных, чтобы помочь понять эффективность работы своих продавцов и помочь им решить, вкладывать ли средства в альбомы или отдельные треки. Помогите им решить, в каких артистов инвестировать, определив самый популярный жанр и продажи по странам.

Исходный код, инструкции и база данных:

3. Анализ клиентов и продуктов с использованием SQL

В предыдущем проекте Вы выполняли SQL-запросы в блокноте Jupyter. Блокноты Jupyter очень популярны для выполнения проектов по работе с данными, поскольку они позволяют создавать и обмениваться документами, содержащими коды, уравнения, тексты и визуализации, в одном месте. В других случаях Вы можете работать в интегрированной среде разработки SQL (IDE), например в браузере DB для SQLite и MySQL Workbench.

В этом проекте по анализу данных Вы узнаете, как выполнять запросы на своем компьютере с помощью браузера БД для SQLite IDE. Вы изучите базу данных продаж масштабных моделей автомобилей. Вы будете писать запросы для анализа производительности продукта и разработки стратегии пополнения запасов. Вы проанализируете поведение и привычки своих клиентов и разработаете индивидуальную маркетинговую и коммуникационную стратегию, которая максимизирует LTV и минимизирует маркетинговые затраты.

Вот ссылки на исходный код, инструкции и базу данных для этого проекта:

4. Создайте базу данных для отчетов о преступлениях с помощью PostgreSQL.

SQLite — один из наиболее часто используемых механизмов баз данных в мире. Он легкий и не требует для работы сервера. Эти функции делают его очень популярным для мобильных приложений.

SQLite — это простой механизм базы данных, имеющий свои ограничения. Только один человек может вносить изменения в базу данных в любой момент, что ограничивает множественный доступ. PostgreSQL устраняет ограничение параллельной записи ядра базы данных SQLite.

В этом проекте по анализу данных Вы узнаете, как создать базу данных для хранения данных с помощью PostgreSQL. Вы начнете с разработки схемы базы данных и таблиц. После этого Вы узнаете, как загрузить данные из CSV-файла в таблицы базы данных. Далее Вы узнаете, как установить привилегии для каждой группы пользователей, следуя принципу наименьших привилегий. Наконец, Вы проверите настройку своей базы данных, запустив и проанализировав результаты SQL-запросов.

Вот ссылки на исходный код, инструкции и данные для этого проекта:

5. Анализ страниц Википедии

До сих пор Вы работали с Excel и файлами баз данных. Существуют и другие форматы файлов, в которых могут храниться ваши данные. Предположим, что ваши данные доступны в Интернете на нескольких веб-страницах. Вы можете либо очистить веб-сайт, чтобы получить свои данные, либо сохранить веб-страницы в формате HTML.

В этом проекте Вы узнаете, как анализировать HTML-документы с данными, сохраненными со страниц Википедии. Вы узнаете, как очистить данные, удалив верхние и нижние колонтитулы и посторонние разметки. Работая с библиотекой BeautifulSoup, Вы научитесь извлекать данные из HTML-страниц с помощью определенных тегов. Наконец, Вы узнаете, как очищать и анализировать данные, извлеченные из каждого HTML-документа.

Вот ссылки на исходный код и инструкции для этого проекта:

6. Веб-скрапинг статистики НБА в Python

Веб-скрапинг — это процесс получения данных с веб-страниц. Это бесценный навык сбора данных, который отличает хороших аналитиков данных от великих. Работодатели будут уверены, что у вас есть необходимые навыки для сбора необходимых данных, необходимых для ваших проектов, из Интернета.

В этом проекте по анализу данных Вы узнаете, как собирать данные с нескольких веб-страниц. Вы узнаете, как использовать запросы и библиотеки Selenium для парсинга веб-страниц. Далее Вы узнаете, как проверять элементы на веб-странице, анализировать HTML-документы в библиотеке BeautifulSoup и извлекать данные из определенных тегов. Вы загрузите данные в DataFrames pandas и сохраните их в виде файлов CSV для использования в своем анализе.

Вот ссылки на исходный код и видеоурок этого проекта:

7. Очистка данных статистики НБА с помощью Python и Pandas

Реальные данные и данные, полученные из Интернета, не являются чистыми. Они требуют предварительной обработки, чтобы преобразовать их в форматы, которые могут обрабатывать библиотеки статистики, машинного обучения и визуализации.

Этот проект является продолжением предыдущего проекта. Здесь Вы будете работать с файлами CSV, содержащими данные, полученные вами с нескольких веб-страниц. Работая с библиотекой pandas, Вы узнаете, как удалять лишние символы из ваших данных, обрабатывать пропущенные значения, преобразовывать объекты в соответствующие типы данных, выбирать подмножества необходимых вам объектов из каждого DataFrame и объединять их. В конце проекта у вас будут предварительно обработанные данные, готовые для машинного обучения и статистического анализа.

Вот ссылки на исходный код и видеоурок этого проекта:

8. Поиск лучших рынков для рекламы курсов программирования

После освоения Excel и SQL следующим наиболее важным инструментом, который аналитик данных должен добавить в свой набор инструментов, является знание языка программирования. Python и R — самые популярные языки программирования для анализа данных.

В этом проекте по анализу данных Вы будете использовать язык программирования Python для выполнения вероятностного и статистического анализа, который поможет компании онлайн обучения найти лучшие рынки для рекламы своих курсов программирования.

Вот ссылки на исходный код, инструкции и данные для этого проекта:

9. Мобильное приложение от лотерейной зависимости

Многие концепции статистики и машинного обучения реализуются с использованием некоторых фундаментальных знаний о вероятности. Неудивительно, что знание вероятностей и статистики — это основные навыки, необходимые аналитику данных.

В этом проекте мы глубоко погрузимся в мир вероятностей, изучая шансы на выигрыш в лотерею. Вы поможете медицинскому институту, специализирующемуся на лечении игровой зависимости, разработать логику для мобильного приложения. Мобильное приложение поможет людям лучше оценить свои шансы на выигрыш в лотерею. Вы будете использовать теорию вероятностей, чтобы оценить вероятность выигрыша джекпота с помощью одного или нескольких билетов, а также вероятность получения меньших выигрышей при совпадении чисел от 2 до 5.

Вот ссылки на исходный код и инструкции для этого проекта:

10. Создайте систему рекомендаций фильмов на Python

Рекомендательные системы есть повсюду в Интернете. Когда Netflix рекомендует телешоу или Amazon предлагает вам купить книгу, под капотом работает система рекомендаций. 

В этом проекте анализа данных Вы создадите систему рекомендаций фильмов, используя набор данных MovieLens. Вы загрузите свой набор данных в DataFrame pandas и выполните операции поэлементной очистки, используя регулярные выражения.

Алгоритмы машинного обучения плохо работают с текстовыми данными. Мы должны найти способ представить текст в числовом виде. Вы узнаете, как использовать алгоритм векторизации текста Term Frequency-Inverse Density Frequency (TF-IDF) для числового представления текстовых данных. Далее Вы узнаете, как использовать метрику косинусного расстояния сходства для оценки показателей сходства. Наконец, Вы создадите интерактивную панель мониторинга для вывода результатов.

Вот ссылки на исходный код и видеоурок:

11. Предскажите MVP NBA

Прогнозный анализ является частью повседневных задач аналитика данных. Алгоритмов машинного обучения столько же, сколько задач прогнозного анализа.

В этом проекте мы будем использовать данные статистики NBA, чтобы спрогнозировать самых ценных игроков (MVP) в NBA. Сначала мы загрузим CSV-файл в DataFrame pandas, очистим и преобразуем функции. 

Далее мы обучим наши алгоритмы регрессии и выберем подходящие метрики для оценки эффективности модели. Наконец, мы проведем бэктест, чтобы проверить эффективность нашей модели в течение некоторого времени.

Вот ссылки на исходный код, видеоурок и данные для этого проекта:

12. Анализ рейтингов фильмов с помощью R

Продолжаются споры о том, какой язык программирования наиболее подходит для науки о данных и аналитики Python или R.

В этом проекте Вы узнаете, как очищать и извлекать данные с веб-страницы с помощью пакета rvest. Вы также узнаете, как в R выполняется предварительная обработка данных. Вы будете анализировать данные соответствующих типов, удалять лишние символы и обрабатывать пропущенные значения. Наконец, Вы загрузите свои данные в фрейм данных и визуализируете их распределение с помощью пакета ggplot.

Вот исходный код, инструкции и веб-страница, которую нужно удалить для этого проекта:

13. Победа в Jeopardy с помощью R

Ваша работа в качестве аналитика данных может включать в себя исследование результатов экспериментов. Недавно компания изменила свой пользовательский интерфейс и заметила, что люди проводят больше времени на ее веб-сайте. Ваша задача может состоять в том, чтобы выяснить, является ли это результатом изменений, внесенных в пользовательский интерфейс. Для проведения расследования Вы выдвигаете нулевые и альтернативные гипотезы. Затем Вы проверяете, является ли наблюдение на основе данных статистически значимым или случайным.

В этом проекте Вы научитесь формулировать гипотезы и проверять их на статистическую значимость. Вам предстоит работать с данными популярного телешоу «Jeopardy!!» Вы проверите, должен ли участник, появляющийся в шоу, сосредоточиться на определенной предметной области, определенных типах вопросов и вопросах, имеющих определенную денежную ценность.

Вот исходный код, инструкции и данные для этого проекта:

14. Прогнозирование цен продажи кондоминиума с помощью R

Аналитики данных часто работают над задачами прогнозного анализа. Язык программирования R также отлично подходит для прогнозной аналитики. Имеет множество хорошо разработанных пакетов для машинного обучения.

В этом проекте по анализу данных Вы узнаете, как использовать пакеты машинного обучения R для прогнозирования. 

Вот ссылки на исходный код, инструкции и данные для этого проекта:

15. Анализ данных о лесных пожарах с помощью R

Визуализация данных — очень важный навык анализа данных. Мы можем легко выявить закономерности и тенденции в данных, если они представлены визуально. 

Язык программирования R — очень мощный инструмент для визуализации данных. Он имеет множество пакетов визуализации данных, и с помощью нескольких строк кода мы можем создать визуализацию любого типа.

В этом проекте Вы будете использовать пакет ggplot для выполнения исследовательского анализа данных с набором данных о лесных пожарах. Вы создадите одномерные и двумерные графики, чтобы лучше понять данные. Вы узнаете, как использовать графики визуализации для выявления выбросов. Вы создадите графические графики, чтобы ответить на такие вопросы, как, например, в какое время месяца происходит большинство пожаров и какие факторы являются причиной серьезных лесных пожаров.

Вот ссылки на источник, инструкции и данные для этого проекта:

16. Панель анализа клиентов с Tableau

В этом руководстве Вы создадите визуализации с помощью Tableau, используя данные клиентов. Вы научитесь: форматировать столбцы в Tableau; создавать карты, гистограммы, диаграммы рассеяния, кольцевые диаграммы и диаграммы-бабочки; и создайте интерактивную панель мониторинга.

Вот ссылки на видео руководство, панель мониторинга и данные для этого бесплатного проекта анализа данных с помощью Tableau:

17. Панель управления Airbnb с Таблицей 1.

Мы проведем более описательный анализ с помощью Tableau на основе данных Airbnb по районам Нью-Йорка. Этот проект двоякий. В этом разделе проекта Вы преобразуете столбцы в соответствующие типы данных и углубитесь в визуализацию географических объектов.

В конце проекта Вы создадите карту средних цен на аренду квартир Airbnb на основе их почтовых индексов, а также горизонтальные гистограммы регионов с самым высоким рейтингом и наличием кроватей.

Вот ссылки на видеоруководство, панель мониторинга и данные для этого бесплатного проекта анализа данных с помощью Tableau:

18. Панель управления Airbnb с Tableau 2.

В этом разделе проекта мы построим диаграмму временных рядов для анализа изменения средней стоимости аренды. Вы изучите методы форматирования диаграмм, которые позволят вам создавать визуализации, точно передающие ваши результаты. Далее Вы узнаете, как создать панель мониторинга со всеми созданными вами диаграммами и как использовать фильтры, чтобы сделать ее интерактивной.

Вот ссылки на видео руководство, панель мониторинга и данные для этого бесплатного проекта анализа данных с помощью Tableau:

19. Отчет Power BI и информационная панель для Domino's Pizza.

В этом проекте Вы создадите отчет и панель мониторинга Power BI с данными о продажах Domino's Pizza. Вы узнаете, как импортировать данные в Power BI, преобразовывать столбцы в соответствующие типы данных и удалять ненужные столбцы. Далее Вы узнаете, как управлять связями и использовать выражение анализа данных (DAX) Power BI для выполнения вычислений. Затем Вы узнаете, как создавать панель мониторинга и генерировать отчеты в Power BI.

Вот ссылка на руководство и данные для этого бесплатного проекта анализа данных с помощью Power BI:

20. Панель продаж Zomato с Power BI

Вот еще один проект Power BI, который поможет вам улучшить ваши навыки. В этом проекте Вы будете выступать в роли аналитика данных для клиента, который хочет открыть ресторанный бизнес в городе Бангалор. Вы создадите интерактивную панель мониторинга, которая позволит клиенту принять обоснованное решение, которое максимизирует прибыль. Ваш личный кабинет поможет клиенту выбрать тип ресторана, предпочтительное место и кухню. Панель мониторинга сообщит клиенту среднюю прибыльность и расходы клиентов, а также поможет выявить потенциальных конкурентов.

Вот ссылки на видеоруководство и данные для этого бесплатного проекта аналитики данных:

Вывод

Мы обсудили 20 интересных проектов по аналитике данных, которые охватывают как навыки, так и инструменты, которыми должны обладать аналитики данных. Эти проекты обязательно должны быть в вашем портфолио, поскольку они демонстрируют, что Вы обладаете достаточными навыками для аналитика данных.

«Удача – это то, что случается, когда подготовка встречается с возможностью»

Больше полезных статей и новостей из мира данных вам поможет подписка на мой Telegram-канал Нейрон, а также подписка на мой аккаунт на Хабре.

Успехов и всем знаний!

Комментарии (3)


  1. bulgakova92
    20.09.2023 17:27
    +3

    Супер, спасибо!


  1. IamSVP
    20.09.2023 17:27

    в заголовке корректней было бы дописать "табличных данных". Я зашел посмотреть на проекты в области CV, а их тут нет


  1. Saygin
    20.09.2023 17:27
    +1

    Полезная статья, спасибо!