Автор этого руководства по карьере в области Data Science, с которым вы можете быть знакомы по нашему переводу о вдохновляющих портфолио, начал создавать свою собственную учебную программу на магистратуру в науке о данных с помощью онлайн-курсов в 2015 году.
Чтобы составить программу, автор работал с тысячами курсов агрегатора Class Central, с его сообществом и даже основателем агрегатора. К старту нашего флагманского курса по Data Science делимся учебной программой, полностью состоящей из онлайн-курсов, в каждом из которых есть задания и видео с лекциями.
Руководство по карьере в области науки о данных Class Central представляет собой серию из шести частей, в которой рекомендуются лучшие массовые открытые онлайн-курсы для начала работы в индустрии науки о данных. Первые пять частей рекомендуют лучшие курсы по нескольким основным компетенциям в области науки о данных (программирование, статистика, процесс обработки данных, визуализация данных и машинное обучение). Заключительная часть представляет собой краткое изложение этих курсов и лучшие массовые открытые онлайн-курсы по другим ключевым темам, таким как data wrangling (т.н. "выпас данных", их первичная обработка, приведение в пригодный для анализа вид), базы данных и даже разработка программного обеспечения.
Наш выбор
Далее следуют короткие списки из трёх лучших курсов, выбранных для каждого основного предмета (с точки зрения количества курсов) в области науки о данных, перечислены ниже:
Ссылки на курсы в кратком изложении, по три лучших курса
Введение в программирование
Научитесь программировать: Основы (LPT1) и Построение процесса контроля качества (LPT2) Университета Торонто на Coursera.
Введение в интерактивное программирование на Python (часть 1) и (часть 2) от Университета Райса на Coursera.
Программирование на R от DataCamp.
Статистика и вероятность
Основы анализа данных — часть 1: Статистика с использованием R и часть 2: Инференциальная статистика от Техасского университета в Остине на edX.
Статистика со специализацией на R от Университета Дьюка на Coursera.
Введение в вероятность — науку о неопределённости Массачусетского технологического института (MIT) на edX.
Введение в науку о данных
Data Science от A до Z: включены реальные упражнения по Data Science от Кирилла Ерёменко на Udemy.
Введение в анализ данных на Udacity.
Основы науки о данных от Университета больших данных.
Визуализация данных
Визуализация данных со специализацией на Tableau от Университета Калифорнии, Дэвис, на Coursera.
Визуализация данных на ggplot2 от DataCamp.
Серия Tableau 10 (Tableau 10 A-Z и Tableau 10 Повышение квалификации) Кирилла Ерёменко и команды SuperDataScience на Udemy.
Машинное обучение
Машинное обучение от Стэнфордского университета на Coursera.
Машинное обучение, Колумбийский университет, edX
Машинное обучение от A до Z: практическое применение Python и R в науке о данных от Кирилла Ерёменко и Хаделина де Понтевеса на Udemy.
Глубокое обучение
Творческое применение глубокого обучения на TensorFlow от Kadenze.
Нейронные сети для машинного обучения от Университета Торонто на Coursera.
Глубокое обучение от A до Z: практические работы с нейросетями от Кирилла Ерёменко и Хаделина де Понтевеса на Udemy.
Лучшие, по нашему мнению, курсы из небольших предметов (с точки зрения количества курсов) в области науки о данных перечислены ниже:
Python и его инструменты
Программирование на Python от DataCamp и индивидуальные курсы pandas.
Отдельные курсы Pandas:
Основы pandas.
Манипулирование фреймом данных pandas.
Объединение фреймов данных pandas.
R и его инструменты
Программрование на R и отдельные курсы:
Манипулирование данными на R в dplyr.
Объединение данных в dplyr.
Анализ данных на R через data.table
Базы данных и SQL
Введение в базы данных от Сьенфордского Университета.
Подготовка данных
Исследовательский анализ данных
Анализ данных на R от Udacity и Facebook.
Большие данные
Максимум Hadoop — приручите свои большие данные от Фрэнка Кейна на Udemy; если вы хотите получить больше информации о конкретных инструментах, вот список других курсов Фрэнка Кейна:
Укрощение больших данных с помощью Apache Spark и Python — практическая работа.
Укрощение больших данных с помощью MapReduce и Hadoop — практическая работа.
Apache Spark 2.0 и Scala — практические работы с большими данными.
Укрощение больших данных с помощью потоков Spark и Scala — практическая работа.
Навыки работы с программным обеспечением:
Тестирование программного обеспечения от Udacity.
Отладка программного обеспечения от Udacity.
Контроль версий с помощью Git и Совместная работа на GitHub от Udacity (обновления популярного курса Udacity Как использовать Git и GitHub).
Всё остальное
Создание команды Data Science от Университета Джона Хопкинса на Coursera.
Учимся учиться: мощные ментальные инструменты, которые помогут вам освоить сложные предметы от Калифорнийского университета в Сан-Диего на Coursera.
Сдвиг сознания: преодолейте препятствия на пути к обучению и Раскройте свой скрытый потенциал от Университета Макмастера на Coursera.
С 2011 года основатель Class Central Дхавал Шах пристальнее других следит за онлайн-курсами. Дхавал лично помог мне собрать эти руководства.
Как мы выбирали курсы
Каждый курс в рамках каждого руководства должен соответствовать определённым критериям. Были критерии, относящиеся к конкретной теме, затем два общих критерия, о которых рассказывало каждое руководство:
Курс должен быть доступен по требованию или предлагаться каждые несколько месяцев.
Он должен быть интерактивным. Книги жизнеспособны в смысле обучения, но эта статья о курсах.
Мы считаем, что рассмотрели все известные курсы, которые соответствуют критериям, в каждом руководстве. Поскольку, по-видимому, имеются сотни курсов Udemy, решили рассмотреть только самые проверенные и с самым высоким рейтингом. Однако всегда существует опасность, что мы что-то упустили. Пожалуйста, сообщите нам в разделе комментариев, если мы пропустили хороший курс.
Как мы проверяли курсы
Мы собрали средние оценки и количество отзывов от Class Central и других обзорных сайтов, чтобы рассчитать средневзвешенный рейтинг каждого курса. Мы прочитали текстовые отзывы и использовали эту обратную связь, чтобы дополнить числовые оценки.
Мы сделали субъективные заключения о программе, основанные на множестве специфичных для каждого предмета факторов. Критерии, приведённые в нашем руководстве по программированию для программирования таковы:
Охват основ программирования.
Охват более продвинутых, но полезных тем.
Насколько учебная программа связана с наукой о данных?
Наш выбор
Введение в программирование
Научитесь программировать: Основы (LPT1) и Построение процесса контроля качества (LPT2) от Университета Торонто на Coursera.
Серия "Учись программировать" Университета Торонто предлагает отличное сочетание сложности содержания и возможностей для начинающих специалистов Data Science. Преподаётся Python, серия имеет средневзвешенный рейтинг 4,71 звезды по 284 отзывам.
Введение в интерактивное программирование на Python (часть 1) и (часть 2) от Университета Райса на Coursera
Интерактивная серия о прогграммировании Университета Райса на Python содержит два лучших онлайн-курса за всю историю. Они смещаются в сторону игр и интерактивных приложений, которые не столь применимы к темам в науке о данных. Сериал имеет средневзвешенный рейтинг 4,93 звезды по 6069 отзывам.
Программирование на R от DataCamp
Если вы настроены на изучение языка R, программирование на R от DataCamp эффективно сочетает в себе основы программирования и объяснения по синтаксису R. Он имеет средневзвешенный рейтинг 4,29 звезды по 14 отзывам.
Статистика и вероятность
Основы анализа данных. Часть 1: Статистика с использованием R и Часть 2: Инференциальная статистика от Техасского университета в Остине на edX.
Курсы серии UT Austin "Основы анализа данных" — два из немногих с отличными обзорами, которые также обучают статистике и вероятности с упором на программирование. Средневзвешенный рейтинг — 4,61 звезды по 28 отзывам.
Статистика со специализацией на R от Университета Дьюка на Coursera
Статистика в Университете Дьюка со специализацией R разделена на пять курсов, имеет полный учебный план с полными разделами, посвящёнными вероятности. Она имеет средневзвешенный рейтинг 3,6 звезды по 5 отзывам, но курс, на котором она основана, имеет средневзвешенный рейтинг 4,77 звезды по 60 отзывам.
Введение в вероятность — науку о неопределенности Массачусетского технологического института (MIT) на edX
Вводный курс MIT по теории вероятностей на сегодня имеет самые высокие оценки среди рассмотренных курсов. Это исключительно вероятность в мельчайших деталях, к тому же она длиннее (15 недель) и сложнее, чем у большинства массовых открытых онлайн курсов. Он имеет средневзвешенный рейтинг 4,82 звезды по 38 отзывам.
Введение в науку о данных
Data Science от A до Z: включены упражнения с реальными данными от Кирилла Ерёменко и команды SuperDataScience на Udemy
Курс отличается широтой и глубиной охвата процесса науки о данных. Рецензенты часто дают высокую оценку преподавательских способностей автора. Курс имеет средневзвешенный рейтинг 4,5 звезды по 5 078 отзывам.
Введение в анализ данных на Udacity
Введение Udacity в анализ данных освещает процесс обработки данных с использованием Python. Он имеет 5-звёздочный средневзвешенный рейтинг по 2 отзывам.
Основы науки о данных от Университета больших данных
Основы науки о данных Университета больших данных охватывают весь процесс науки о данных и представляют Python, R и ряд других инструментов с открытым исходным кодом. На сайтах обзоров, используемых для этого анализа, нет отзывов об этом курсе.
Визуализация данных
Визуализация данных со специализацией на Tableau от Университета Калифорнии в Дэвисе на Coursera
Серия из пяти курсов, визуализация данных Калифорнийского университета в Дэвисе со специализацией "Tableau", глубоко погружается в теорию визуализации. Возможности для практики Tableau предоставляются с помощью пошаговых руководств и заключительного проекта. Он имеет 4-звездочный средневзвешенный рейтинг по 2 отзывам.
Визуализация данных с помощью ggplot2 от DataCamp
Курс, одобренный создателем ggplot2 Хэдли Уикхемом, значительный объём теории в визуализации данных DataCamp преподаётся через применение ggplot2. После этих курсов вы довольно хорошо узнаете R и его причудливый синтаксис. На сайтах обзоров, которые учитывались для этого анализа, нет отзывов об этих курсах.
Серия Tableau 10 (Tableau 10 A-Z и Tableau 10 Повышение квалификации) Кирилла Ерёменко и команды SuperDataScience на Udemy.
Эффективное практическое введение, серия Tableau 10 Кирилла Ерёменко посвящена в основном инструментам Tableau, а не теории визуализации данных. Вместе эти два курса имеют средневзвешенный рейтинг 4,6 звезды по 3724 отзывам.
Машинное обучение
Машинное обучение от Стэнфордского университета на Coursera.
Машинное обучение Стэнфордского университета, преподаваемое знаменитым Эндрю Ыном, основателем Google Brain и бывшим главным научным сотрудником Baidu, охватывает все аспекты рабочего процесса машинного обучения и несколько алгоритмов. Преподаваемый в MATLAB или Octave, он имеет средневзвешенный рейтинг 4,7 звезды по 422 отзывам.
Машинное обучение от Колумбийского Университета на edX.
Более продвинутое введение, чем в Стэнфорде, курс машинного обучения от Колумбийского Университета — это более новый курс с исключительными отзывами и уважаемым преподавателем. Задания курса могут быть выполнены на Python, MATLAB или Octave. Курс имеет средневзвешенный рейтинг 4,8 звезды по 10 отзывам.
Машинное обучение от A до Z: Практическое применение Python и R в науке о данных от Кирилла Ерёменко и Хаделина де Понтевеса на Udemy.
Машинное обучение от Кирилла Ерёменко и Хаделина де Понтевеса A-Z — это впечатляюще подробное предложение, которое предоставляет инструкции как на Python, так и на R, что редко встречается, такого нельзя сказать ни о каком другом из лучших курсов. Он имеет средневзвешенный рейтинг 4,5 звезды по 8119 отзывам.
Глубокое обучение
Глубокое обучение в творчестве с помощью TensorFlow от Kadenze.
Творческие приложения глубокого обучения с помощью Tensorflow добавляют уникальный поворот в технический предмет. “Творческие приложения” вдохновляют, курс подготовлен профессионально, и преподаватель знает своё дело. Преподаваемый на Python, он имеет средневзвешенный рейтинг 4,75 звезды по 16 отзывам.
Нейронные сети для глубокого обучнеия от Университета Торонто на Coursera.
SF: Хинтон считает, что курс устарел, поэтому он был прерван, но лекции по-прежнему доступны здесь.
Учитесь у легенды. Джеффри Хинтон, "крёстный отец глубокого обучения", всемирно известен своей работой над искусственными нейронными сетями. Его нейронные сети для машинного обучения — это продвинутые занятия. Преподаваемый в Оттаве с упражнениями также на Python, он имеет средневзвешенный рейтинг 4,11 звезды по 35 отзывам.
Глубокое обучение от A до Z: искусственные нейронные сети на практике от Кирилла Еремёнко и Хаделина де Понтевеса на Udemy.
Глубокое обучение от A до Z — это доступное введение в глубокое обучение с интуитивно понятными объяснениями Кирилла Ерёменко и полезными демонстрациями кода от Хаделина де Понтевеса. Преподаваемый на Python, он имеет средневзвешенный рейтинг 4,6 звезды по 1237 отзывам.
Лучшие (с точки зрения количества) курсы для каждого из небольших предметов в области науки о данных перечислены ниже:
Python и его инструменты
Программирование на Python от DataCamp, а также отдельные курсы pandas:
Основы pandas.
Манипулирование фреймами данных pandas.
Объединение фреймов данных pandas.
Насыщенный кодом стиль объяснений DataCamp и среда программирования в браузере отлично подходят для изучения синтаксиса. Их курсы Python имеют средневзвешенный рейтинг 4,64 звезды по 14 отзывам. Введение Udacity в анализ данных, одна из наших рекомендаций в смысле вводных курсов по науке о данных, также охватывает NumPy и pandas_datareader.
R и его инструменты
Программирование на R от DataCamp, а также их индивидуальные курсы по библиотеке dplyr и data.table:
Манипулирование данными на R в dplyr.
Объединение данных на R в dplyr.
Анализ данных R через data.table.
Стиль объяснений DataCamp с большим количеством кода и среда программирования в браузере отлично подходят для изучения синтаксиса. Их трек по программированию на языке R, который также является одной из наших рекомендаций курсов программирования в целом, эффективно сочетает в себе основы программирования и инструкции по синтаксису R. Серия имеет средневзвешенный рейтинг 4,29 звезды по 14 отзывам.
Базы данных и SQL
Введение в базы данных Стэнфордского университета на Stanford OpenEdx (примечание: отзывы из устаревшей версии на Coursera).
Введение Стэнфордского университета в базы данных всесторонне охватывает теорию баз данных, одновременно внедряя несколько инструментов с открытым исходным кодом. Упражнения по программированию — это сложная задача. Дженнифер Уидом, ныне декан инженерной школы Стэнфорда, рассказывает ясно и чётко. Курс имеет средневзвешенный рейтинг 4,61 звезды по 59 отзывам.
Подготовка данных
DataCamp:
Тренинги DataCamp по импорту и очистке данных (один на Python и один на R) отлично подходят для обучения механике подготовки данных к анализу и/или визуализации. На сайтах обзоров, используемых для этого анализа, нет отзывов об этих курсах.
Исследовательский анализ данных
Анализ данных на R от Udacity и Facebook
Курс Udacity "Анализ данных на R" — это мягкое введение в исследовательский анализ данных. Интервью с экспертами Facebook, занимающимися изучением данных, вдохновляют и наводят на мысли. Курс имеет средневзвешенный рейтинг 4,58 звезды по 19 отзывам. Он также служит лёгким введением в R.
Большие данные
Максимум Hadoop на практике, укрощение больших данных от Фрэнка Кейна на Udemy; если вы хотите получить больше информации о конкретных инструментах (все от Фрэнка Кейна на Udemy):
Укрощение больших данных с помощью Apache Spark и Python — практическая работа.
Укрощение больших данных с помощью MapReduce и Hadoop — практическая работа.
Apache Spark 2.0 и Scala — Практические работы с большими данными.
Укрощение больших данных с помощью потоков Spark и Scala — практическая работа.
В серии "Большие данные" Фрэнка Кейна преподаются все самые популярные технологии работы с большими данными, включая более 25 только на курсе "Максимум Hadoop на практике". Кейн делится своими знаниями, полученными за десятилетний опыт работы с распределёнными системами в компаниях Amazon и IMDb. Вместе эти курсы имеют средневзвешенную оценку 4,52 звезды по 6 932 отзывам.
Навыки работы с программным обеспечением
Тестирование программного обеспечения от Udacity.
Отладка программного обеспечения от Udacity.
GitHub и совместная работа от Udacity (обновление популярного курса Udacity Как пользоваться Git & GitHub).
Навыки работы с программным обеспечением — это часто упускаемая из виду часть образовательного процесса в области науки о данных. Курсы Udacity по тестированию, отладке и контролю версий знакомят с тремя основными темами, актуальными для всех, кто имеет дело с кодом, особенно для тех, кто работает в командной среде. Вместе эти курсы имеют средневзвешенный рейтинг 4,34 звезды по 68 отзывам. В Georgia Tech и Udacity есть новый курс, который охватывает тестирование и отладку программного обеспечения, хотя он более продвинутый и не во всём подходит специалистам по Data Science.
Всё остальное
Создание команды специалистов в Data Science Университета Джона Хопкинса на Coursera.
Учимся учиться: мощные ментальные инструменты, которые помогут вам освоить сложные предметы от Калифорнийского университета в Сан-Диего на Coursera.
Сдвиг сознания: преодолейте препятствия на пути к обучению и Раскройте свой скрытый потенциал от Университета Макмастера на Coursera.
В книге "Создание команды специалистов в Data Science", подготовленной Университетом Джона Хопкинса, даётся полезный обзор практического применения науки о данных. Это очень короткий курс, который можно пройти за несколько часов и прослушать бесплатно. Не обращайте внимания на его средневзвешенный рейтинг в 3,41 звезды по 12 отзывам, некоторые из которых, вероятно, были получены от заплативших клиентов.
Курсы доктора Барбары Оакли "Как учиться" и Mindshift (Сдвиг сознания) — это не курсы по науке о данных как таковые. Курс "Как учиться", самый популярный онлайн-курс, охватывает лучшие методы, которые, как показали исследования, наиболее эффективны для освоения сложных предметов, включая техники запоминания и борьбу с прокрастинацией. В книге "Mindshift" она рассказывает, как извлечь максимальную пользу из онлайн-обучения и массовых открытых курсов онлайн, как искать наставников и работать с ними, а также секреты о том, как избежать карьерной колеи и вообще колеи в жизни. Это два курса, которые должен пройти каждый. Их средневзвешенный рейтинг 4,74 звезды и 4,87 звезды по 959 и 407 отзывам соответственно.
Если вы хотите шаг за шагом приобрести системные знания в одном месте, а не привыкать к манере обучения разных людей от курса к курсу, то можете обратить внимание на наш курс по Data Science, где вы на практике научитесь извлекать из данных пользу и решать задачи бизнеса, а также сможете приобрести специализацию в машинном обучении; а ещё можно узнать, как прокачаться или начать карьеру в других направлениях:
Data Science и Machine Learning
Python, веб-разработка
Мобильная разработка
Java и C#
От основ — в глубину
А также: