Курс «Специалист по Data Science» — один из первых в Яндекс Практикуме. Он запустился в 2019 году — за это время рынок и требования работодателей поменялись, а значит, должны меняться и учебные программы.

На связи команда курса — сегодня мы расскажем, почему сделали программу длиннее, какие темы добавили и как приступить к обучению, если захотите присоединиться.

Как устроен курс

Профессию «Специалист по Data Science» можно освоить на базовом и расширенном курсах. Базовый курс состоит из пяти модулей и длится 13 месяцев.

Обучение на расширенном курсе рассчитано на 17 месяцев — этого времени хватает, чтобы спокойно освоить базовый материал, закрепить его на практике и углубиться в более продвинутые темы. В последнем модуле вы получите больше практики и разберётесь с современными инструментами Data Science, которые пригодятся в сложных проектах и помогут уверенно чувствовать себя в профессии.

Вот так будет выглядеть ваш образовательный путь на базовом курсе:

А так — на расширенном:

Каждый модуль делится на спринты — это примерно две-три недели учёбы. В течение спринта вы изучаете теорию на платформе и выполняете практические задания.

Проекты — важная часть образовательной программы. Они помогут применить полученные навыки и закрепить знания. В программе есть несколько типов проектов: проекты спринта, итоговые проекты модулей и финальный дипломный проект.

Все проекты проходят проверку — часть из них автоматически в тренажёре, а более сложные задания оценивают эксперты-ревьюеры с подробной обратной связью. На базовом тарифе вас ждёт 17 проектов, а в расширенном — 22. Готовые проекты вы сможете добавить в своё портфолио.

Что изменилось

Кратко расскажем об основных нововведениях.

Добавили новые темы

Новая программа спроектирована в проблемно-ориентированном подходе. Это значит, что учебный процесс построен вокруг решения реальных задач, с которыми сталкивается дата-сайентист в своей рабочей практике. Этот подход позволяет выстроить обучение вокруг практики и регулировать количество теории.

Чтобы выявить набор этих рабочих задач, мы провели JMF-исследование, интервью с нанимающими менеджерами и сформировали карту навыков — набор знаний и умений, которыми должен обладать джуниор в Data Science.

Вот главные из новых тем.

  • Инструменты разработки и Git. Кажется, что это база, мимо которой пройти нельзя. Мы и не проходили, но раньше эти темы давались фрагментами, не всегда в самых удачных местах. Некоторые мы оставляли студентам для самостоятельного изучения. А ведь тот же Git может оказаться сложным для человека без опыта. Теперь инструментам разработки на курсе посвящён отдельный спринт, в котором мы разбираем работу в терминале, настройку виртуального окружения и работу с системами контроля версий на примере Git. Для специалиста по Data Science особенно важно уметь создавать собственное виртуальное окружение, поскольку разные задачи предполагают использование разных библиотек, которые не всегда совместимы друг с другом. Кроме того, библиотеки постоянно обновляются, из-за чего могут перестать работать с другими инструментами. Использование систем контроля версий, таких как Git, считается стандартом и частью культуры работы в современных проектах в Data Science.

  • Python (углублённый). Раньше курс ограничивался базовым Python для анализа данных. Но уровень входных требований в сфере постепенно растёт, и теперь если выпускник онлайн-курса хочет конкурировать с выпускником вуза, то должен знать язык на более глубоком уровне. Поэтому мы существенно расширили раздел: добавили темы, связанные с объектно-ориентированным программированием (ООП), — классы, наследование, инкапсуляцию. Студенты учатся создавать собственные классы, что важно при написании кастомных моделей и обработчиков данных. Мы также даём общее представление о том, как выглядит структурированный и масштабируемый код, чтобы студенту было проще понимать, как устроены более сложные ML-системы и как к ним подступаться.

  • MLflow. Сейчас в индустрии важно не просто обучать модели, а уметь управлять их жизненным циклом: отслеживать параметры, метрики и артефакты, версионировать модели и обеспечивать воспроизводимость. Всё это решается с помощью MLflow — популярного инструмента для трекинга экспериментов. В курсе мы учим, как использовать MLflow в реальных проектах: от простого логирования метрик до мониторинга экспериментов с разными параметрами.

  • Airflow. Airflow — инструмент для оркестрации данных, который позволяет автоматизировать сложные пайплайны. В рамках нашего курса мы используем Airflow для настройки планирования задач, таких как регулярное обучение моделей и подготовка данных. Мы объясняем, как выстраиваются зависимости между шагами, как работают DAG'и и как управлять процессами в продакшене.

  • Основы Deep Learning и работа с современными моделями. В курс добавлен обзорный модуль, посвящённый основам глубокого обучения. Студенты знакомятся с базовыми принципами работы нейросетей, типами архитектур и подходами к обучению моделей. Отдельное внимание уделяется применению моделей в задачах обработки текста (NLP) и компьютерного зрения (CV). Мы не углубляемся в математику, но даём общее понимание, как устроены такие системы и где они применяются. В рамках модуля используются библиотеки PyTorch и Transformers — на их примере показываем, как запускать готовые модели, адаптировать их под свои задачи и использовать в простых прототипах. Это вводный блок, который помогает сформировать общее представление о Deep Learning и современных инструментах, с которыми сегодня работает индустрия.

Расширенный курс дополняет портрет выпускника дополнительными важными навыками:

  • работа с большими данными,

  • трекинг экспериментов с моделями,

  • основы нейронных сетей для текстов и изображений,

  • рекомендательные системы.

Этот набор дополнительных навыков повышает конкурентоспособность на рынке труда.

Переориентировались на жизненный цикл ML-модели

Кроме карты навыков, в основу проектирования программы лёг жизненный цикл ML-модели. Это значит, что модули программы выстроены так, что студент пройдёт все этапы работы с моделью:

  • сбор данных,

  • предобработку данных,

  • исследовательский анализ данных,

  • подготовку данных к обучению,

  • обучение модели и эксперименты с параметрами,

  • валидацию и тестирование,

  • внедрение,

  • мониторинг.

Мы начинаем со сбора и анализа данных — универсальных принципов работы с данными, которые применимы для любых моделей. Во второй части курса разбираем классический Machine Learning: линейные модели, модели на основе деревьев решений, бустинги и градиентный бустинг. В базовую часть также вошли задачи обучения без учителя.

Последний модуль базового курса посвящён внедрению, мониторингу и анализу готовых моделей. В итоге к концу курса студенты будут владеть важными инженерными навыками, которые позволяют завершить жизненный цикл ML-проекта.

Увеличили длительность курса

Раньше программа курса была составлена с расчётом на 20 часов обучения в неделю. Это много, учитывая, что специальность когнитивно сложная и на освоение некоторых тем студентам без опыта требуется ещё больше времени. У нас было много обратной связи от студентов о том, что темп обучения очень высокий и неравномерный. На освоение некоторых тем давалось меньше времени, чем действительно нужно.

В новой программе мы сбалансировали нагрузку и темп обучения. Сейчас программа рассчитана на 10–15 часов обучения в неделю, и эта нагрузка стабильна. Мы предполагаем, что это поможет нашим студентам грамотно организовать своё расписание, чтобы сохранять баланс работы и отдыха, а также сформировать привычку учиться.

Из-за снижения темпа и добавления новых тем и проектов продолжительность базового курса по Data Science увеличилась с 8 до 13 месяцев. Но от этого курс стал только лучше.

Рассказываем о математике через практику

Специалисты по Data Science работают с данными, опираясь на математику и статистику. Они нужны для двух типов задач:

  • для анализа данных, выявления закономерностей и проверки гипотез;

  • для создания моделей с опорой на статистические методы, линейную алгебру и теорию вероятностей.

В новой версии курса мы старались не давать математику ради математики. Большинство учебных спринтов содержат математический слой, то есть разбор тех аспектов математической теории, которые нужны для выполнения задачи и понимания изучаемого алгоритма машинного обучения.

Например, разбирая модель линейной регрессии, студенты изучают производные в математике, матрицы и алгоритм градиентного спуска. Это базовый математический аппарат, которым необходимо овладеть, чтобы решать задачу линейной регрессии.

При этом всю математику наши авторы стараются объяснять на простых примерах и визуализациях, которые помогают понять сложные математические концепции.

Добавили больше анализа

Аналитическое мышление — важный навык дата-сайентиста, который формируется в процессе работы с данными. Студентов обновлённого курса ждёт исследовательский анализ данных практически во всех спринтах.

Добавили проекты из разных сфер

Специалисты по Data Science могут работать в разных сферах, а значит, учебные задачи должны охватывать разные предметные области. При проектировании программы мы учитываем этот момент и даём учебные проекты на данных из коммерческой сферы (маркетплейсы), разработки игр, банкинга, HR-аналитики и других предметных областей.

Вложились не только в базу, но и в будущую карьеру

Интервью с выпускниками прошлых лет показало, что после конца обучения часть студентов делала паузу, чтобы сделать рекап всех своих знаний и подготовиться к будущим собеседованиям. В рамках cпринта «Подготовка к собеседованию» мы помогаем решить эту задачу с нашим полным сопровождением. Спринт включает разбор наиболее популярных вопросов на интервью по машинному обучению, SQL, Python и другим темам.

Помимо стандартного карьерного трека с подготовкой резюме, написанием сопроводительных писем и пробными интервью, мы включим и другие уроки — в частности, расскажем, как использовать в Data Science свой опыт из предыдущих профессий. У многих студентов уже есть важные навыки: критическое мышление, умение коммуницировать со стейкхолдерами, определять и рассчитывать сроки. Мы учим искать этот опыт у себя и правильно доносить его до будущего работодателя.

Как пройти обновлённый курс

Мы ждём новых студентов и готовы следить за вашими успехами — как при прохождении курса, так и за теми, которые вы покажете на рынке труда после обучения.

Начать учиться можно бесплатно и не привязывая карту. В открытой части курса «Специалист по Data Science» вы познакомитесь с основными концепциями Data Science и анализа данных, решите первые аналитические задачи с помощью Python и поймёте, подходит ли вам такой формат обучения.

Комментарии (0)