Почему анализ данных


Потребность в анализе данных вышла далеко за пределы технологических и интернет-компаний. Методы машинного обучения все активнее используются в совершенно различных областях, вплоть до оптимизации маршрутов транспорта. С их помощью создаются новые лекарства и автомобили без водителя, подбирается музыка под настроение, находятся потенциальные спутники жизни.

Специалист по анализу данных или data scientist – одна из самых востребованных профессий сегодняшнего дня. За реальных практиков, умеющих получать значимые результаты в сжатые сроки, идет настоящая борьба, и стоимость таких специалистов взлетает до небес.

Также интерес подогревают государственные и коммерческие структуры, которые не только говорят об этих специальностях, но и уже готовятся к проведению первых олимпиад по ним.

Что же скрывается за этими словами, все ли понимают их значение? К сожалению, нередко к ним относятся как к некому волшебному ингредиенту, который решит все проблемы. Не осознаются ни границы его применения, ни порядок действий, чтобы использовать их «здесь и сейчас».

Пришла пора внести ясность в этот вопрос.

image



Где можно научиться этому сейчас


Анализ данных – область знаний, по которой понимание “как этому учить” только формируется. Ведущие вузы создают магистерские программы, но, к сожалению, не всегда успевают за новыми подходами и инструментами.

Поэтому самое правильное место для обучения – это высокотехнологичные компании, в которых работа с данными есть сама суть бизнеса. И одной из таких компаний, без сомнения, является Яндекс.

Объединив усилия ведущих ученых из МФТИ и реальных исследователей-практиков из Яндекса, мы подготовили специализацию по машинному обучению и анализу данных, которая позволит вам освоить новую профессию и сделать первые шаги в этой интереснейшей области.

А учить этому будут:
  • Константин Воронцов – доктор физико-математических наук, профессор РАН, заведующий отделом Интеллектуальных систем ФИЦ ИУ РАН, преподаватель ШАД
  • Вадим Стрижов – доктор физико-математических наук, доцент МФТИ, ведущий научный сотрудник ФИЦ ИУ РАН
  • Евгений Рябенко – кандидат физико-математических наук, доцент МФТИ, преподаватель ВМК МГУ, ШАД, data scientist Yandex Data Factory
  • Евгений Соколов – преподаватель ВМК МГУ, ВШЭ, ШАД, руководитель исследовательской группы Yandex Data Factory
  • Виктор Кантор – старший преподаватель ФИВТ МФТИ, преподаватель ШАД, руководитель исследовательской группы Yandex Data Factory
  • Эмели Драль – преподаватель ФИВТ МФТИ, РУДН, data scientist Yandex Data Factory


Как проходит обучение и как устроен курс


Наша специализация состоит из пяти курсов и финального проекта.
  • В первом курсе мы расскажем основные факты из математики, без которых сложно что-либо понять в анализе данных, и научим программировать на языке Python.
  • Во втором займёмся обучением на размеченных данных или обучением с учителем — разберёмся, как по набору примеров строить предсказывающие модели и оценивать их качество.
  • В третьем курсе мы поговорим о поиске структуры в данных: как делать кластеризацию, как понижать размерность данных и искать аномалии.
  • Четвёртый курс посвящён искусству превращения данных в выводы: мы освоим методы статистического анализа и планирования экспериментов.
  • В пятом курсе мы подробно разберём несколько крупных типовых задач анализа данных, таких как прогнозирование временных рядов или анализ текстов.

Каждый из курсов мы постарались сделать предельно насыщенным и лаконичным – таким, чтобы человек смог освоить его в среднем темпе за месяц. Таким образом, на прохождение всей специализации в среднем темпе уйдет полгода. Однако реальная скорость зависит только от мотивации и настойчивости слушателя!

Для курса были отобраны только те методики и инструменты, которые хорошо работают на практике и используются реальными исследователями в ежедневной работе. Многие данные, с которыми придется работать во время курса, взяты из настоящих проектов – только так можно понять и прочувствовать, “как оно бывает на самом деле”.

Финальный проект позволит применить полученные знания к реальным данным одной из практических областей: электронная коммерция, социальные медиа, информационный поиск, бизнес-аналитика и др. Работа над проектом даст возможность самостоятельно пройти все этапы анализа данных – от подготовки данных до построения финальной модели и оценки её качества. В результате в портфолио появится проект, который смело можно будет указать в резюме и показать работодателю на собеседовании.

Как и во всех курсах на платформе Coursera, основу составляют видеоматериалы, которые чередуются с различными видами активностей – от тестов, которые позволяют проверить знания и понимание, до программируемых заданий с автоматической проверкой и заданий на взаимную оценку.

Понимая, что слушатели могут начать обучение с очень разным бэкграундом, первый курс специализации мы сделали вводным, решающим две задачи. Во-первых, он помогает освежить знания о базовых математических понятиях, которые нам понадобятся в дальнейшем. А во-вторых, получить базовые навыки работы с языком Python и специальными библиотеками для анализа данных.

Чтобы сохранить практическую направленность специализации, и не утонуть в формализме, даже в первом курсе многие понятия вводятся «на пальцах», с упором на интуитивное понимание. Приверженцы математического формализма могут пока обратиться к онлайн-курсам от кафедры дискретной математики на Coursera или национальной платформе открытого образования. Также совсем скоро на Лектории МФТИ появятся полные строгие курсы по математическому анализу, линейной алгебре и дифференциальному исчислению.

Идеальная цель всего нашего проекта — сделать так, чтобы слушатели могли пройти собеседование на позицию data scientist (уровня, соответствующего их профессиональному опыту). При этом наша аудитория не обязательно хочет менять работу, кому-то будет достаточно обновить методический инструментарий и получить более эффективные решения своих стандартных рабочих задач. Но, в любом случае, выпускник специализации должен соответствовать входным стандартам нашей профессии.

Когда и как можно начать


Специализация уже доступна и обучение на ее первом курсе начнется 9 февраля. Как и для остальных специализаций на платформе Coursera, для нашей есть обязательное условие со стороны платформы: если слушатель хочет пройти всю специализацию и иметь возможность выполнить выпускной проект, нужно пройти все курсы в режиме подтверждения личности.

Большая часть материалов курсов специализации доступна бесплатно, однако ряд заданий, прохождение которых нужно для получения сертификата, помечены “замком” и доступны только после оплаты. Если слушатель хочет получить доступ ко всем заданиям и сертификату, но не имеете возможности оплатить их, можно воспользоваться программой финансовой поддержки (Coursera Financial Aid). Для получения помощи от Coursera, он должен заполнить краткую заявку с описанием своего финансового положения и причиной для зачисления на курс. Очень схожая практика используется при запросе финансовой помощи при поступлении в американские вузы. В прошлом году более 100 тысяч заявок было одобрено. Чтобы подать заявку, нужно пройти по ссылке под кнопкой “Зарегистрироваться” на странице специализации.

Вперед к новым знаниям – начать учиться!

P.S. Для тех, кто хотел бы получить поддержку тьютора во время прохождения курса и персональную сдачу экзаменов с получением удостоверения государственного образца о профессиональной переподготовке, мы прорабатываем специальную программу. Если вам это интересно – предлагаем заполнить небольшую анкету

UPD: добавили информацию о содержании курсов специализации и ее целях
UPD 2: студентам МФТИ специализация в полном объеме доступна бесплатно. Чтобы активировать эту возможность нужно на почту mooc@phystech.edu написать.

Комментарии (41)


  1. nikitasius
    09.02.2016 18:32
    +3

    Эхх… как хорошо было в физтехе, можно было играть в квейк2 с против препода на пиво, качать с инета на дискетки (пока его не отрубили за перебор траффика).
    Трава была зеленая, а инет был adsl.