Специализация по машинному обучению на Coursera от Физтеха и Яндекса / forpes.ru

Главная
Специализация по машинному обучению на Coursera от Физтеха и Яндекса

Специализация по машинному обучению на Coursera от Физтеха и Яндекса +38

17.02.2016 15:10

Zalina 47 21000 Источник

В начале года на Coursera открылся курс по машинному обучению от Яндекса и Вышки, о котором мы уже рассказывали. К моменту старта на него записались 14000 человек. Через час после открытия пользователи создали канал в Slack, где стали обсуждать программу. Сейчас слушателей уже 21000.

9 февраля на платформе стала доступна запись на специализацию по машинному обучению, которая разрабатывается нашими специалистами уже совместно с Физтехом. Она устроена таким образом, чтобы помочь слушателям плавно погрузиться в тему.

Специализация «Машинное обучение и анализ данных» состоит из пяти курсов и работой над собственным проектом. Обучение будет длиться несколько месяцев. Записаться на него можно до 19 февраля. Если вы не успеете это сделать, с 14 марта можно будет записаться на второй поток.

Авторы курса — сотрудники Яндекса, специалисты Yandex Data Factory, которые преподают на Физтехе. Константин Воронцов тоже среди них. Мы попросили некоторых из коллег рассказать, кому может быть полезна специализация и для чего она нужна. Также под катом — программа всех курсов.

Виктор Кантор – старший преподаватель кафедры «Алгоритмы и технологии программирования» ФИВТ МФТИ, руководитель группы анализа пользовательских данных в Yandex Data Factory. Ведет лекции и семинары в МФТИ на кафедрах «Алгоритмы и технологии программирования», «Анализ данных», «Банковские информационные технологии», также преподавал на кафедрах «Компьютерная лингвистика» и «Распознавание изображений и обработка текстов».

В нашей специализации решены проблемы, которые мы наиболее часто наблюдаем в подготовке специалистов в области анализа данных.

Она сразу дает необходимые знания о Python и библиотеках анализа данных, чтобы в дальнейшем теория не отрывалась от практики.

Мы сразу напоминаем вам необходимую в дальнейшем математику, чтобы не устраивать профанаций вроде: «Ой, это матрицы. Ну, неважно, что вы не помните, что с ними можно делать — все равно будете умножать их на компьютере». Мы хотим, чтобы вы понимали рассказанные нами методы.

Мы рассказываем вам о тех из них, которые часто используются на практике, а не те, которые нам просто больше захотелось рассказать.

Мы научим вас правильно делать выводы из данных с помощью статистики и не допускать распространенные ошибки.

Мы разберем очень много прикладных задач, на примере которых вы узнаете, как же применить все то, что вы выучили.

Евгений Рябенко — ведущий аналитик Yandex Data Factory, кандидат физико-математических наук, доцент МФТИ. Читает лекции по прикладной статистике на факультетах ВМК МГУ и ФУПМ МФТИ. Преподаватель Школы анализа данных Яндекса.

Различия между курсом Вышки и нашей специализацией не только в темпе преподавания, но и в рассматриваемых темах. Курс Константина Вячеславовича посвящён машинному обучению. Это достаточно современная научная область, но за годы её существования уже сложился определённый академический канон её преподавания: сначала объясняются простейшие методы, затем на их основе строятся более сложные, а где-то в конце мы добираемся до state-of-the-art техник, позволяющих получать действительно высококачественные результаты в прикладных задачах. Грубо говоря, машинное обучение преподаётся как математический анализ.

В нашей специализации мы пытаемся дать более сложную и полную картину науки о данных (data science), в которой машинное обучение — один из важнейших, но, тем не менее, не единственный компонент. Никакого канонического корпуса тем науки о данных на сегодняшний день не существует, но мы с коллегами как практики имеем некоторое представление о вещах, с которыми так или иначе в прикладных задачах приходится сталкиваться, и хотим рассказать именно о них. Например, у нас будет отдельный курс, посвящённый техникам построения экспериментов для сбора данных и методам интерпретации результатов моделирования — это область применения статистики. Что касается самого машинного обучения, то в нашей специализации мы расширяем круг рассматриваемых у Вышки тем и уделяем, например, большое внимание задачам обучения без учителя, где также есть много важных постановок, активно использующихся в индустрии, — кластеризация, поиск аномалий, извлечение структуры из текстов. Некоторые важные темы — например, композиции алгоритмов — будут рассматриваться значительно подробнее, в соответствии с их практической значимостью.

Отправной точкой всего обучения мы видим прикладные задачи. Мы будем рассматривать важнейшие постановки, наиболее часто возникающие в науке о данных независимо от конкретных прикладных областей. Задачи построения рекомендательных систем или прогнозирования временных рядов можно решать разными методами машинного обучения, иногда лучше себя показывают одни, иногда — другие. Мы хотим научить слушателей видеть, как такие задачи сводятся к математическим постановкам, какие методы анализа имеет смысл попробовать, и как в итоге выбрать лучший.

Евгений Соколов — руководитель группы анализа неструктурированных данных в Yandex Data Factory. В 2013 году окончил ВМиК МГУ, где сейчас пишет диссертацию о матричных разложениях. Ведет на факультете практические занятия по машинному обучению и читает лекции на ФКН ВШЭ. Преподаватель Школы анализа данных Яндекса.

Когда запустился курс по машинному обучению от Вышки, нам стало понятно, что многим людям нужно плавное погружение в тему. Курс оказался для многих непростым, потому что такой формат сделал его очень концентрированным. Есть те, кто жаловался на слишком большое количество сложной математики или необходимость хорошо знать Python. Специализации состоят из нескольких курсов и позволяют сделать обучение плавным. Первый курс помогает людям втянуться, обучает Python и необходимой математике (чтобы никто не пугался слов «производная» и «вектор»). Часть, где мы рассказываем о базовом машинном обучении, состоит из двух курсов. Кроме того, формат специализации позволил нам охватить другие полезные области анализа данных, которые нужны на практике. Также здесь есть один большой проект и дополнительные курсы.

Эмели Драль – ведущий аналитик Yandex Data Factory. Окончила факультет физико-математических и естественных наук РУДН, кафедра «Информационные технологии». Разрабатывала учебные материалы и вела такие курсы, как «Технологии разработки программных систем», «Объектно-ориентированный подход к разработке программных систем», «Методы интеллектуального поиска». В МФТИ ведет семинары курса «Машинное обучение» на ФИВТ, кафедра «Алгоритмы и технологии программирования».

Специализация и курс отличаются задачами, которые они решают. Мне очень нравится курс от Вышки — он достаточно фундаментальный. В нем есть формализованные математические постановки задач, описываются структуры алгоритмов, математика, которая за ним стоит. Этот курс, на мой взгляд, подойдет для достаточно подготовленного слушателя, который не просто собирается использовать какие-то алгоритмы машинного обучения, но и хочет понимать, как они устроены. Для этого необходимо владеть соответствующим математическим аппаратом.

Специализация даёт нам возможность перед переходом к сложным вопросам рассмотреть ещё и простые, которые помогут тем, у кого нет теоретических знаний и практического опыта, и тем, кто что-то забыл. Мы напомним об интересных фактах из линейной алгебры, математического анализа и статистики и, например, расскажем о проверке гипотез. Многие могут эти вещи забыть, потому что изучали их довольно давно, а в жизни никогда с этим не работали. У нас более низкий темп, но при этом и порог вхождения — ниже.

Кроме того, изложение в специализации тоже построено немного иначе. Мы стараемся сделать так, чтобы все вещи, которые мы используем, были интуитивными.

Курс 1. Математика и Python для анализа данных

В этом курсе вы познакомитесь с фундаментальными математическими понятиями, необходимыми для анализа данных, и получите начальный навык программирования на Python. Курс состоит из двух больших частей. Первая часть курса – практическая, она посвящена языку программирования Python. Вы познакомитесь с синтаксисом и идеологией языка, научитесь писать простые программы. Также вы узнаете о библиотеках, которые часто применяются на практике для анализа данных, например, NumPy, SciPy, Matplotlib и Pandas. Вторая часть курса посвящена таким разделам математики как линейная алгебра, математический анализ, методы оптимизации и теория вероятностей. При этом, упор делается на разъяснение математических понятий и их применение на практике, а не на вывод сложных формул и доказательство теорем.

Курс 2. Обучение на размеченных данных

В центре нашего внимания будут успешно применяемые на практике алгоритмы классификации и регрессии: линейные модели, нейронные сети, решающие деревья и так далее. Особый акцент мы сделаем на такой мощной технике как построение композиций, которая позволяет существенно повысить качество отдельных алгоритмов и широко используется при решении прикладных задач. В частности, мы узнаем про случайные леса и про метод градиентного бустинга.

Построение предсказывающих алгоритмов — это лишь часть работы при решении задачи анализа данных. Мы разберемся и с другими этапами: оценивание обобщающей способности алгоритмов, подбор параметров модели, выбор и подсчет метрик качества.

Курс 3. Поиск структуры в данных

Из этого курса вы узнаете об алгоритмах кластеризации данных, с помощью которых, например, можно искать группы схожих клиентов мобильного оператора. Вы научитесь строить матричные разложения и решать задачу тематического моделирования, понижать размерность данных, искать аномалии и визуализировать многомерные данные.

Курс 4. Построение выводов по данным

Влияет ли знание методов анализа данных на уровень заработной платы? Работает ли система оценки кредитоспособности клиентов банка? Действительно ли новый баннер лучше старого? Чтобы ответить на такие вопросы, нужно собрать данные. Данные почти всегда содержат шум, поэтому утверждения, которые можно сделать на их основе, верны не всегда, а только с определённой вероятностью. Строить наиболее корректные выводы и численно оценивать степень уверенности в них помогают методы статистики.

Как можно оценивать неизвестные параметры системы по небольшому количеству наблюдений? Как измерить точность таких оценок? Какие данные нужны, чтобы ответить на ваш вопрос, и на какие вопросы можно ответить с помощью уже имеющихся данных? Вы узнаете все, что нужно для успешного превращения данных в выводы — организация экспериментов, A/B-тестирование, универсальные методы оценки параметров и проверки гипотез, корреляции и причинно-следственные связи.

Курс 5. Прикладные задачи анализа данных

В этом курсе мы разберем прикладные задачи из различных областей анализа данных: анализ текста и информационный поиск, коллаборативная фильтрация и рекомендательные системы, бизнес-аналитика, прогнозирование временных рядов. На их примере вы узнаете, как извлекать признаки из разнородных данных, какие при этом возникают проблемы и как их решать. Вы научитесь сводить задачу заказчика к формальной постановке задачи машинного обучения и поймёте, как проверять качество построенной модели на исторических данных и в онлайн-эксперименте. На каждой задаче мы изучим плюсы и минусы пройденных алгоритмов машинного обучения.

Прослушав этот курс, вы познакомитесь с распространенными типами прикладных задач и будете понимать схемы их решения.

Анализ данных: финальный проект

В отличие от задач, основанных на модельных данных, работа над проектом из реальной жизни даст вам возможность самостоятельно пройти все этапы анализа данных — от подготовки данных до построения финальной модели и оценки её качества. В результате в вашем арсенале появится проект, который вы сможете использовать на практике и самостоятельно развивать в дальнейшем.

Идеальная цель нашей специализации — сделать так, чтобы слушатель смог пройти собеседование на позицию Data Scientist уровня, который соответствует его профессиональному опыту. Вы освоите науку о данных и научитесь решать с помощью ее методов аналитические задачи — от сбора данных до построения оптимальной модели и оценки ее качества. Больше подробностей и запись — на странице специализации на Coursera.

Комментарии (47)

SergeyMeo
18.02.2016 22:04
#8777817
Думаю будет очень интересно если кто-то сможет дать качественное сравнение этого курса с существующими на Coursera крайне популярными Machine Learning от Andrew Ng и Neural Networks in ML от одного из уважаемых отцов основателей теории NN Geoffrey Hinton'а
1. brainick
  18.02.2016 22:12
  #8777823
  Cуперкачественного дать не смогу, но вот такое замечание сделать могу.
  Andrew Ng работает в Octave и предпочитает реализовывать алгоритмы на более низком уровне, нежели это делается в этом курсе. Тут сразу пользуются готовыми алгоритмами из библиотек.
  1. SergeyMeo
    18.02.2016 22:33
    #8777837
    Спасибо за замечание. При беглом взгляде мне показалось что курс от Яндекса-Физтеха более глубокий в деталях. Не думал что они пользуются готовыми реализациями алгоритмов.
    
    То что Andrew Ng работает в Octave — не проблема. Погуглив можно найти полностью реализацию на питоне с возможностью отправлять результаты упражнений на проверочные сервера
    
    Evg_Sokolov
    18.02.2016 22:55
    #8777863
    +2
    В следующих курсах у нас будут задания обоих типов — и на использование готовых библиотек/инструментов, и на самостоятельную реализацию методов (там, где это имеет смысл и помогает лучше разобраться в материале).

lexnekr
19.02.2016 09:48
#8778159
+1
Очень обрадовался, когда увидел специализацию, записался на 1й курс.
Но есть серьёзная проблема с "бесплатностью" (я обычно не брюзжу на эту тему, т.к. знания ценнее бумажки и я прошёл несколько курсов на курсере без подтверждения).
Но в данном случае без оплаты заблокирована сдача проверочных заданий (кроме самых уж элементарных вопросов-тестов). Получается что практиковаться можно только вслепую, без проверки усвоенного материала однокурсниками.
А платить 22К+ за специализацию, которая может оказаться пустышкой… Блин, дорого.
Запрашивать финансовую помощь в данном случае… Теоретически я могу оплатить эту специализацию. Но я не уверен, что она мне поможет карьерно/финансово, а без этого выкинуть 23К дорого.

Претензия не к вам, скорее к Курсере, ведь раньше такого формата не было, задания всегда были доступны, блокировался только дипломный проект.
1. SergeyMeo
  19.02.2016 11:55
  #8778341
  Думаю все же претензия к организаторам специализации. На Курсере полно специализайций без блокировки заданий в бесплатной версии
  1. brainick
    19.02.2016 12:54
    #8778409
    Тоже вот удивился. Для интереса попробовал свеженькую специализацию
    Python for Everybody Specialization https://www.coursera.org/specializations/python — 4 курса + финальный проект. Ни в одном из 4 курсов нет никаких блокировок заданий в бесплатном варианте. Записался на курс Machine Learning Foundations: A Case Study Approach (https://www.coursera.org/learn/ml-foundations/home/welcome), который тоже является частью специализации от университета Вашингтона — никаких блокированных заданий. В конце-концов, записался на курс «Случайные графы» от Райгородского — тоже преподавателя МФТИ. Там сейчас доступна первая неделя (хотя курс еще на начался) и тоже нет никаких подзамочных заданий.
    
    lexnekr
    19.02.2016 13:09
    #8778433
    А я думал, это всё стратегия по повышению прибыльности проекта. Укладывается в один ряд с введением более дорогих курсов при прохождении с ментором (пример, а не реклама — https://www.coursera.org/learn/project-management )
    
    tvp
    19.02.2016 15:45
    #8778687
    +1
    Критерием применимости новых правил работы является не "свежесть", а конкретная дата запуска. Специализации которые вы привели в качестве примера, были запущены ДО 19 января 2016 года.
    Пруфы для этого легко ищутся:
    
    www.dr-chuck.com/csev-blog/2015/09/announcing-university-of-michigan-coursera-python-and-web-design-specializations — это для Питона
    
    blog.dato.com/coursera-specialization-in-machine-learning — это для машинного обучения.
    
    И то и другое — сентябрь 2015.
    
    brainick
    19.02.2016 16:32
    #8778737
    А курс Райгородского «Случайные графы»? Явно же в первый раз запускается.
    
    tvp
    19.02.2016 16:42
    #8778749
    Это только для специализаций и для курсов входящих в состав специализаций.
    Для курсов, которые в состав специализаций не входят — таких ограничений нет.
  1. tvp
    19.02.2016 15:42
    #8778685
    Вы сейчас путаете разные вещи — я попробую пояснить.
    Есть следующий тезис:
    "Для всех специализаций, который были запущены после 19 января 2016 в обязательном порядке вводиться новая модель монетизации". Из него не следует, что вообще все специализации на Coursera переведены в этот формат — старые специализации могут продолжать работать в режиме "без ограничений".
    Специализация Яндекса и МФТИ была запущена после 19 января — поэтому она попадает под эти условия.
1. tvp
  19.02.2016 15:47
  #8778693
  Во-первых, чем вас смущает получение финансовой помощи? Уже 300 человек ее получили — одобряют, похоже, всем кто подал.
  Во-вторых, а зачем вслепую" платить 22к+? Есть же вариант по-курсового освоения.
  1. lexnekr
    19.02.2016 19:53
    #8779013
    Наверное я плохо выразил свою мысль. Смущает исключительно внутренний, моральный вопрос.
    Т.е. я в принципе способен заплатить такую сумму (ипотеку же плачу), поэтому запрашивать помощь кажется… "Не честным" что ли. С другой стороны, это весьма заметная сумма в моём бюджете, так что если она будет выброшена за бесполезные бумажки (читай курс ненадлежащего качества, который никак не поможет мне в работе, учитывая, что сейчас моя специализация — веб разработка и менеджмент веб проектов).
    
    Покурсово платить можно, да. Но вопрос это не решает. Такую специализацию надо проходить целиком (если она того стоит). И по 1 курсу всю специализацию не оценить. Ведь это только базовые кирпичики, подготовка к основному вопросу.
    
    В общем, я же не с претензиями… Я просто… Обратил внимание на тенденцию курсеры к повышению монетизации, которая лично меня печалит и мешает работать с вашим курсом. Возможно из-за моих личных тараканов в голове исключительно.
    
    brainick
    19.02.2016 23:56
    #8779165
    -2
    Я задам вам глупый вопрос: а зачем, если ваша специализация «веб разработка» вы вообще лезете в это дело? Анализ данных требует знания математики и программирования как минимум на уровне 3 курсов серьезного университета. Посмотрите например, выпуск ШАДа этого года. https://yandexdataschool.ru/about/graduates/yearbook/2015 и проверьте по соцсетям этих людей. Подавляющее число выпускников это люди из МГУ и МФТИ, есть несколько из Уральского федерального и Белорусского государственного.
    
    И если вы не знаете математики, вам нечего делать на анализе данных. Ну вот скажите, вы можете сейчас справиться с этими курсами
    
    https://www.coursera.org/learn/teoriya-grafov
    https://www.coursera.org/learn/kombinatorika-dlya-nachinayushchikh/
    https://www.coursera.org/learn/probability-theory-basics/
    
    (Тут позор авторам статьи данной, что они не рекомендовали в качестве требований пройти сначала хотя бы эти курсы. Впрочем расчет понятен. На этих курсах отсеялось бы 99 процентов желающих «эта а хде тут анализу даных учат. я тоже хачу.»)
    
    https://stepic.org/course/Ликбез-по-дискретной-математике-91/syllabus
    https://stepic.org/course/Дискретные-структуры-83/
    https://stepic.org/course/Основы-статистики-76/syllabus
    
    на сто процентов уверен, что нет.
    
    А эти курсы — это лишь 3-5 процентов необходимых знаний для того, что начать заниматься анализом данных.
    
    lexnekr
    20.02.2016 07:23
    #8779261
    К чему этот снобизм? Я вообще-то МИФИ закончил по специальности инженер-физик.
    Я о другом говорил совсем.
    
    brainick
    20.02.2016 11:10
    #8779393
    -1
    А я конкретные вопросы задал — можете ли вы, прежде чем заняться анализом данных изучить хотя бы несколько курсов по математике уровня первого семестра приличного вуза? И вот ещё к вам вопрос, а можно ли стать инженером-физиком за 5 месяцев на каких-нибудь онлайн-курсах?
    
    lexnekr
    20.02.2016 11:19
    #8779405
    Я вам тоже задал конкретный вопрос. По вашему образование полученное в МИФИ не соответствует "первому семестру приличного ВУЗа"? Я-то наивный полагал, что МГУ, МФТИ, МГТУ, МИФИ, НГУ, СПБГУ и ещё несколько не перечисленных ВУЗов — кузница технических кадров, где вышку дают на приличном уровне.
    
    Я где-то упоминал, что я собираюсь позиционировать себя как специалиста по Data Science или Big Data после этой специализации? Я говорил лишь о том, что она может быть полезной для меня, а может не быть (в зависимости от её качества). И поверьте, у многих людей не из области обработки данных этих самых данных под рукой хватает. Это область очень молодая, поэтому не все себя так величают. А данные о десятках и сотнях тысяч заказах, о миллионах пользователей, о миллиардах записей в логах есть. И обрабатывать этот массив можно. И нужно.
    
    Веб, кстати, это не только "сделать сайт-визитку".
    
    tvp
    20.02.2016 01:51
    #8779205
    Ну тут мы движемся к ситуации что "Open Is not Free". И мне самому лично не очень нравиться эта ситуация.
    Но если посмотреть на ситуацию с другой стороны — в В Coursera работает порядка 150 разработчиков и дизайнеров. Кто будет платить им зарплату, если Coursera не будет зарабатывать?
    Ибо всегда есть кто-то, кто оплачивает праздник.
    Вот взять например Лекторий МФТИ (http://lectoriy.mipt.ru/) — в этом случае за него платит государство (по сути из ваших же налогов) и скидываются выпускники.
    Stepic'у помогает JetBrains. И т.д. Всегда есть кто-то, кто платит.
    
    lexnekr
    20.02.2016 07:24
    #8779265
    Готов подписаться под каждым словом.
    Спасибо за то, что вы делаете!

kudarets
23.02.2016 20:21
#8782155
Курс сделали — это плюс. Задания платные — это минус.