Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных / forpes.ru

Главная
Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных

Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных +45

12.04.2015 13:43

Dmitry21 15 18584 Источник

Продолжаем публиковать материалы наших образовательных проектов. В этот раз предлагаем ознакомиться с лекциями Техносферы по курсу «Алгоритмы интеллектуальной обработки больших объемов данных». Цель курса — изучение студентами как классических, так и современных подходов к решению задач Data Mining, основанных на алгоритмах машинного обучения. Преподаватели курса: Николай Анохин (anokhinn), Владимир Гулин (vgulin) и Павел Нестеров (mephistopheies).

Объемы данных, ежедневно генерируемые сервисами крупной интернет-компании, поистине огромны. Цель динамично развивающейся в последние годы дисциплины Data Mining состоит в разработке подходов, позволяющих эффективно обрабатывать такие данные для извлечения полезной для бизнеса информации. Эта информация может быть использована при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений.

Лекция 1. Задачи Data Mining (Николай Анохин)

Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.

Лекция 2. Задача кластеризации и ЕМ-алгоритм (Николай Анохин)

Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.

Лекция 3. Различные алгоритмы кластеризации (Николай Анохин)

Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Stepwise-optimal алгоритм. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand, silhouette. DBSCAN.

Лекция 4. Задача классификации (Николай Анохин)

Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL. Решающие деревья. Алгоритм CART.

Лекция 5. Naive Bayes (Николай Анохин)

Условная вероятность и теорема Байеса. Нормальное распределение. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод. Графические модели.

Лекция 6. Линейные модели (Николай Анохин)

Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.

Лекция 7. Метод опорных векторов (Николай Анохин)

Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.

Лекция 8. Снижение размерности пространства (Владимир Гулин)

Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы, основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы, основанные на взаимной корреляции признаков. Методы максимальной релевантности и минимальной избыточности (mRMR). Методы, основанные на деревьях решений.

Лекция 9. Алгоритмические композиции 1 (Владимир Гулин)

Комбинации классификаторов. Модельные деревья решений. Смесь экспертов. Stacking. Стохастические методы построения ансамблей классификаторов. Bagging. RSM. Алгоритм RandomForest.

Лекция 10. Алгоритмические композиции 2 (Владимир Гулин)

Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.

Лекция 11. Нейросети, обучение с учителем (Павел Нестеров)

Биологический нейрон и нейронные сети. Искусственный нейрон Маккалока-Питтса и искусственная нейронная сеть. Персептрон Розенблатта и Румельхарта. Алгоритм обратного распространения ошибки. Момент обучения, регуляризация в нейросети, локальная скорость обучения, softmax слой. Различные режимы обучения.

Лекция 12. Нейросети, обучение без учителя (Павел Нестеров)

Нейросетейвой автоэнкодер. Стохастические и рекурентные нейронные сети. Машина Больцмана и ограниченная машина Больцмана. Распределение Гиббса. Алгоритм contrastive divergence для обучения РБМ. Сэмплирование данных из РБМ. Бинарная РБМ и гауссово-бинарная РБМ. Влияние регуляризации, нелинейное сжатие размерности, извлечение признаков. Semantic hashing.

Лекция 13. Нейросети, глубокие сети (Павел Нестеров)

Трудности обучения многослойного персептрона. Предобучение с использованием РБМ. Глубокий автоэнкодер, глубокая многослойная нейросеть. Deep belief network и deep Boltzmann machine. Устройство человеческого глаза и зрительной коры головного мозга. Сверточные сети.

Предыдущие выпуски. Технопарк:

Подписывайтесь на youtube-канал Технопарка и Техносферы!

Комментарии (15)

arelay
12.04.2015 19:06
#8373335
+7
Без малых слов, как студент мгту благодарю за лекции техносферы! Это настоящий клад, без преувеличений, так еще бесплатно и без смс)
1. Dmitry21 Автор
  12.04.2015 19:53
  #8373357
  +1
  Спасибо

akrot
13.04.2015 09:10
#8373647
Отдаленно напоминает ШАД, очень круто, когда есть такие ресурсы. А практика какая-нибудь для студентов была?
1. anokhinn
  13.04.2015 11:17
  #8373735
  Да, каждый семестр мы придумываем семестровый проект: за прошедшие три семестра студенты решали задачи, связанные с анализом данных ФБ, классификацией игроков онлайн игр и анализом твитов.
  1. akrot
    13.04.2015 11:18
    #8373737
    А можно проекты посмотреть где-нибудь?)
    
    anokhinn
    13.04.2015 11:26
    #8373743
    Пока практики выкладывания студенческих проектов не было. Сами решения, разумеется, принадлежат студентам, и мы не можем выложить их без спроса. Я думаю над тем, чтобы выложить свое решение проекта этого семестра, но, естественно, не раньше, чем семестр закончится :)
    
    akrot
    13.04.2015 11:35
    #8373755
    Да нет, о решениях конечно речь не шла, я про условия, метрики, которые нужно было оптимизировать и т д. И про обучающие выборки, если поиск таковых не входил в часть задачи)
    
    anokhinn
    13.04.2015 11:42
    #8373779
    Отписал в личку
    
    akrot
    13.04.2015 11:51
    #8373807
    Спасибо!
    
    mephistopheies
    13.04.2015 11:40
    #8373775
    +1
    кстати, вы тут тоже обещали поделиться заданием, я вам написал, но так и не получил ответа
    
    akrot
    13.04.2015 11:51
    #8373805
    Да, к сожалению, выяснилось, что задания даем только потенциальным кандидатам. Те, кто мне тогда написали и прислали резюме, насколько мне известно, задание получили.
    
    mephistopheies
    13.04.2015 11:52
    #8373809
    -1
    а если я пришлю резюме, я же формально стану кандидатом потенциальным? -)
    
    akrot
    13.04.2015 11:55
    #8373815
    Сначала все-равно придется пройти через hr'а, который по телефону задаст пару вопросов из серии «что такое сигмоидная функция», потом уже посмотрят резюме, пообщаются и будет задание. Я бы рад дать его и так — но, к сожалению, процедура такая — ничего не могу поделать.
    
    Думаю, конкретно Вам задание будет не особо интересно
    
    mephistopheies
    13.04.2015 12:00
    #8373835
    +4
    придется пройти через hr'а, который по телефону задаст пару вопросов из серии «что такое сигмоидная функция»
    
    ого крутые у вас hr-ы -)
    
    akrot
    13.04.2015 12:21
    #8373877
    Да вроде ничего особенного — все в рамках Вашей же программы, например)