Продолжаем нашу подборку интересных материалов (1, 2, 3, 4, 5, 6). На этот раз предлагаем послушать курс об алгоритмах интеллектуальной обработки больших объёмов данных и два новых выпуска ток-шоу для айтишников «Oh, my code» с Павлом Dzirtik Щербининым.

Алгоритмы интеллектуальной обработки больших объемов данных (Data Mining), осень 2019


Цель курса — познакомить с классическими и современными подходами к решению задач Data Mining с помощью алгоритмов машинного обучения. Кроме того, вы изучите методы построения, преобразования и отбора признаков, научитесь оценивать качество построенных моделей и визуализировать результаты анализа.

Программа лекций:

  • Задачи Data Mining. Постановка задачи машинного обучения. Какие бывают признаки. Типы задач машинного обучения. Разбор прикладных задач. Сравниваем алгоритмы. Переобучение и обобщающая способность. Как обнаружить и бороться с переобучением?
  • Метрики классификации и регрессии. Метод ближайшего соседа. Базовые понятия. Пример переобучения. Гипотеза компактности. Гипотеза непрерывности. Метрические алгоритмы. Примеры классификации и регрессии. Структурные параметры. Скользящий контроль. Оценка качества классификации и регрессии. Метрики алгоритмов. Нормировка признаков. Расстояния на категориальных признаках. Изучение метрик. Уменьшение размерности. Отбор признаков. Сложность алгоритмов. Приближенный поиск ближайших соседей.
  • Линейные модели регрессии. Параметризация. Представление. Оценка. Оптимизация. Нормализация данных. Регуляризация. Разреженные данные.
  • Логистическая регрессия. Линейные модели классификации. Построение разделяющей поверхности. Отступ. Функционал эмпирического риска. Аппроксимация логистической регрессии. Сигмоида. Логистическая регрессия. Math Recap: Метод Максимального Правдоподобия. Recap: Метрическая логика. Порождающая модель p(x). Метрики оценки. Как подобрать порог.
  • Задачи классификации. SVM. Многоклассовая классификация: one-vs-all. Как предсказать класс? Многоклассовая классификация: softmax. Метрики многоклассовой оценки. Геометрическая интерпретация. Построение разделяющей поверхности. Отступ. Функционал эмпирического риска. Аппроксимация SVM, Hinge Loss. SVM: Неразделимый случай. Штрафы за ошибки. SVM: переход к двойственной задаче. Условия Куна-Таккера (ККТ). Нелинейная классификация SVM ядра. Kernel Trick.
  • Решающие деревья. Определение бинарного решающего дерева. Варианты разделяющих функций. Как строить деревья. Критерии информативности для классификации. Как выглядят меры неопределенности. Критерии информативности для регрессии. Критерии останова. Обработка пропущенных значений. Обработка категориальных признаков. Специальные алгоритмы построения деревьев. Композиции деревьев. Бэггинг. Random Forest. Extra Trees (Extremely Randomized Trees).
  • Обработка естественного языка. Применение NLP в Почте Mail.ru. Предобработка: токенизация, лемматизация, стемминг. Признаковое описание текста: BOW, TF-IDF, CountVectorizer, HashingVectorizer. Дистрибутивная семантика: word2vec, fastText. Поиск околодубликатов: minhash, simhash, LSH.
  • Байесовские методы машинного обучения. Оптимальное байесовское правило. Вероятностное описание моделей. Байесовский подход. Оптимальный байесовский классификатор. Преобразовываем оптимальное байесовское правило. Как оценить p(y). Смысл формулы оптимального байесовского классификатора. Методы восстановления плотности. Наивный байесовский классификатор. Сглаживание. ММП vs Bayes. Логистическая регрессия. Регуляризация. Предсказание.
  • Задача кластеризации. Какая бывает кластеризация? Метрики качества кластеризации. Алгоритм k-means. Выбор числа кластеров. Начальная инициализация. K-medoids. Основные положения иерархических алгоритмов. Расстояния между кластерами: Алгоритм k-means ++. Формулы Ланса-Вильямса. Плотностные алгоритмы. Кластер моего кластера — мой кластер.
  • ЕМ-алгоритм. Метод максимума правдоподобия. Экспоненциальный класс. Распределения из экспоненциального класса. Модели со скрытыми переменными. Тематические модели. Вариационная нижняя оценка. ЕМ-алгоритм. Дивергенция Кульбака-Лейблера. E-шаг. М-шаг. Метод Ньютона. Многомерное нормальное распределение. Смесь распределений. Правдоподобие. EM для смеси нормальных распределений. GMM как генеративная модель. Байесовский классификатор как генеративная модель.

Ссылки на видеозаписи.

Будущее голосовых помощников


Вадим Пуштаев – руководитель разработки инфраструктуры голосового помощника Маруся – расскажет о настоящем и будущем голосовых помощников. Наступят ли времена – и как скоро – когда с голосовым помощником можно будет общаться, как с полноценным собеседником? К тому же Вадим поделится опытом разработчика и преподавателя.


Егор Толстой — человек и … Подлодка


Егор Толстой – Product manager в Kotlin и ведущий подкаста Podlodka – расскажет про язык программирования как продукт. Как сегментируются программисты, как язык продвигается и растет. Как устроены процессы разработки в команде Kotlin. И зачем тут продакт-менеджеры.


Напомним, что актуальные лекции и мастер-классы о программировании от наших IT-специалистов по-прежнему публикуются на канале Технострим. Подписывайтесь, чтобы не пропустить новые лекции!