Всем привет!

В рамках нашего курса Data Scientist мы провели открытый урок на тему «Наивный баейсовский классификатор». Занятие вёл преподаватель курса Максим Кретов — ведущий исследователь в лаборатории нейронных сетей и глубокого обучения (МФТИ). Предлагаем ознакомиться с видео и кратким изложением.

Заранее спасибо.


Вступление

Представьте, что у вас есть тысяча объектов недвижимости. Как правило, каждый из них можно охарактеризовать определенным набором признаков, например:

  • площадь дома;
  • количество времени, прошедшее после последнего ремонта;
  • удаленность от ближайшей остановки общественного транспорта.

Таким образом каждый дом можно представить, как х с размерностью 3. То есть х = (150; 5; 600), где 150 – площадь дома в метрах квадратных, 5 — количество лет после ремонта, 600 — расстояние до остановки в метрах. Цена, за которую этот дом можно продать на рынке, будет обозначаться y.

В результате мы имеем набор векторов, причем каждому объекту соответствует переменная. И если говорить о цене, то как раз ее то и можно научиться предсказывать, обладая навыками машинного обучения.

Основная классификация методов машинного обучения

Рассмотренный выше пример довольно типичен и относится к машинному обучению с учителем (есть целевая переменная). Если же последняя отсутствует, можно говорить о машинном обучении без учителя. Это и есть два основных и наиболее распространенных вида машинного обучения. При этом задача обучения с учителем, в свою очередь, делится на две группы:

  1. Классификация. Целевая переменная — это один из С-классов, т. е. каждому объекту дана метка класса (коттедж, садовый домик, хозпостройка и т. п.).
  2. Регрессия. Целевая переменная — это действительное число.

Какие задачи решает машинное обучение?

Сегодня с помощью методов машинного обучения решаются следующие задачи:

1. Синтаксические:

  • разметка по частям речи и морфологическим признакам;
  • деление слов в тексте на морфемы (приставку, суффикс и пр.);
  • поиск имен и названий в тексте («распознавание именованных сущностей»);
  • разрешение смысла слов в заданном контексте (типичный пример — зАмок или замОк).

2. Задачи на понимание текста, в которых есть «учитель»:

  • машинный перевод;
  • диалоговые модели (чат-боты).

3. Прочие задачи (описание изображения, распознавание речи и т. д.).

Сложности работы с текстом

Работа с текстом с точки зрения машинного обучения всегда несет в себе определенные сложности. Для этого достаточно вспомнить два предложения:

  • мама мыла раму и теперь она блестит;
  • мама мыла раму и теперь она устала.

Если классификатор, выполняющий машинное обучение, не обладает здравым смыслом, для него одинаково верно, когда рама и блестит, и устала, так как синтаксически слово рама во втором предложении расположено ближе к местоимению она.

Практическое задание

После предоставления общеознакомительной информации о некоторых аспектах машинного обучения преподаватель плавно перешел к практической задаче вебинара — классификации электронных писем на спам и на качество.

В первую очередь, был показан пример, как преобразовать входной текст в вектор из чисел. Для этого:

  • был зафиксирован словарь размера К;
  • каждое слово в тексте было представлено в следующем виде: (0, 0, 0,…0, 1, 0,…0).

Такой подход называется 1-hot-encoding, а слова в его контексте — токенами.

По результатам этого этапа обработки данных был создан словарь и сделаны счетчики слов для каждого текста. В итоге был получен вектор фиксированной длины для каждого текста. Также был рассмотрен более простой подход boolean mask.

Знакомство с байесовским классификатором

Наивный байесовский классификатор основан на применении теоремы Байеса со строгими (наивными) предположениями о независимости. Его достоинством является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.
В интерпретации к задаче по классификации электронных писем основная идея заключалась в следующем:

  • все слова в тексте рассматриваются независимо друг от друга;
  • если какие-нибудь слова встречаются в спаме чаще, чем в хороших письмах, эти слова считаются признаками принадлежности письма к спаму.

С учетом теоремы Байеса были прописаны соответствующие формулы для нескольких переменных, а также рассмотрены особенности вычисления дополнительных допущений. Для расчета параметров был использован псевдокод, после этого — сформирован подробный модельный пример, где были рассчитаны априорные вероятности и вероятности принадлежности к классам для нового объекта х. Окончательный этап практической работы — построение и тренировка модели, а также измерение качества.

THE END

Как всегда мы ждём вопросы и комментарии тут или вы можете задать их преподавателю напрямую, зайдя на день открытых дверей.

Комментарии (0)