Главная
EM-алгоритм для кластеризации

EM-алгоритм для кластеризации +5

12.05.2020 10:38

blumental 9 829 Источник

EM-алгоритм – полезный инструмент моделирования данных, когда максимизация правдоподобия "в лоб", через дифференцирование, невозможна. Кластеризация – одна из задач, где этот алгоритм приходит на помощь. В статье приведен общий вывод EM-алгоритма для кластеризации.

Задача

Множество точек $X= \{ x_i, i\in1..N \}$ нужно разбить на $inline$ кластеров.

Идея решения

Составим вероятностную модель распределения точек по кластерам. Найдём параметры модели, при которых вероятность наблюдать множество $inline$ максимальна. С этими параметрами мы сможем определять, к какому кластеру наиболее вероятно относится данная точка $inline$ .

Модель данных

Введем ряд обозначений, заимствованных из курса.

$inline$ — вероятность наблюдать точку $inline$ .

$p(X) = \prod_{i=1}^{N}p(x_i)$ — вероятность наблюдать множество $inline$ .

$p_j (x) = \varphi(x; \theta_j)$ — вероятность встретить точку $inline$ в кластере $inline$ . Это распределение параметризовано параметром (или вектором параметров) $\theta_j$ , индивидуальным для кластера $inline$ .

$inline$ — вероятность кластера $inline$ , т.е. вероятность того, что случайно выбранная точка относится к кластеру $inline$ . Случайно выбранная точка точно относится к какому-то кластеру, поэтому $\sum_{j=1}^K w_j = 1$ .

Из определений выше следует, что $p(x) = \sum_{j=1}^K w_j p_j(x) = \sum_{j=1}^K w_j \varphi(x; \theta_j)$ , т.е. распределение точек моделируется как смесь распределений кластеров.

В итоге, вероятностная модель множества точек $inline$ :

$p(X) = \prod_{i=1}^{N}\left(\sum_{j=1}^K w_j \varphi(x_i; \theta_j)\right)$

Поиск параметров

Параметры модели $inline$ и $\theta$ , как и обсуждалось выше, должны обеспечить максимальную вероятность нашим данным:

$w, \theta = \textrm{argmax} \ p(X) = \textrm{argmax} \ \log p(X) = \textrm{argmax}_{w, \theta} \sum_{i=1}^{N} \log \left(\sum_{j=1}^K w_j \varphi(x_i; \theta_j)\right)$

Сумма под знаком логарифма мешает решить задачу аналитически. Ограничение $\sum_{j=1}^K w_j = 1$ не дает нам просто применить автоматическое дифференцирование (например, TensorFlow или PyTorch).

Придется использовать трюк:

L := нижняя граница log p(X)
while log p(X) увеличивается заметно:
    приближаем L к log p(X)
    w, theta = argmax L

Иначе говоря, мы не будем оптимизировать сам $\log p(X)$ , раз это сложно. Мы возьмем его нижнюю границу $\mathcal{L}$ и будем итеративно делать два шага:

Уточнять $\mathcal{L}$ : "подтягивать" её вверх, ближе к $\log p(X)$ .
Искать $inline$ и $\theta$ , максимизирующие $\mathcal{L}$ .

Мы надеемся, что если полученные параметры максимизируют "близкую" нижнюю границу функции, то они неплохо максимизируют и саму функцию.

Нижняя граница $\mathcal{L}$

Ограничим снизу выражение:

$\log p(X) = \sum_{i=1}^{N} \log \left(\sum_{j=1}^K w_j \varphi(x_i; \theta_j)\right)$

Сначала дополним нашу вероятностную модель. Введем распределение вероятностей $inline$ данной точки $inline$ быть в том или ином кластере:

$g_i(j) \equiv p(\textrm{быть в кластере} \ j| \textrm{это точка} \ i)$

Домножим и поделим на это распределение слагаемые под логарифмом:

$\sum_{i=1}^{N} \log \left(\sum_{j=1}^K w_j \varphi(x_i; \theta_j)\right) =\sum_{i=1}^{N} \log \left(\sum_{j=1}^K \frac{ g_i(j) }{ g_i(j) } w_j \varphi(x_i; \theta_j)\right)$

Теперь применим неравенство Йенсена. Оно позволяет логарифм взвешенной суммы ограничить снизу взвешенной суммой логарифмов:

$\log \left(\sum_i q_i x_i \right) \geq \sum_i q_i \log x_i$

Чтобы неравентсво выполнялось, нужно чтобы веса $inline$ были неотрицательны и их сумма была $inline$ .

В нашем случае $inline$ будет весом: его значения неотрицательны и $\sum_{j=1}^K g_i(j) = 1$ . Применим неравенство:

$\sum_{i=1}^{N} \log \left(\sum_{j=1}^K \frac{ g_i(j) }{ g_i(j) } w_j \varphi(x_i; \theta_j)\right) \geq \sum_{i=1}^{N} \sum_{j=1}^K g_i(j) \log \left(\frac{ w_j \varphi(x_i; \theta_j) }{ g_i(j) }\right)$

Полученное выражение и будем использовать в качестве нижней границы:

$\mathcal{L}(g, w, \theta) \equiv \sum_{i=1}^{N} \sum_{j=1}^K g_i(j) \log \left(\frac{ w_j \varphi(x_i; \theta_j) }{ g_i(j) }\right)$

Уточняем $\mathcal{L}$ (E-шаг)

Попробуем максимально приблизить $\mathcal{L}(g, w, \theta)$ к $\log p(X)$ . Параметры $inline$ и $\theta$ будем считать фиксированными, а приближать $\mathcal{L}$ будем через выбор распределения $inline$ .

Запишем разность $\log p(X)$ и $\mathcal{L}$ , а потом посмотрим, как её уменьшить:

$\log p(X) - \mathcal{L}(g, w, \theta) = \sum_{i=1}^N \log p(x_i) - \sum_{i=1}^{N} \sum_{j=1}^K g_i(j) \log \left(\frac{ w_j \varphi(x_i; \theta_j) }{ g_i(j) }\right)=$

$= \sum_{i=1}^N \left(\log p(x_i) \sum_{j=1}^K g_i(j) - \sum_{j=1}^K g_i(j) \log \frac{w_j \varphi(x_i; \theta_j)}{g_i(j)} \right) = \sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \frac{p(x_i) g_i(j)}{w_j \varphi(x_i; \theta_j)}$

Заметим, что под знаком логарифма можно выделить апостериорную вероятность кластера $inline$ :

$p(j|x_i) = \frac{\varphi(x_i; \theta_j) w_j}{p(x_i)}$

Тогда:

$\sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \frac{p(x_i) g_i(j)}{w_j \varphi(x_i; \theta_j)} = \sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \frac{g_i(j)}{p(j|x_i)}= \sum_{i=1}^N \mathbb{E}_{g_i} \frac{g_{i}}{p(j|x_i)}$

Мы получили интересное выражение: матожидание отношения двух распределений по первому из них. Оно называется дивергеницией Кульбака-Лейблера (или кратко KL-дивергенцией) и служит "расстоянием" между вероятностными распределениями.

Таким образом, разность $\log p(X)$ и $\mathcal{L}$ — это сумма KL-дивергенций:

$\log p(X) - \mathcal{L}(g, w, \theta) = \sum_{i=1}^N KL(g_i || p(j|x_i))$

KL-дивергенция неотрицательна, поэтому лучшее, что мы можем сделать для приближения нижней границы — это сделать KL-дивергенцию нулевой. А этого несложно добиться: KL-дивергенция будет нулём, если её аргументы — это одинаковые распределения. Вот и сделаем распределение $inline$ тождественным $inline$ :

$g_i(j) = p(j|x_i) = \frac{w_j \varphi(x_i; \theta_j)}{p(x_i)}$

Вычисление $inline$ по данной формуле и позволит нам приблизить нижнюю границу $\mathcal{L}$ к $\log p(X)$ .

Максимизируем $\mathcal{L}$ по параметрам (M-шаг)

Теперь вторая часть итерации: поиск параметров по нижней границе. В этой части наши предположения будут противоположными:

распределение $inline$ фиксированно;
параметры $inline$ и $\theta$ подлежат оптимизации.

Перед оптимизацией немного упростим $\mathcal{L}$ :

$\mathcal{L}(g, \theta) = \sum_{i=1}^N\left( \sum_{j=1}^K g_i(j) \log \frac{w_j p(x_i; \theta_j)}{g_i(j)} \right) =$

$= \sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \left( w_j p(x_i; \theta_j) \right) -\sum_{i=1}^N \sum_{j=1}^K g_i(j) \log g_i(j)$

Второе слагаемое не зависит от параметров $inline$ и $\theta$ , поэтому далее будем оптимизировать только первое слагаемое:

$w, \theta = \textrm{argmax}_{w, \theta}\sum_{i=1}^N \sum_{j=1}^K g_i(j) \log \left( w_j \varphi(x_i; \theta_j) \right)$

Разложим логарифм произведения на сумму логарифмов и получим:

$w = \textrm{argmax}_{w}\sum_{i=1}^N \sum_{j=1}^K g_i(j) \log w_j, \textrm{ при условии }\sum_{j=1} w_j = 1$

$\theta_j = \textrm{argmax} \sum_{i=1}^N g_i(j) \log \varphi (x_i; \theta_j)$

Первая задача решается методом множителей Лагранжа. Результат:

$w_j = \frac{1}{N} \sum_{i=1}^N g_i(j)$

Решение второй задачи зависит от конкретного вида распределения кластера $\varphi (x_i; \theta_j)$ . Как видно, для её решение больше не придётся иметь дело с суммой под знаком логарифма, поэтому, например, для гауссовых распределений решение может быть выписано аналитически.

Итог

Мы выяснили, в чем заключается суть итераций EM-алгоритма для кластеризации, и увидели, как в общем виде выводятся их формулы.

Комментарии (9)

malkovsky
12.05.2020 18:32
#21606260
Честно говоря, мне кажется, что структура статьи очень плохая. Прочитав раздел «Идея Решения» создается ощущение, что вы описываете не ЕМ алгоритм, а один его шаг.

Зашел на википедию, увидел там описание алгоритма ничуть не хуже, чем у Вас, да еще и с анимированным примером. В чем преимущество вашей статьи?

По формулам: у вас где-то g_{ij}, а где-то g(ij). Предположу, что это одни и те же величины, та как g(ij) не определяется… обычно в математических формулах так не делают и используют одинаковый стиль обозначений (в данном случае индексирования), чтобы лишний раз не путать читателя.
1. blumental Автор
  12.05.2020 19:08
  #21606482
  > Прочитав раздел «Идея Решения» создается ощущение, что вы описываете не ЕМ алгоритм, а один его шаг.
  Подумаю, как это донести яснее, но EM-алгоритм в самом деле направлен на уточнение параметров и повышение правдоподобия.
  
  > Зашел на википедию, увидел там описание алгоритма ничуть не хуже, чем у Вас, да еще и с анимированным примером.
  Согласен, хорошая статья на английском. В своём тексте я убрал подробности про гауссовское распределение и ясно описал в чем идея EM-алгоритма (см. псевдокод). Анимация славная, но она не резюмирует весь алгоритм в 4-ех строках.
  
  > По формулам: у вас где-то g_{ij}, а где-то g(ij)
  Разделяю Ваше негодование. Хабр не рендерит букву с двумя индексами, если в выражении есть знак суммы (я писал всё в Chrome). Также я хотел везде написать _{i=1}, а не просто i внизу знака суммы, но это тоже не работает, как показал предпросмотр. Наверно, стоит обратиться в поддержку.
  1. malkovsky
    12.05.2020 20:15
    #21606804
    Хабр не рендерит букву с двумя индексами, если в выражении есть знак суммы (я писал всё в Chrome). Также я хотел везде написать _{i=1}, а не просто i внизу знака суммы, но это тоже не работает, как показал предпросмотр. Наверно, стоит обратиться в поддержку.
    
    Вот одна из моих статей на хабре, где есть "_{i=1}", пробовал открывать в хроме — вроде бы все отображается. По поводу двух индексов не понял, в чем проблема. Вы уверены, что вы корректное TeX выражение использовали?
    
    blumental Автор
    12.05.2020 20:43
    #21606904
    В корректности выражений уверен, потому что сначала набрал черновик на overleaf.com, где эти выражения корректно отображаются. Когда писал статью здесь, увидел, что в предпросмотре часть выражений остается сырой разметкой и не превращается в формулы. Последовательно упрощая их, пришел к выводу, что причина в двойных индексах и нижнем пределе суммирования. Это касалось больших выражений. Отдельные g_{ij} и небольшие суммы отрисовывались.
    
    blumental Автор
    13.05.2020 01:52
    #21608054
    Попробовал поправить статью после публикации: все наладилось.

blumental Автор
12.05.2020 19:05
#21606458
>

toyban
12.05.2020 19:18
#21606528
+2
Вашу статью тяжело воспринимать из-за чехарды в обозначениях и неоднородности их использования. Так, например, что означает фраза

p(x) — вероятность наблюдать точку x
Эта вероятность всегда равна 1 для всех данных точек? Ведь если точка дана, то она 100% наблюдалась. Или как?

Дальше, какая разница между и ? Судя по описанию, это одно и то же. И да, определитесь, как Вы используете . У Вас это то число с индексами, то функция (к слову, сейчас выглядит, будто функция принимает один аргумент, который равен произведению i и j). Если Вы ввели какое-то обозначение, то только таким обозначением и пользуйтесь. Не плодите лишнего.

Еще вот этот момент:

Таким образом, разность и — это KL-дивергенция между двумя распределениями
Я не совсем уверен, что и — это вообще распределения. Даже больше, так как будет не больше нуля, то это "распределение" становится каким-то уж очень отрицательным.

Еще одно замечание касается вот этого уравнения

Что написано в предпоследнем уравнении никак не может быть матожиданием того, что написано справа. И последнее замечание — матожидание берется по какой-то случайной переменной. Оно не может браться по распределению, поэтому вот тот индекс у матожидания выглядит каким-то странным. Разве что распределение g — это случайная величина со своим распределением. И какой смысл индексов i и j внутри матожидания?
1. blumental Автор
  12.05.2020 22:23
  #21607360
  p(x) — это вероятность принадлежности точки x к нашим данным, которую выдаёт модель. Она может быть меньше единицы.
  
  Распределения g_{ij} и p_j(x_i) в самом деле описывают одно и то же. g_{ij} введено, чтобы мы могли зафиксировать его на M-шаге и абстрагироваться от параметров. По поводу обозначений: как писал в предыдущем в треде выше, на Хабре не рендерятся двойные индексы и нижний предел суммирования в больших выражениях. В overleaf.com вся статья рендерилась без таких woraround'ов.
  
  В тексте НЕ утверждается, что log p(X) и L — это распределения. Как показано в тексте, их разность равна KL-дивергениции распределений g и p(j|x_i). Вот они являются распределениями.
  
  Индексы у g в числителе под знаком матожидания лишние, опечатка. Спасибо, что подметили.
  
  Матожидания берутся по функциям распределения (PMF или PDF), а не по случайной величине. Коротко говорят «взять матожидание по распределению». В статье на вики про KL-дивергенцию как раз пример такого употребления.
  
  Индекс g у знака матожидание полезен: когда берется матожидания логарифмической разности двух распределений одной и той же случайной величины, уместно внести ясность, по которому именно распределению берется матожидание.
1. blumental Автор
  13.05.2020 01:54
  #21608056
  Спасибо, что обратили моё внимание на то матожидание. В этом месте была ошибка: там должна была быть сумма по точкам. Теперь исправлено.

EM-алгоритм для кластеризации +5

Задача

Идея решения

Модель данных

Поиск параметров

Нижняя граница

Уточняем (E-шаг)

Максимизируем по параметрам (M-шаг)

Итог

Комментарии (9)

malkovsky

blumental Автор

malkovsky

blumental Автор

blumental Автор

blumental Автор

toyban

blumental Автор

blumental Автор

Нижняя граница $\mathcal{L}$

Уточняем $\mathcal{L}$ (E-шаг)

Максимизируем $\mathcal{L}$ по параметрам (M-шаг)