Вот вы читаете очередную статью про KAN и ловите себя на мысли, что ничего не понимаете.

Знакомая ситуация?

Не переживайте, вы не одни. И дело тут не в вас, суть в том, что множество материалов описывают концепции по отдельности, не объединяя их в единую картину.

И чтобы решить эту проблему раз и навсегда, а также окончательно понять KAN, нам необходимо переосмыслив всё с нуля и постепенно двигаясь от базовых принципов линейной алгебры через нейронные сети. Завершив, обобщая всё с помощью множеств. В процессе мы также рассмотрим некоторые довольно уникальные и новые идеи!

Статья будет следовать данной структуре:

  1. Основные термины и концепции

  2. Объяснение многослойного персептрона (MLP)

  3. Объяснение RBF нейронной сети (RBFN) и SVM, связь с MLP

  4. Объяснение архитектуры KAN: Kolmogorov-Arnold Networks

1. Основные термины и концепции

Прежде чем переходить к нейронным сетям, важно разобраться в ключевых концепциях линейной алгебры, в этом помогут видео с канала 3Blue1Brown Русский.

1.1 Вкратце о некоторых дополнительных концепциях

Векторные пространства и подпространства

Векторное (линейное) пространство – это множество, где можно складывать векторы и умножать их на числа, следуя определённым правилам. Например, множество всех векторов на плоскости, как векторов на графике, является векторным пространством.

Векторное (линейное) подпространство (или подмножество пространства) – это часть векторного пространства, которая сама является векторным пространством. Примером может служить линия в плоскости, проходящая через начало координат, или плоскость в трёхмерном пространстве, проходящая через начало координат.

Аффинные пространства и подпространства

По словам французского математика Марселя Берже, «Аффинное пространство это не более чем векторное пространство, о начале координат которого мы пытаемся забыть, добавляя переносы (смещения) к линейным трансформациям».

T(v)=\mathbf{A}\cdot \mathbf{v} + \mathbf{b} \\ где  \ \ \mathbf{A}\cdot \mathbf{v} \ \ – \ это  \ линейное \  преобразование

Лебеговы пространства

Сейчас я приведу довольно упрощённое объяснение данных пространств.
Но главное – иметь хотя бы некоторое представление, так как они будут упоминаться в статье.

Ранее рассматривались конечномерные вещественные векторные пространства \mathbb{R}^n,где для двух векторов\mathbf{x} и\mathbf{y} метрика Минковского задаётся следующим образом:

\|\mathbf{x} - \mathbf{y}\|_p = \left( \sum_{i=1}^n |x_i - y_i|^p \right)^{\frac{1}{p}}

В частных случаях  p = 1и  p = 2 эта метрика соответствует манхэттенскому и евклидову расстояниям. Но нас интересует именно 1 \leq p < \infty.

Норма вектора \mathbf{x} определяется как расстояние Минковского до начала координат:

\|\mathbf{x}\|_p = \left( \sum_{i=1}^n |x_i|^p \right)^{\frac{1}{p}}

При этом любой вектор с конечным числом элементов можно рассматривать как дискретную функцию, возвращающую соответствующие элементы по индексу. Это понятие можно расширить на бесконечное множество элементов, задав норму функции на множестве S:

   \|f\|_p = \left( \int_S |f(x)|^p \, dx \right)^{1/p}

Кстати, думаю, очевидно, что в дискретном случае шаг по  dx равен 1.

В контексте L^p- пространств, если ограничить меру стандартной мерой Лебега (например, длина, площадь, объём) на \mathbb{R}^n,то функция f(x) принадлежит L^p, если норма функции сходится к конечному числу:

   \|f\|_p = \left( \int_S |f(x)|^p \, dx \right)^{1/p}< \infty

К тому же в общем случае должен использоваться интеграл Лебега, но для упрощения можно ограничиться наиболее распространённым определением интеграла в виде интеграла Римана, хотя это и накладывает дополнительные ограничения на множество функций.

Кроме того, можно определить расстояние между функциями:

\|f - g\|_p = \left( \int_S |f(x) - g(x)|^p \, dx \right)^{1/p}

И так же скалярное произведение, но только при p = 2,то есть в Гильбертовом пространстве:

\langle f, g \rangle = \int_S f(x) \overline{g(x)} \, dx

Компактные множества

По сути, это множество, которое является замкнутым и ограниченным.

Ограничённое множество – это множество, для которого существует конечное числоM, такое что расстояние между любой парой точек этого множества не превышает M.

Замкнутое множество – это множество, содержащее все свои предельные точки (границы).

Например, множество (0, 1)^nограничено, но не замкнуто, так как не включает границы, а значит не компактно. А вот множество [0, 1]^nуже компактно, так как включает границы.


2. Объяснение многослойного персептрона (MLP)

Многослойный персептрон (MLP) – является разновидностью сетей прямого распространения, состоящих из полностью связанных нейронов с нелинейной функцией активации, организованных как минимум в три слоя (где первый – входной). Он примечателен своей способностью различать данные, которые не являются линейно разделимыми.

Но прежде чем перейти к объяснению на примере, желательно разобраться с некоторыми теоретическими деталями, а именно с теоремами универсальной аппроксимации. Они являются семейством теорем, описывающих различные условия и подходы, при которых нейронные сети способны аппроксимировать широкий класс функций. Часто при упоминании для удобства их сводят к одной «теореме универсальной аппроксимации», ссылаясь, например, на теорему Цыбенко. Но такое упрощение сбивает с толку, так как не учитывает все детали и различные подходы. В данной статье я хочу уделить этим теоремам больше внимания.

Если говорить о них более подробно, то теоремы универсальной аппроксимации являются по своей сути теоремами существования и предельными теоремами. Они утверждают, что существует такая последовательность преобразований \Phi_1, \Phi_2, \ \dots\ , и что при достаточном количестве нейронов мы можем аппроксимировать любую функцию f из определённого множества функций с заданной точностью в пределах \epsilon.

Однако эти теоремы не предоставляют способа фактически найти такую последовательность. Кроме того, они не гарантируют, что какой‑либо метод оптимизации, например, обратное распространение, сможет найти эту последовательность. Обратное распространение и другие методы могут либо найти сходящуюся последовательность, либо застрять в локальном минимуме. Также теоремы не дают гарантии, что нейронная сеть любого конечного размера, например, состоящая из 1000 нейронов, будет достаточной для аппроксимации функции с желаемой точностью.

Теперь рассмотрим некоторые из них:

Теорема Цыбенко (1989)

Цыбенко доказал, что нейронные сети с одним скрытым слоем и произвольным числом нейронов, использующие в качестве функции активации сигмоиду:

\sigma(x) = \frac{1}{1 + e^{-x}}

Могут аппроксимировать любые непрерывные функции на компактном множестве K. То есть функции f \in C(K).

Есть также пример ограниченной ширины и глубины:

Майоров и Пинкус (1999)

Майоров и Пинкус доказали, что нейронные сети с двумя скрытыми слоями и ограниченным числом нейронов в каждом слое могут быть универсальными аппроксиматорами в пространстве непрерывных функций на компактном множестве, если используются сигмоидные функции активации.

Во многих статьях под упоминанием теоремы универсальной аппроксимации, хотя и говорится в основном о теореме Цыбенко, часто рассматривается семейство нейронных сетей, определённых теоремами Хорника и Лешно:

Теорема Хорника 1989 и Теорема Хорника 1991

Курт Хорник и его коллеги расширили результаты Цыбенко и показали, что MLP с произвольным числом скрытых слоев и произвольным числом нейронов в каждом слое могут аппроксимировать любую непрерывную функцию с любой точностью на компактном множестве, рассматривая так же расширение на пространстваL^pдля любого p \in [1, \infty).Они также доказали, что это свойство не зависит от конкретных функции активации, если она является непрерывной, ограниченной, неконстантой и неполиномиальной.

Расширение Лешно и соавторов (1992):

Лешно и соавторы расширили результаты Хорника, ослабив требования к функции активации, позволяя ей быть кусочно-непрерывной и лишь локально ограниченной, а также не является полиномом почти всюду, что позволяет включить частоиспользуемые функции активации, такие как ReLU, Mish, Swish (SiLU), GELU и другие.

2.1 Иллюстрация на примере

Перейдём теперь к более практическому объяснению. Рассмотрим популярный датасет make_circles, который представляет собой векторы в двумерном пространстве. В этом пространстве каждый вектор данных можно задать линейно, по крайней мере, с помощью двух базисных векторов.

Логистическая регрессия в классическом варианте, моделирующая логарифмические шансы события (отношение выполнения события к его невыполнению) как линейную комбинацию признаков:

 \ln\left(\frac{p}{1 - p}\right) = \mathbf{w} \cdot \mathbf{x} + \mathbf{b} \frac{p}{1 - p} = e^{\mathbf{w} \cdot \mathbf{x} + \mathbf{b}}.p = \sigma(\mathbf{w} \cdot \mathbf{x} + \mathbf{b}) = \frac{1}{1 + e^{-(\mathbf{w} \cdot \mathbf{x} + \mathbf{b})}}.

По сути, является нейросетью с одним входным слоем, нулём скрытых слоёв и одним выходным слоем (также можно рассматривать и линейную регрессию, и прочие модели). Если для кого-то ноль скрытых слоёв кажется контринтуитивным, то это можно рассматривать как применение единичной матрицы к входному вектору, собственно, что и делает входной вектор.

\mathbf{I}\cdot \mathbf{x} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ \end{bmatrix}  \begin{bmatrix} x_1 \\ x_2 \\ \end{bmatrix}  = \begin{bmatrix} x_1 \\ x_2 \\ \end{bmatrix}

Поскольку логистическая регрессия осуществляет линейное разделение данных в исходном пространстве, а наш набор данных make_circles является нелинейно разделимым в нем, необходимо преобразовать данные так, чтобы модель могла эффективно их разделить. Для этого добавим к нашей логистической регрессии один скрытый слой с тремя нейронами и линейной функцией активацииf_{\text{activation}}(x) = x. Посмотрим, как изменятся данные перед их подачей в логистическую регрессию:

Входные \ данные:  \\[10pt] \mathbf{x} = \begin{bmatrix} x_1\\  x_2 \end{bmatrix} \\  \text{Веса скрытого слоя:}  \\[10pt] \mathbf{W} = \begin{bmatrix} w_{1,1} & w_{1,2} \\ w_{2,1} & w_{2,2} \\ w_{3,1} & w_{3,2} \end{bmatrix} \\Смещение:  \\[10pt] \mathbf{b} = \begin{bmatrix} b_1 \\ b_2 \\ b_3 \end{bmatrix} \\ Тогда \ выход \ скрытого \ слоя: \\[10pt]    T(\mathbf{x}) = f_\text{activation}(\mathbf{W} \cdot \mathbf{x} + \mathbf{b})  \\[5pt]   где \  f_\text{activation}(x) = x Что \ эквивалентно: \\[10pt] T(\mathbf{\mathbf{x}}) = x_1 \cdot \begin{bmatrix} w_{1,1} \\ w_{2,1} \\ w_{3,1} \end{bmatrix} + x_2 \cdot \begin{bmatrix} w_{1,2} \\ w_{2,2} \\ w_{3,2} \end{bmatrix} + \begin{bmatrix} b_1 \\ b_2 \\ b_3 \end{bmatrix}

И также посмотрим на график:

После прохождения через скрытый слой с тремя нейронами, данные сохраняют свою двумерную структуру. Хотя теперь данные выражаются в виде трех координат, их эффективное пространство по-прежнему остается двумерным. Каждый вектор можно задать линейно, как минимум, с помощью двух трехмерных базисных векторов \hat{i}и \hat{j}. Это означает, что данные находятся в двумерном аффинном подпространстве трехмерного пространства, образуя плоскость. Таким образом, мы фактически применили аффинное преобразование к исходным данным, и наш классификатор линейно разделяющий данные все еще не может их разделить.

Теперь добавим сигмоидную нелинейную функцию активации вместо линейной к результатам преобразования и посмотрим на полученный результата. То есть:

Тогда \ выход \ скрытого \ слоя: \\[5pt] T(\mathbf{x}) = \sigma(\mathbf{W} \cdot \mathbf{x} + \mathbf{b}) \\[5pt]  где \  \sigma(x) = \frac{1}{1 + e^{-x}}

Бинго! Мы получили данные, которые стали нелинейными по отношению к исходному пространству признаков. Как видно из иллюстрации, они по-прежнему не являются линейно разделимыми. В данной ситуации на помощь приходит обучение нейросети, например, с использованием метода обратного распространения. Этот процесс регулирует матрицу преобразования и смещения, фактически перемещая и поворачивая базисные вектора. Таким образом, после тренировки нейросети и преобразования данных можно ожидать, что классификатор в виде логистической регрессии сможет построить разделяющую плоскость и линейно разделить данные.

Подытожим наш пример:

Изначально мы работаем с набором векторов, расположенных в двумерном векторном пространстве.
Применяя аффинное преобразование, мы переводим их в двумерное аффинное подпространство трехмерного пространства. Затем, используя нелинейную функцию активации, мы преобразуем данные нелинейно относительно входного пространства.
Далее, в процессе обучения с использованием метода обратного распространения ошибки, мы настраиваем базисные вектора двумерного подпространства таким образом, чтобы после применения функции активации данные становились линейно разделимыми на выходе скрытого слоя. Это делает их пригодными для классификации с помощью логистической регрессии на выходном слое.

Пример выше геометрически демонстрирует, почему линейные функции активации не подходят для работы с нелинейно разделимыми данными. Хотя в нашем примере мы использовали линейную функцию активации f_{\text{activation}}(x) = x.ситуация при общем случае f_{\text{activation}}(x) = w \cdot x + b останется аналогичной. Линейные функции активации не способны "изгибать" пространство входных данных при преобразовании, что необходимо для разделения нелинейных классов. Именно поэтому для работы с такими данными требуется использование нелинейных функций активации, которые позволяют моделям нейросетей эффективно преобразовывать пространство признаков, обеспечивая возможность линейного разделения в преобразованном пространстве.

Стоит отметить, что после применения нелинейной функции активации данные не всегда преобразуются в пространство, размерность которого совпадает с количеством нейронов (или размерностью каждого базисного вектора). В данном примере, после применения сигмоидной функции активации данные образуют трёхмерное подпространство в трёхмерном пространстве, то есть фактически становятся трёхмерными, но это является частным случаем.

При этом нам не обязательно увеличивать размерность базисных векторов на скрытом слое, хоть это и дает больше возможностей модели. Мы можем оставить их количество неизменным с последующим нелинейным преобразованием или даже уменьшить размерность, также используя нелинейные функции. Концепция преобразования пространства остаётся применимой и актуальной даже в случае, если нейросеть имеет несколько скрытых слоёв, то есть является глубокой, или для других архитектур нейронных сетей.

Рассмотрим подробнее выходной слой для нашего примера. Ранее я описывал его как логистическую регрессию для бинарной классификации. Но что такое логистическая регрессия, если не аффинное преобразование с последующим применением функции активации, которой, как правило, является сигмоида. Сам слой выглядит следующим образом:

\sigma\left(\mathbf{w}^\top\mathbf{x} +b\right) = \frac{1}{1 + \exp\left(-\left(\mathbf{w}^\top\mathbf{x} + {b}\right)\right)} \\[30pt]   \mathbf{w}^\top\mathbf{x} +{b}\ = \begin{bmatrix} w_{1} & w_{2} & \dots & w_{n}  \end{bmatrix} \begin{bmatrix} x_{i_1} \\ x_{i_2} \\ \vdots \\ x_{i_n} \\ \end{bmatrix} + b

Итак, сначала мы выполняем скалярное произведение двух векторов. Это операция, по сути, преобразуетN- мерный вектор в одномерное пространство. Важно отметить, что скалярное произведение – симметричная операция, то есть результат не зависит от порядка векторов: f(\mathbf{x}, \mathbf{y}) = f(\mathbf{y}, \mathbf{x}). Таким образом, не имеет значения, какой из векторов рассматривать как матрицу преобразования, а какой как преобразующий вектор. Однако в контексте нашей задачи матрицей преобразования, логичнее, если будут являться веса. После скалярного произведения мы добавляем смешение производя аффинное преобразованиеN-мерного вектора в одномерное аффинное подпространство.

После этого применяем преобразование с помощью сигмоидной функции активации, которая, по сути, изменяет это одномерное подпространство. В итоге, математически имеем тот же скрытый слой, только в контексте нашей цели, того как преобразует этот слой наши данные, а так же вместе с функцией потерь, мы его интерпритируем для удобства как выходной слой.

2.2 Аффинное преобразование и применение функции активации как функции преобразования и суперпозиции суммы функций

Суперпозиция функций, известная так же как сложная функция или «функция функции», имеет вид f(g(x)),в случае суперпозиции суммы функций будет иметь вид f(g_1(x)+g_2(x)+...g_n(x)).

И в целом это довольно очевидно по идее, что аффинное преобразование и применение функции активации схожи, так как обе функции и выполняют преобразование данных с одного пространства в другое и единственная разница как. Но сейчас мы их представим в виде суперпозиции суммы функций и применения функциональных матриц к векторам, что позволит более явно увидеть сходство и пригодится как основной момент в пункте с KAN.

Рассмотрим на примере который мы выше использовали.

Аффинное преобразование:

При аффинном преобразовании элементы результатирующего вектора будут иметь следующий вид :

F_{\text{affine transform}}(\mathbf{Х}) = \begin{bmatrix} w_{1,1} x_{1} + w_{1,2} x_{2} + b_{1} \\ w_{2,1} x_{1} + w_{2,2} x_{2} + b_{2} \\ w_{3,1} x_{1} + w_{3,2} x_{2} + b_{3} \end{bmatrix}

При этом данное аффинное преобразованиеF_{\text{affine transform}}можно подать как сумму функций одной переменной, только функции будут вида \phi_{j,i}(x) = w_{j,i}x_i +b_{j,i}(смещение для одной строки можно распределить как угодно по функциям внутри неё), и преобразованный вектор будет выглядеть следующим обаразом:

F_{\text{affine transform}}(\mathbf{x}) = \begin{bmatrix}  \phi_{1,1}(x_1) + \phi_{1,2}(x_2)  \\  \phi_{2,1}(x_1) + \phi_{2,2}(x_2)  \\  \phi_{3,1}(x_1) + \phi_{3,2}(x_2)   \end{bmatrix} =  \begin{bmatrix}  X_{\text{AffineT}, 1} \\  X_{\text{AffineT}, 2} \\  X_{\text{AffineT}, 3}  \end{bmatrix}

Функция активации:

Преобразование с помощью функции активации будут иметь следующий вид:

F_{\text{activation}}(F_{\text{affine transform}}(\mathbf{x})) =  \begin{bmatrix}  \sigma(X_{\text{AffineT}, 1}) \\  \sigma(X_{\text{AffineT}, 2}) \\  \sigma(X_{\text{AffineT}, 3})  \end{bmatrix}

Но при этом это эквивалентно ситуации, где функции на главной диагонали являются функцией активации \phi_{j = i}(x) = \sigma(x),а остальные \phi_{j \neq i}(x) = 0 \cdot X_{AffineT \ i}.

F_{\text{activation}}\left(F_{\text{affine transform}}(\mathbf{x})\right) =   \begin{bmatrix}  \phi_{1,1}(X_{\text{AffineT}, 1}) + \phi_{1,2}(X_{\text{AffineT}, 2}) + \phi_{1,3}(X_{\text{AffineT}, 3}) \\  \phi_{2,1}(X_{\text{AffineT}, 1}) + \phi_{2,2}(X_{\text{AffineT}, 2}) + \phi_{2,3}(X_{\text{AffineT}, 3}) \\  \phi_{3,1}(X_{\text{AffineT}, 1}) + \phi_{3,2}(X_{\text{AffineT}, 2}) + \phi_{3,3}(X_{\text{AffineT}, 3})  \end{bmatrix}F_{\text{activation}}(F_{\text{affine transform} }(\mathbf{x})) = \begin{bmatrix}  \sigma(X_{\text{AffineT} \ 1}) + 0 \cdot X_{\text{AffineT} \ 2} + 0 \cdot X_{\text{AffineT} \ 3} \\  0 \cdot X_{\text{AffineT} \ 1} + \sigma(X_{\text{AffineT} \ 2}) + 0 \cdot X_{\text{AffineT} \ 3} \\  0 \cdot X_{\text{AffineT} \ 1}) + 0 \cdot X_{\text{AffineT} \ 2} + \sigma(X_{\text{AffineT} \ 3})  \end{bmatrix}

В общем виде каждое аффинное преобразование и применение функции активации можно рассмотреть подобным образом (если мы уже применили функциональную матрицу к вектору):

\mathbf{x}_{l+1} = \sum_{i_l=1}^{n_l}  \phi_{l,i_{l+1},i_l}(x_{i_l}) \\[20pt]   =\left[ \begin{array}{cccc}     \phi_{l,1,1}(x_{1}) & + & \phi_{l,1,2}(x_{2}) & + \cdots + & \phi_{l,1,n_l}(x_{n_l}) \\     \phi_{l,2,1}(x_{1}) & + & \phi_{l,2,2}(x_{2}) & + \cdots + & \phi_{l,2,n_l}(x_{n_l}) \\     \vdots &  & \vdots & \ddots & \vdots \\     \phi_{l,n_{l+1},1}(x_{1}) & + & \phi_{l,n_{l+1},2}(x_{2}) & + \cdots + & \phi_{l,n_{l+1},n_l}(x_{n_l}) \\     \end{array} \right], \\[10pt] \quad \\[10pt] где \\[10pt]  \phi_{l,i_{l+1},i_l}(x_{i_l}) = w_{l,i_{l+1},i_l }\cdot f_{\text{activation, }l}(x_{i_l})+ b_{l,i_{l+1}, i_l}\\[10pt] l - \text{индекс слоя}

А так как мы рассматриваем \phi_{l, l+1, i}(x_l)как функции одной переменной, то можно объединить предыдущую активацию и следующее аффинное преобразование в одно преобразование подобного вида (как в формуле выше) и интерпретировать его как слой.
Потому что, в любом случае, итоговая функция будет функцией одной переменной из-за того, что функция активации применяется только по диагонали (т. е.j = i), а значит:

\phi_{\text{linear}, j, i} (f_{\text{activation}}(x_i)) = \phi_{j, i} (x_i).

По сути, определяя каждую функцию как\phi_{j, i} (x_i) = w_{j, i} \cdot f_{\text{activation}}(x_i) + b_{j, i} .

Хотя это всё и может показаться сперва контринтуитивным, так как мы в основном воспринимаем предыдущее аффинное преобразование и последующую активацию как один из слоёв, но это просто вопрос интерпретации.


3. Объяснение RBF нейронной сети (RBFN) и SVM, связь с MLP

В этом пункте я хочу показать, в чем же причина не использовать полиномиальные функции активации, связать SVM и MLP, пройти от линейного ядра к полиномиальному и Гауссовому, а также рассмотреть RBF нейронную сеть как альтернативу MLP, что будет важно в пункте с KAN. Бонусом также мы расширим RBF нейронные сети на многослойный случай и докажем для них теорему универсальной аппроксимации.

3.1 SVM как вид нейронной сети прямого распространения

В предыдущем пункте мы рассматривали частный случай сети прямого распространения в виде MLP, а теперь рассмотрим аналоги MLP в виде некоторых вариантов SVM и RBF нейронных сетей. Их любят разделять, но почему бы не рассмотреть их в контексте сходства.

SVM, как и MLP в классическом виде, строит гиперплоскость для разделения классов в задачах классификации. Единственное отличие заключается в том, что SVM при построении гиперплоскости необходимо максимизировать расстояние между самой гиперплоскостью и границами классов. Для этого применяется процесс квадратичной оптимизации.

Теперь рассмотрим математический аспект. При предсказении классов мы имеем в SVM такую формулу:

f(\mathbf{x})_{\text{SVM}} = \sum_{i=1}^{n} \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b, \\где\ K - функция \ ядра,  \ \mathbf{x}_i -  \text{тренировочные вектора} , \mathbf{x} - входной\ вектор, \\[10pt]a_i - множители\ Лагранжа

При тренировке решается, как уже говорилось, задача квадратичной оптимизации, но нас интересует то, что для этого нужно вычислить матрицу Грама, используя ядро попарно между нашими тренировочными данными –K(\mathbf{x}_i, \mathbf{x}_i).

Теперь, по поводу самой функции ядра, теоретически обоснованным является использование функций, которые попадают под определение теоремы Мерсера (Mercer's theorem), то есть являются симметричными K(\mathbf{x}, \mathbf{x}') = K(\mathbf{x}', \mathbf{x}), положительно полуопределенными (матрица Грама имеет неотрицательные собственные значения). Это позволяет им выполнять так называемый ядерный трюк (kernel trick).

Часто используемыми подобными ядрами являются:

  • Линейное ядро:

    K_{\text{Linear}}(\mathbf{x}, \mathbf{y}) = \mathbf{x}^\top \cdot\mathbf{y}, \quad \mathbf{x}, \mathbf{y} \in \mathbb{R}^d.

  • Полиномиальное ядро:

    K_{\text{Poly }n}(\mathbf{x}, \mathbf{y}) = (\mathbf{x}^\top \cdot \mathbf{y} + r)^n, \quad \mathbf{x}, \mathbf{y} \in \mathbb{R}^d ,\quad  r \geq 0, \quad n \geq 1.

  • Гауссово (RBF) ядро:

    K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) = \exp\left(-\frac{\|\mathbf{x} - \mathbf{y}\|^2}{\lambda}\right), \quad \mathbf{x}, \mathbf{y} \in \mathbb{R}^d, \quad \lambda > 0.

Ядерный трюк (kernel trick) — способ вычисления скалярного произведения в пространстве, сформированном функцией неявного преобразования. И выглядит это следующим образом:

K(\mathbf{x}, \mathbf{x}') = \varphi(\mathbf{x})^\top \cdot \varphi(\mathbf{x}').

Функция неявного преобразования \varphi принимает на вход наше множество данных и отображает его в новое пространство.

В данном пункте мы рассмотрим именно использование линейного ядра, где \varphi_{\text{linear}}(\mathbf{x}) = \mathbf{x}.

K_{\text{Linear}}(\mathbf{x}, \mathbf{x}') = \varphi_{\text{linear}}(\mathbf{x})^\top \cdot \varphi_{\text{linear}}(\mathbf{x}') = \mathbf{x}^\top \cdot \mathbf{x'}

Линейное ядро также попадает под определение теоремы Мерсера и способно выполнять ядерный трюк. Оно просто преобразует исходное пространство в себя и производит скалярное произведение.

Предлагаю рассмотреть SVM как нейросеть с тремя слоями, где входным слоем будет наша функция \varphi_{\text{linear}}(\mathbf{x}).Скрытым слоем будет просто линейное преобразование. В этом слое матрица весов будет построена с использованием предварительно преобразованных тренировочных векторов, используя функцию \varphi_{\text{linear}}(\mathbf{x}).Выходным слоем будет аффинное преобразование, где веса состоят из множителей Лагранжа и значений целевой функции для каждого тренировочного вектора.

При этом данный вариант мы не можем рассматривать как вариант MLP из-за того, что функция активации, то есть ядро Kявляется линейным. По сути, данная модель производит линейное и последующее аффинное преобразование и является полностью линейной.

Рассмотрим набор из n тренировочных векторов:

\mathbf{x}_{\text{train}, 1},\, \mathbf{x}_{\text{train}, 2},\, \dots,\, \mathbf{x}_{\text{train}, n}где каждый вектор \mathbf{x}_{\text{train}, j} \in \mathbb{R}^d, \quad j = 1,,2,,\dots,,n.

Также рассмотрим набор из тестовых векторов:

\mathbf{x}_{\text{test}, 1},\, \mathbf{x}_{\text{test}, 2},\, \dots,\, \mathbf{x}_{\text{test}, m}где каждый вектор \mathbf{x}_{\text{test}, q} \in \mathbb{R}^d, \quad q= 1,\,2,\,\dots,\,m.

Формулу нашей модели можно тогда подать как:

f(\mathbf{x})_\text{Linear SVM} = \mathbf{W}_2(\mathbf{W}_1 \cdot \varphi_\text{linear}(\mathbf{x}))+b_\text{out}

Для наглядности можно записать матрицы в развернутом виде:

 \mathbf{W}_1 = \begin{bmatrix} \varphi(x_{\text{train},1}) \\ \varphi(x_{\text{train},2}) \\ \vdots \\ \varphi(x_{\text{train},n}) \end{bmatrix} \\[50pt]  = \begin{bmatrix}   \varphi(x_{\text{train},1,1}) & \varphi(x_{\text{train},1,2}) & \dots & \varphi(x_{\text{train},1,d}) \\   \varphi(x_{\text{train},2,1}) & \varphi(x_{\text{train},2,2}) & \dots & \varphi(x_{\text{train},2,d}) \\   \vdots & \vdots & \ddots & \vdots \\   \varphi(x_{\text{train},n,1}) & \varphi(x_{\text{train},n,2}) & \dots & \varphi(x_{\text{train},n,d})   \end{bmatrix} \\[50pt]  = \begin{bmatrix}   x_{\text{train},1,1} & x_{\text{train},1,2} & \dots & x_{\text{train},1,d} \\   x_{\text{train},2,1} & x_{\text{train},2,2} & \dots & x_{\text{train},2,d} \\   \vdots & \vdots & \ddots & \vdots \\   x_{\text{train},n,1} & x_{\text{train},n,2} & \dots & x_{\text{train},n,d}   \end{bmatrix} \mathbf{W}_2 = \begin{bmatrix} a_1 y_1 \\ a_2 y_2 \\ \vdots \\ a_n y_n \end{bmatrix}\\[15pt]

Можно также переписать и саму формулу модели:

f_\text{Linear SVM}(\mathbf{x}) = \mathbf{W}_2 \left( \begin{bmatrix}  x_{\text{train}, 1, 1} & x_{\text{train}, 1, 2} & \dots & x_{\text{train}, 1, d} \\  x_{\text{train}, 2, 1} & x_{\text{train}, 2, 2} & \dots & x_{\text{train}, 2, d} \\  \vdots & \vdots & \ddots & \vdots \\  x_{\text{train}, n, 1} & x_{\text{train}, n, 2} & \dots & x_{\text{train}, n, d}  \end{bmatrix}  \begin{bmatrix}  x_{1} \\  x_{2} \\  \vdots \\  x_{d}  \end{bmatrix}  \right) + b_\text{out}\\[15pt]

В обучении модели, конечно же, из-за использования квадратичной оптимизации, как было обсуждено в начале этого пункта, мы сначала строим матрицу Грама из тренировочных векторов.

Матрица \ Грама \\[10pt] \mathbf{G} = \mathbf{W}_1 \cdot \varphi(\mathbf{x})\\[20pt] \mathbf{x}_{\text{input}} = \begin{bmatrix}  x_{\text{train},1} \\  x_{\text{train},2} \\  \vdots \\  x_{\text{train},n}  \end{bmatrix}\\[45pt]\mathbf{G} = \begin{bmatrix} x_{\text{train},1}^\top x_{\text{train},1} & x_{\text{train},1}^\top x_{\text{train},2} & \dots & x_{\text{train},1}^\top x_{\text{train},n} \\ x_{\text{train},2}^\top x_{\text{train},1} & x_{\text{train},2}^\top x_{\text{train},2} & \dots & x_{\text{train},2}^\top x_{\text{train},n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{\text{train},n}^\top x_{\text{train},1} & x_{\text{train},n}^\top x_{\text{train},2} & \dots & x_{\text{train},n}^\top x_{\text{train},n} \end{bmatrix}\\[15pt]

После этого обучаем множители Лагранжа в матрице \mathbf{W}_2, и можем тестировать модель.

f_{\text{Linear SVM}}(x_{\text{test}, j}) = \\[10pt]= \mathbf{W}_2 \left( \begin{bmatrix}   x_{\text{train}, 1, 1} & x_{\text{train}, 1, 2} & \dots & x_{\text{train}, 1, d} \\   x_{\text{train}, 2, 1} & x_{\text{train}, 2, 2} & \dots & x_{\text{train}, 2, d} \\   \vdots & \vdots & \ddots & \vdots \\   x_{\text{train}, n, 1} & x_{\text{train}, n, 2} & \dots & x_{\text{train}, n, d}   \end{bmatrix}   \begin{bmatrix}   x_{\text{test}, j, 1} \\   x_{\text{test}, j, 2} \\   \vdots \\   x_{\text{test}, j, d}   \end{bmatrix}  \right) + b_\text{out}\\[15pt]

Все то, что мы рассмотрели выше, можно подать в виде схемы:

 \text{Входные данные} \quad \mathbf{x} \quad \xrightarrow{\varphi} \quad \varphi(\mathbf{x}) \quad \xrightarrow{\cdot \mathbf{w}} \quad \varphi(\mathbf{x}) \cdot \mathbf{w} \quad \xrightarrow{\text{выход модели}} \quad \hat{y} \quad (1) \\[10pt] где \ \mathbf{w} = \varphi(\mathbf{x}_i), \  \mathbf{x}_i -  \text{тренировочные вектора}\\[15pt]

В реальности, конечно, будет использоваться ядро для уменьшения вычислительных затрат, и все будет выглядеть следующим образом:

\text{Входные данные} \quad \mathbf{x} \quad \xrightarrow{K(\mathbf{x}, \mathbf{x}_i)} \quad K(\mathbf{x}, \mathbf{x}_i) \quad \xrightarrow{\text{выход модели}} \quad \hat{y} \quad (2) \\[10pt]  где \ \mathbf{x}_i -  \text{тренировочные вектора}\\[15pt]

Что соответствует формуле, которую мы рассматривали в самом начале этого пункта:

f(\mathbf{x})_{\text{SVM}} = \sum_{i=1}^{n} \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b, \\где\ K - функция \ ядра,  \ \mathbf{x}_i -  \text{тренировочные вектора} , \mathbf{x} - входной\ вектор, \\[10pt]a_i - множители\ Лагранжа

Ну, или в случае с линейным ядром, мы имеем формулу:

f(\mathbf{x})_{\text{Linear SVM}} = \sum_{i=1}^{n} \alpha_i y_i (\mathbf{x}_i\cdot \mathbf{x}) + b

Несмотря на то, что структура модели для первой схемы и для второй одинакова, это является лишь частным случаем при линейном ядре, что будет видно в следующих примерах с другими ядрами.

3.1.1 Полиномиальное ядро

Возьмем вторую схему:

\text{Входные данные} \quad \mathbf{x} \quad \xrightarrow{K(\mathbf{x}, \mathbf{x}_i)} \quad K(\mathbf{x}, \mathbf{x}_i) \quad \xrightarrow{\text{выход модели}} \quad \hat{y} \quad (2) \\[10pt]  где \\\mathbf{x}_i -  \text{тренировочные вектора}

Теперь рассмотрим использование полиномиального ядра, в общем виде оно задано как:

K_{\text{Poly }n}(\mathbf{x},\mathbf{y}) = (\mathbf{x}^\top \mathbf{y} + r)^n,   \ \ \mathbf{x}, \mathbf{y} \in \mathbb{R}^d, \quad r \geq 0, \quad n \geq 1

Гдеn– показатель степени полиномиального ядра.

Упростим для примера сделав  n = 2 и r = 0:

K_{\text{Poly }2}(\mathbf{x},\mathbf{y})=(\mathbf{x}^\top \cdot \mathbf{y})^2

Представим теперь, как трехслойный MLP, используя вторую схему, тогда формула будет выглядеть так:

f(\mathbf{x})_{\text{Poly SVM}} = \sum_{i=1}^{n} \alpha_i y_i K_{\text{poly }2}(\mathbf{x}_i, \mathbf{x}) + b = \sum_{i=1}^{n} \alpha_i y_i (\mathbf{x}_i\cdot \mathbf{x})^2 + b

Фактически, мы просто заменяем функцию активации в предыдущем примере с линейным ядромf_{\text{activation}}(x) = xна квадратичнуюf_{\text{activation}}(x) = x ^2на скрытом слое. Таким образом, в скрытом слое будет выполняться аффинное преобразование с последующей квадратичной функцией активации.

Однако, как я упоминал в предыдущем пункте про MLP, не все нелинейные функции активации изменяют размерность преобразованных данных, равную размерности базисных векторов. В общем случае для двумерных векторов при использовании квадратичной функции активации они будут образовывать максимум трёхмерное подпространство в произвольномN- мерном пространстве.

И вот тут первая схема нам и пригодится:

 \text{Входные данные} \quad \mathbf{x} \quad \xrightarrow{\varphi} \quad \varphi(\mathbf{x}) \quad \xrightarrow{\cdot \mathbf{w}} \quad \varphi(\mathbf{x}) \cdot \mathbf{w} \quad \xrightarrow{\text{выход модели}} \quad \hat{y} \quad (1) \\[10pt] где \ \mathbf{w} = \varphi(\mathbf{x}_i), \  \mathbf{x}_i -  \text{тренировочные вектора}

Поэтому сейчас мы разберёмся с функцией \varphi_{\text{poly }n},чтобы понять, почему Хорник и Лешно утверждали, что нейронные сети с именно неполиномиальными функциями активации обладают свойством универсальной аппроксимации, а также почему использование полиномиальных функций активации в нейронных сетях не является популярным решением.

Для двумерных данных с полиномиальным ядром второй степени по определению функция \varphi_{\text{poly }2}выглядит подобным образом:

\varphi_{\text{poly }2}(\mathbf{x} )  = \begin{bmatrix}x_1^2 \\x_2^2\\  \sqrt{2}x_1x_2\end{bmatrix}

Вот доказательство:

\varphi_{\text{poly }2}(\mathbf{x}_n)^{\top} \varphi_{\text{poly }2}(\mathbf{x}_m) = \begin{bmatrix} x_{n,1}^2 & x_{n,2}^2 & \sqrt{2} x_{n,1} x_{n,2} \end{bmatrix} \cdot \begin{bmatrix} x_{m,1}^2 \\ x_{m,2}^2 \\ \sqrt{2} x_{m,1} x_{m,2} \end{bmatrix}\\ = x_{n,1}^2 x_{m,1}^2 + x_{n,2}^2 x_{m,2}^2 + 2 x_{n,1} x_{n,2} x_{m,1} x_{m,2} = (x_n \cdot x_m)^2

И иллюстрация этого преобразования:

То есть, как мы можем увидеть, применение полиномиального ядра второй степени к двумерным данным всегда отображает их нелинейно в трёхмерное пространство и после этого производит скалярное произведение.

Для трёхмерных векторов с полиномиальным ядром второй степени:

\varphi_{\text{poly }2}(\mathbf{x}) = \begin{bmatrix} x_{1}^2 \\ x_{2}^2 \\ x_{3}^2 \\ \sqrt{2} x_{1} x_{2} \\ \sqrt{2} x_{1} x_{3} \\ \sqrt{2} x_{2} x_{3} \end{bmatrix}

Для двумерных векторов с полиномиальным ядром третьей степени:

\varphi_{\text{poly }3}(\mathbf{x}) = \begin{bmatrix} x_{1}^3 \\ x_{2}^3 \\ \sqrt{3} x_{1}^2 x_{2} \\ \sqrt{3} x_{1} x_{2}^2 \\ \sqrt{3} x_{1}^2 \\ \sqrt{3} x_{2}^2 \\ \sqrt{6} x_{1} x_{2} \end{bmatrix}
Доказательство и анализ для общего случая.

Полиномиальное ядро степениn \in \mathbb{N}_0(неотрицательные целые числа) с параметром сдвига r = 0 определяется как:

K_{\text{Poly }n}(\mathbf{x}, \mathbf{y}) = (\mathbf{x}^\top \mathbf{y})^n, \quad\mathbf{x}, \mathbf{y} \in \mathbb{R}^d, \quad n \in \mathbb{N}_0,  \quad n \geq 1

Необходимо доказать, что существует такая функция \varphi_{\text{poly }n}: \mathbb{R}^d \rightarrow \mathbb{R}^M ,что:

K_{\text{Poly }n}(\mathbf{x}, \mathbf{y}) = \varphi_{\text{poly }n}(\mathbf{x})^\top \varphi_{\text{poly }n}(\mathbf{y})

и при этом размерностьMпревышает размерность dдля d \geq 2 и n \geq 2.

Для этого мы воспозуемся мультиномиальной теоремой, которая обобщает биномиальную и триномиальную теоремы на случай произвольного количества слагаемых. Она гласит, что для любых вещественных чиселx_1, x_2, \dots, x_dи натурального числа n:

(x_1 + x_2 + \dots + x_d)^n = \sum_{k_1 + k_2 + \dots + k_d = n} \frac{n!}{k_1! k_2! \dots k_d!} x_1^{k_1} x_2^{k_2} \dots x_d^{k_d}

где k_1, k_2, \dots, k_d \in \mathbb{N}_0, и сумма  k_1 + k_2 + \dots + k_d = n.

Подставляя это разложение обратно в выражение для ядра, получаем:

K_{\text{Poly }n}(\mathbf{x}, \mathbf{y}) = \sum_{k_1 + k_2 + \dots + k_d = n} \frac{n!}{k_1! \, k_2! \, \dots \, k_d!} \prod_{i=1}^d (x_i y_i)^{k_i}

Исходя из данного преобразования мы можем выразить \varphi_{\text{poly }n}(\mathbf{x}) как:

\varphi_{\text{poly }n}(\mathbf{x}) = \left[ \varphi_{\text{poly }j}(\mathbf{x}) \right]_{j=1}^M, \quad M \to \infty

Где каждая компонента \varphi_{\text{poly }j}(\mathbf{x})соответствует уникальному набору мультииндексов \mathbf{k}^{(j)} \in \mathbb{N}_0^Mи определяется как:

\varphi_{\text{poly } j}(\mathbf{x}) = \frac{x_1^{k_1^{(j)}} x_2^{k_2^{(j)}} \dots x_d^{k_d^{(j)}}}{\sqrt{k_1^{(j)}! \, k_2^{(j)}! \, \dots \, k_d^{(j)}!}}

Теперь проанализируем что происходит с M при различных d и n.

  • Если d \geq 2 и n \geq 2:

    M = \binom{n + d - 1}{d - 1} = \frac{(n + d - 1)!}{n! \, (d - 1)!} >d

    При фиксированной размерности d и увеличении степени n, M растёт полиномиально относительно n.

    При фиксированной степени n и увеличении размерности d, M растёт экспоненциально относительно d.

  • Для n = 1:

    M = d

    Полиномиальное ядро первой степени эквивалентно линейному ядру K_{\text{Linear}} и функция \varphi_{\text{poly }n} преобразует данные в исходное пространство признаков.

  • Для d = 1:

    M=1

    Функция \varphi_{\text{poly }n} отображает входные данные в одномерное пространство признаков. При n = 1 эквивалент \varphi_{\text{linear }}. При n\geq2 производит нелинейное преобразование в другое одномерное пространство.

То есть, если мы возьмём формулу SVM для первой схемы:

f(\mathbf{x})_\text{Poly SVM} = \mathbf{W}_2(\mathbf{W}_1 \cdot \varphi_{\text{poly }n}(\mathbf{x}) + \mathbf{b}_\text{in})+b_\text{out}

Матрица \mathbf{W}_1, которая состоит из набора тренировочных векторов, предварительно преобразованных с помощью функции \varphi_{\text{poly }n}(x), будет иметь размерN \times M, гдеN– количество тренировочных векторов, аM– количество элементов преобразованного тренировочного вектора с помощью функции \varphi_{\text{poly }n}(x),

Если взять с \varphi_{\text{poly }2}(x), ядром для двумерных входных векторов, матрица будетN \times 3,для \varphi_{\text{poly }3}(x) N \times 7для\varphi_{\text{poly }2}(x) но для трёхмерных входных – N \times 6.

Ситуация с MLP и полиномиальной функцией активации аналогична, просто вместо тренировочных векторов мы используем заранее определённые веса.

Это и есть причина, почему Хорник и Лешно в своих работах указывали, что для универсальной аппроксимации функция активации нейронной сети не должна быть полиномиальной, так как это ограничивает возможности модели в увеличении размерности признаков после линейного или аффинного преобразования.

Непопулярность полиномиальных функций активации на практике объясняется двумя взаимосвязанными причинами. Во-первых, такие функции ограничивают размерность преобразованного пространства как мы уже обсудили. Во-вторых, при использовании метода обратного распространения ошибки для оптимизации возникает численная нестабильность при расчете градиентов по параметрам. С увеличением степени полинома, хотя размерность пространства растет и предоставляет модели больше возможностей, высокие степени могут вызывать нестабильность в вычислении градиентов. Таким образом, решая любую одну из проблем, мы всегда сталкиваемся с другой.

3.1.2 Гауссово ядро

Но перед тем как начать обсуждение этого пункта, необходимо ввести определение радиальной базисной функции в контексте данной статьи.

Радиальная базисная функция (RBF) будет являться вещественнозначной функцией, которая принимает вектор и вычисляет эвклидово расстояние до другого фиксированного вектора, который часто называют центром. То естьf(\mathbf{x}) = \|\mathbf{x} - \mathbf{c}\|.

В общем виде ее, конечно, можно расширить на различные виды норм для векторных пространств, а также на функциональные и другие виды.

Теперь перейдём к рассмотрению RBF (в данном случае гауссового) ядра и его вычислению скалярного произведения в бесконечномерном пространстве.

Доказательство того, что Гауссово ядро вычисляет скалярное произведение в бесконечномерном пространстве, и нахождение функции неявного преобразования.

Исходное выражение Гауссового ядра при \lambda = 2:

K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) = \exp\left( -\frac{1}{2}||\mathbf{x} - \mathbf{y}||^2 \right)

При этом эвклидово расстояние между \mathbf{x} и \mathbf{y} можно разложить как:

||\mathbf{x} - \mathbf{y}||^2 = ||\mathbf{x}||^2 + ||\mathbf{y}||^2 - 2 \mathbf{x}^\top \cdot \mathbf{y}K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) = \exp\left( -\frac{||\mathbf{x}||^2 + ||\mathbf{y}||^2 - 2 \mathbf{x}^\top \cdot \mathbf{y}}{2} \right)K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) = \exp\left( -\frac{||\mathbf{x}||^2}{2} \right) \cdot \exp\left( -\frac{||\mathbf{y}||^2}{2} \right) \cdot \exp\left( \mathbf{x}^\top \cdot \mathbf{y} \right)

Ряд Тейлора для экспоненты выглядит следующим образом:

\exp(\mathbf{x}) = \sum_{n=0}^\infty \frac{\mathbf{x}^n}{n!}

Подставляя z = \mathbf{x} \cdot \mathbf{y}, получаем:

\exp(\mathbf{x}^\top \cdot \mathbf{y}) = \sum_{n=0}^\infty \frac{(\mathbf{x}^\top \cdot \mathbf{y})^n}{n!}

Вспомним определение мултиномиальной теоремы для любых вещественных чисел x_1, x_2, \dots, x_d и натурального числа n:

(x_1 + x_2 + \dots + x_d)^n = \sum_{k_1 + k_2 + \dots + k_d = n} \frac{n!}{k_1! k_2! \dots k_d!} x_1^{k_1} x_2^{k_2} \dots x_d^{k_d}

где  k_1, k_2, \dots, k_d \in \mathbb{N}_0, и сумма  k_1 + k_2 + \dots + k_d = n.

В нашем случае:

(\mathbf{x} \cdot \mathbf{y})^n = \left( \sum_{i=1}^d x_i y_i \right)^n

Применяя мультиномиальную теорему, получаем:

(\mathbf{x} \cdot \mathbf{y})^n = \sum_{k_1 + k_2 + \dots + k_d = n} \frac{n!}{k_1! k_2! \dots k_d!} \prod_{i=1}^d (x_i y_i)^{k_i}

Подставляя разложение экспоненты и результат применения мультиномиальной теоремы в выражение для K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}), получаем:

K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) = C\cdot \sum_{n=0}^{\infty} \frac{1}{n!} \left( \sum_{k_1 + k_2 + \dots + k_d = n} \frac{n!}{k_1! k_2! \dots k_d!} \prod_{i=1}^d (x_i y_i)^{k_i} \right)\\[20pt]где \\[10pt]C =  \exp\left( -\frac{||\mathbf{x}||^2}{2} \right) \cdot \exp\left( -\frac{||\mathbf{y}||^2}{2} \right)

Упрощая, получаем:

K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) = C \cdot\sum_{k_1, k_2, \dots, k_d = 0}^{\infty} \frac{(x_1 y_1)^{k_1} (x_2 y_2)^{k_2} \dots (x_d y_d)^{k_d}}{k_1! k_2! \dots k_d!}

Мы знаем, что:

K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) = \varphi_{\text{gaussian}}(\mathbf{x})^\top \varphi_{\text{gaussian}}(\mathbf{y})

Исходя из преобразований выше мы можем определить \varphi_{\text{Gaussian}}(\mathbf{x})как:

\varphi_{\text{Gaussian}}(\mathbf{x}) = \exp\left( -\frac{1}{2} ||\mathbf{x}||^2 \right) \cdot \left[ \varphi_{\text{gaussian }j}(\mathbf{x}) \right]_{j=1}^M,  \quad M \to \infty

Где каждая компонента\varphi_{\text{Gaussian }j}(\mathbf{x})соответствует уникальному набору мультииндексов \mathbf{k}^{(j)} \in \mathbb{N}_0^Mи определяется как:

\varphi_{\text{gaussian }j}(\mathbf{x}) = \frac{x_1^{k_1^{(j)}} x_2^{k_2^{(j)}} \dots x_d^{k_d^{(j)}}}{\sqrt{k_1^{(j)}! \, k_2^{(j)}! \, \dots \, k_d^{(j)}!}}

Таким образом, исходя из того, что функция \varphi_{\text{gaussian}}(\mathbf{x}) возвращает вектор с бесконечным количество компонент, а значит что любой входной вектор фиксированной размерности будет отображаться в бесконечномерное пространство признаков. Из этого следует, что используя гауссово ядро K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) , и выполняя ядерный трюк, мы фактически вычисляем скалярное произведение нелинейно преобразованных входных векторов в это бесконечномерное пространство.

Возьмем Гауссово ядро:

K_{\text{Gaussian}}(\mathbf{x}, \mathbf{y}) = \exp\left( -\frac{||\mathbf{x} - \mathbf{y}||^2}{\lambda} \right)

Возьмем также знакомую нам первую схему и рассмотрим её для Гауссового ядра:

 \text{Входные данные} \quad \mathbf{x} \quad \xrightarrow{\varphi} \quad \varphi(\mathbf{x}) \quad \xrightarrow{\cdot \mathbf{w}} \quad \varphi(\mathbf{x}) \cdot \mathbf{w} \quad \xrightarrow{\text{выход модели}} \quad \hat{y} \quad (1) \\[10pt] где \ \mathbf{w} = \varphi(\mathbf{x}_i), \  \mathbf{x}_i -  \text{тренировочные вектора}

Функция \varphi_\text{gaussian}(x) при \lambda = 2определяется как:

\varphi_{\text{gaussian}}(\mathbf{x}) = \exp\left( -\frac{1}{2} ||\mathbf{x}||^2 \right) \cdot \left[ \varphi_{\text{gaussian }j}(\mathbf{x}) \right]_{j=1}^\infty

Где каждая компонента\varphi_{\text{gaussian }j}(\mathbf{x})соответствует уникальному мультииндексу \mathbf{k}^{(j)} \in \mathbb{N}^\text{M}_0 и определяется как:

\varphi_{\text{gaussian }j}(\mathbf{x}) = \frac{x_1^{k_1^{(j)}} x_2^{k_2^{(j)}} \dots x_d^{k_d^{(j)}}}{\sqrt{k_1^{(j)}! \, k_2^{(j)}! \, \dots \, k_d^{(j)}!}}

Пример для двух двумерных векторов \mathbf{x}^\top= \begin{bmatrix}x_1, x_2\end{bmatrix}, \ \mathbf{y}^\top = \begin{bmatrix}y_1, y_2\end{bmatrix} иM = 2.

 j

\mathbf{k}^{(j)} = [k_1^{(j)}, k_2^{(j)}]

\varphi_{\text{Gaussian }j}(\mathbf{x})

1

(0, 0)

\frac{x_1^0 x_2^0}{\sqrt{0! , 0!}} = 1

2

(1, 0)

\frac{x_1^1 x_2^0}{\sqrt{1! \, 0!}} = x_1

3

(0, 1)

\frac{x_1^0 x_2^1}{\sqrt{0! \, 1!}} = x_2

4

(2, 0)

\frac{x_1^2 x_2^0}{\sqrt{2! \, 0!}} = \frac{x_1^2}{\sqrt{2}}

5

(1, 1)

\frac{x_1^1 x_2^1}{\sqrt{1! \, 1!}} = x_1 x_2

6

(0, 2)

\frac{x_1^0 x_2^2}{\sqrt{0! \, 2!}} = \frac{x_2^2}{\sqrt{2}}

Собирая всё вместе,\varphi_\text{gaussian}(\mathbf{x})можно записать как:

\varphi_\text{gaussian}(\mathbf{x}) = \exp\left( -\frac{1}{2} (x_1^2 + x_2^2) \right ) \left[ 1, x_1, x_2, \frac{x_1^2}{\sqrt{2}}, x_1 x_2, \frac{x_2^2}{\sqrt{2}} \right]

Аналогично для \varphi_\text{gaussian}(\mathbf{y}):

\varphi_\text{gaussian}(\mathbf{y}) = \exp\left( -\frac{1}{2} (y_1^2 + y_2^2) \right ) \left[ 1, y_1, y_2, \frac{y_1^2}{\sqrt{2}}, y_1 y_2, \frac{y_2^2}{\sqrt{2}} \right]

Теперь вычислим скалярное произведение между \varphi_\text{gaussian}(\mathbf{x}) и \varphi_\text{gaussian}(\mathbf{y}):

K_\text{Gaussian}(\mathbf{x}, \mathbf{y}) = \varphi_\text{gaussian}(\mathbf{x})^\top \cdot \varphi_\text{gaussian}(\mathbf{y}) \\ = \exp\left(-\frac{1}{2} (\|\mathbf{x}\|^2 + \|\mathbf{y}\|^2)\right) \cdot \left(1 + x_1 y_1 + x_2 y_2 + \frac{x_1^2 y_1^2}{2} + x_1 x_2 y_1 y_2 + \frac{x_2^2 y_2^2}{2} \right) \\ = \exp\left(-\frac{1}{2} (\|\mathbf{x}\|^2 + \|\mathbf{y}\|^2)\right) \cdot \left(1 + \mathbf{x}^\top \mathbf{y} + \frac{(\mathbf{x}^\top \mathbf{y})^2}{2!}\right) \\ = \exp\left(-\frac{1}{2} (\|\mathbf{x}\|^2 + \|\mathbf{y}\|^2)\right) \cdot \sum_{r=0}^{2} \frac{ (\mathbf{x}^\top \mathbf{y})^r }{r!} \\ \approx \exp\left(-\frac{1}{2} (\|\mathbf{x}\|^2 + \|\mathbf{y}\|^2)\right) \cdot \exp(\mathbf{x}^\top \mathbf{y})

Теперь рассмотрим на примере SVM, что происходит с тренировочными и входными векторами, и что мы получим на выходе перед подачей в линейный классификатор. Для большей наглядности и уменьшения количества индексов я буду использовать в качестве тренировочных векторов двумерные векторы:\mathbf{a}, \mathbf{b}, \mathbf{c}, \mathbf{d} в качестве тестового вектора – \mathbf{x}_\text{test}.

Вектор\mathbf{a}задан подобным образом:

\mathbf{a} = \begin{bmatrix} a_{1} \\ a_{2} \end{bmatrix}\varphi_\text{Gaussian}(\mathbf{a}) = \exp\left(-\frac{1}{2}(a_1^2 + a_2^2)\right) \cdot \left[1, \, a_1, \, a_2, \, \frac{a_1^2}{\sqrt{2}}, \, a_1 a_2, \, \frac{a_2^2}{\sqrt{2}}, \, \dots \right]  \\=C_\text{a} \cdot \left[1, \, a_1, \, a_2, \, \frac{a_1^2}{\sqrt{2}}, \, a_1 a_2, \, \frac{a_2^2}{\sqrt{2}}, \, \dots \right]

для \mathbf{b}, \mathbf{c}, \mathbf{d} и  \mathbf{x}_\text{test}все аналогично.

Теперь построим матрицу преобразования, используя тренировочные векторы:

\mathbf{W}_1 = \begin{bmatrix}  C_{\text{a}} & C_{\text{a}} a_{\text{1}} & C_{\text{a}} a_{\text{2}} & C_{\text{a}} \frac{a_{\text{1}} a_{\text{2}}}{\sqrt{1}} & C_{\text{a}} \frac{a_{\text{1}}^2}{\sqrt{2}} & C_{\text{a}} \frac{a_{\text{2}}^2}{\sqrt{2}} & \cdots \\  C_{\text{b}} & C_{\text{b}} b_{\text{1}} & C_{\text{b}} b_{\text{2}} & C_{\text{b}} \frac{b_{\text{1}} b_{\text{2}}}{\sqrt{1}} & C_{\text{b}} \frac{b_{\text{1}}^2}{\sqrt{2}} & C_{\text{b}} \frac{b_{\text{2}}^2}{\sqrt{2}} & \cdots \\  C_{\text{c}} & C_{\text{c}} c_{\text{1}} & C_{\text{c}} c_{\text{2}} & C_{\text{c}} \frac{c_{\text{1}} c_{\text{2}}}{\sqrt{1}} & C_{\text{c}} \frac{c_{\text{1}}^2}{\sqrt{2}} & C_{\text{c}} \frac{c_{\text{2}}^2}{\sqrt{2}} & \cdots \\  C_{\text{d}} & C_{\text{d}} d_{\text{1}} & C_{\text{d}} d_{\text{2}} & C_{\text{d}} \frac{d_{\text{1}} d_{\text{2}}}{\sqrt{1}} & C_{\text{d}} \frac{d_{\text{1}}^2}{\sqrt{2}} & C_{\text{d}} \frac{d_{\text{2}}^2}{\sqrt{2}} & \cdots \\  \end{bmatrix}\mathbf{W}_1 \times \varphi_\text{gaussian}(\mathbf{x}_\text{test}) = \begin{bmatrix} C_x C_a \left( 1 + a_1 x_1 + a_2 x_2 + \frac{a_1^2 x_1^2}{2} + a_1 a_2 x_1 x_2 + \frac{a_2^2 x_2^2}{2} + \cdots \right) \\ C_x C_b \left( 1 + b_1 x_1 + b_2 x_2 + \frac{b_1^2 x_1^2}{2} + b_1 b_2 x_1 x_2 + \frac{b_2^2 x_2^2}{2} + \cdots \right) \\ C_x C_c \left( 1 + c_1 x_1 + c_2 x_2 + \frac{c_1^2 x_1^2}{2} + c_1 c_2 x_1 x_2 + \frac{c_2^2 x_2^2}{2} + \cdots \right) \\ C_x C_d \left( 1 + d_1 x_1 + d_2 x_2 + \frac{d_1^2 x_1^2}{2} + d_1 d_2 x_1 x_2 + \frac{d_2^2 x_2^2}{2} + \cdots \right) \end{bmatrix}

Преобразование с помощью функции \varphi_\text{gaussian} Гауссового ядра даёт нам нелинейное отображение вектора в бесконечномерное пространство. Это позволяет нам построить матрицу преобразования размеромN \times M, где N – количество векторов для обучения в случае SVM, либо количество нейронов в более общем случае, а так же M \to \infty.Кроме того, итоговый ранг матрицы, как и размерность результатирующего вектора, будут зависеть именно от значения N.Именно в этом заключается главная особенность использования Гауссового ядра в SVM. К примеру, выше мы преобразовали вектор \mathbf{x}из двумерного исходного пространства нелинейно в четырёхмерное пространство.

В случае с SVM в примере выше, мы преобразуем тренировочные вектора \mathbf{a},\mathbf{b}, \mathbf{c}, \mathbf{d} при помощи \varphi_\text{gaussian}, затем через матрицу преобразования создаём элементы, которые были созданы с помощью тех же тренировочных векторов и функции \varphi_\text{gaussian},по сути создавая матрицу Грама. Затем эта матрица будет использоваться в процессе квадратичной оптимизации для обучения множителей Лагранжа в выходном слое. После обучения мы можем тестировать модель на новых векторах, таких как \mathbf{x},как мы и сделали выше.

Если мы возьмем вторую схему, где мы рассматриваем напрямую применение ядра:

\text{Входные данные} \quad \mathbf{x} \quad \xrightarrow{K(\mathbf{x}, \mathbf{x}_i)} \quad K(\mathbf{x}, \mathbf{x}_i) \quad \xrightarrow{\text{выход модели}} \quad \hat{y} \quad (2) \\[10pt]  где \ \mathbf{x}_i -  \text{тренировочные вектора}

Тогда формула SVM будет выглядеть следующим образом:

f(\mathbf{x})_{\text{SVM RBF}} = \sum_{i=1}^{n} \alpha_i y_i K_{\text{Gaussian}}(\mathbf{x}_i, \mathbf{x}) + b = \sum_{i=1}^{n} \alpha_i y_i  \exp\left( -\frac{||\mathbf{x} - \mathbf{x}_i||^2}{\lambda} \right) + b

Но в отличие от линейного или полиномиального ядра, мы не можем представить данную нейронную сеть как MLP, поскольку вычисляем квадрат евклидова расстояния, а не скалярное произведение. Мы вернёмся к этому и рассмотрим более подробно в пункте про KAN. При этом SVM с RBF ядром является подмножеством RBF нейронной сети с определённым подходом к её построению и обучению. Поэтому предлагаю перейти к рассмотрению самой RBF нейронной сети.

3.2 RBF нейронная сеть

В предыдущем абзаце я уже говорил, что RBF-нейронная сеть применяет аналогичный подход как f(\mathbf{x})_{\text{SVM RBF}},но более обобщённо: вместо тренировочных данных мы можем использовать любые случайные веса, поскольку они будут оптимизироваться в процессе обучения. Также нет необходимости фокусироваться на задаче максимизации расстояния между классами, использовании множителей Лагранжа или квадратичной оптимизации.

Таким образом, f(\mathbf{x})_{\text{SVM RBF}}можно рассматривать как частный случай множества RBF-нейронных сетей. При этом любые RBF нейронные сети являются альтернативой MLP, так как если мы ее представим как композицию суммы функций, то каждая функция является не w \cdot x, а ||w-x||.

Одна из пионерских работ в области RBF нейронных сетей была написана Дж. Парком и В. Сандбергом. Там также предоставляется теорема универсальной аппроксимации для ограниченного количества слоев и произвольного количества нейронов.

Она гласит, что если ядро K_\text{RBF}является интегрируемым, ограниченным и интеграл на всей области определения не нулевой, тогда:

f_\text{Park, Sandberg}(\mathbf{x}) = \sum_{i=1}^{M} w_{i} \cdot K_\text{RBF}\left(\frac{\mathbf{x} - \mathbf{c}_{i}}{\lambda_i}\right)

является универсальным аппроксиматором в пространствахL^{p}(\mathbb{R}^{r})для любого p \in [1, \infty)и пространтсвах непрерывных функций C(\mathbb{R}^r).

По сути, выполняя данное преобразование, данная нейронная сеть способна аппроксимировать широкий ряд функций:

f_\text{Park, Sandberg}(\mathbf{x}) = \begin{bmatrix} w_1 & w_2 & \dots & w_M \end{bmatrix} \begin{bmatrix} K_\text{RBF}\left(\frac{\mathbf{x} - \mathbf{c}_1}{\lambda_1}\right) \\ K_\text{RBF}\left(\frac{\mathbf{x} - \mathbf{c}_2}{\lambda_2}\right) \\ \vdots \\ K_\text{RBF}\left(\frac{\mathbf{x} - \mathbf{c}_M}{\lambda_M}\right) \end{bmatrix}

Где c_{i}– это центры RBF ядра (веса),\lambda_i– ширина ядра.

При этом, несмотря на частое использование Гауссового ядра, существуют и другие известные ядра, которые также могут выполнять скалярное произведение в бесконечномерном пространстве, а именно:

  • Inverse Quadratic RBF

    K_{\text{IQ}}(\mathbf{x}, \mathbf{y}) = \frac{1}{1 + (\lambda \cdot \mathbf{\|x} - \mathbf{y}\|)^2}
  • Inverse Multiquadric RBF

    K_{\text{IMQ}}(\mathbf{x}, \mathbf{y}) = \frac{1}{\sqrt{1 + (\lambda\cdot \| \mathbf{x} - \mathbf{y} \|)^2}}

И сейчас я приведу для каждого доказательство:

Inverse Quadratic RBF
\| \mathbf{x} - \mathbf{y} \|^2 = \| \mathbf{x} \|^2 + \| \mathbf{y} \|^2 - 2 \mathbf{x}^\top \cdot \mathbf{y}K_{\text{IQ}}(\mathbf{x}, \mathbf{y}) = \frac{1}{1 + \lambda^2 (\|\mathbf{x}\|^2 + \|\mathbf{y}\|^2 - 2 \mathbf{x}^\top \cdot \mathbf{y})} = \frac{1}{a - b (\mathbf{x}^\top \cdot \mathbf{y})}

где а и b равны:

a = 1 + \lambda^2 (\|\mathbf{x}\|^2 + \|\mathbf{y}\|^2), \quad b = 2\lambda^2

Приведение к форме, удобной для разложения:

K_{\text{IQ}}(\mathbf{x}, \mathbf{y}) = \frac{1}{a - b (\mathbf{x}^\top \cdot \mathbf{y})} = \frac{1}{a} \cdot \frac{1}{1 - \frac{b}{a} (\mathbf{x}^\top \cdot \mathbf{y})}

При условии, что:

\left| \frac{b}{a} (\mathbf{x}^\top \cdot \mathbf{y}) \right| < 1

Можем использовать разложение в геометрическую прогрессию:

\frac{1}{1 - z} = \sum_{j=0}^{\infty} z^j

Таким образом, получаем:

K_{\text{IQ}}(\mathbf{x}, \mathbf{y}) = \frac{1}{a} \sum_{j=0}^{\infty} \left( \frac{b}{a} (\mathbf{x}^\top \cdot \mathbf{y}) \right)^j = \frac{1}{a} \sum_{j=0}^{\infty} \left( \frac{b}{a} \right)^j (\mathbf{x}^\top \cdot \mathbf{y})^j

Определяем компоненты функции преобразования\varphi_{\text{IQ}}(x):

\varphi_{\text{IQ}}(\mathbf{x}) = \left[ \varphi_{\text{IQ }j}(\mathbf{x}) \right]_{j=0}^{M}, \quad M\to\infty

{}где:

\varphi_{\text{IQ }j}(\mathbf{x}) = \sqrt{\frac{1}{a}} \left( \frac{b}{a} \right)^{j/2} \mathbf{x}^{\otimes j}

Здесь:

\mathbf{x}^{\otimes j} — тензорное произведение вектора \mathbf{x} с самим собой j раз.

Вычисление скалярного произведения:

 \varphi_{\text{IQ}}(\mathbf{x})^\top \cdot \varphi_{\text{IQ}}(\mathbf{y}) \\[20pt] = \sum_{j=0}^{M} \varphi_{\text{IQ }j}(\mathbf{x})^\top \cdot \varphi_{\text{IQ }j}(\mathbf{y}) = \frac{1}{a} \sum_{j=0}^{M} \left( \frac{b}{a} \right)^j (\mathbf{x}^\top \cdot \mathbf{y})^j = K_{\text{IQ}}(\mathbf{x}, \mathbf{y})\\[20pt]M \to \infty

Inverse Multiquadric RBF
\|\mathbf{x} - \mathbf{y}\|^2 = \|\mathbf{x}\|^2 + \|\mathbf{y}\|^2 - 2 \mathbf{x}^\top \cdot \mathbf{y}

Тогда ядро можно записать как:

K_{\text{IMQ}}(\mathbf{x}, \mathbf{y}) = \frac{1}{\sqrt{1 + \lambda^2 (\|\mathbf{x}\|^2 + \|\mathbf{y}\|^2 - 2 \mathbf{x}^\top \cdot \mathbf{y})}}

Как и в доказательстве в предыдущем ядре:

a = 1 + \lambda^2 (\|\mathbf{x}\|^2 + \|\mathbf{y}\|^2), \quad b = 2 \lambda^2

Тогда ядро переписывается как:

K_{\text{IMQ}}(\mathbf{x}, \mathbf{y}) = \frac{1}{\sqrt{a - b (\mathbf{x}^\top \cdot \mathbf{y})}}

Для удобства вынесем\sqrt{a} за скобку:

K_{\text{IMQ}}(\mathbf{x}, \mathbf{y}) = \frac{1}{\sqrt{a}} \left(1 - \frac{b}{a} (\mathbf{x}^\top \cdot \mathbf{y})\right)^{-\frac{1}{2}}

Теперь наша цель – разложить выражение в степенной ряд:

\left( 1 - \frac{b}{a} (\mathbf{x}^\top \cdot \mathbf{y}) \right)^{-\frac{1}{2}}

Биномиальное разложение для(1 - z)^{-j}при|z| < 1и j = 0.5:

(1 - z)^{-1/2} = \sum_{j=0}^{\infty} \frac{(2j)!}{(j!)^2 4^j}  z^j

Исходя из разложения, компоненты\varphi_{\text{IMQ}}(\mathbf{x})можно определить как:

\varphi_{\text{IMQ}}(\mathbf{x}) = \left[\varphi_{\text{IMQ }j}\right]_{j=0}^M, \quad M\to\infty

где:

\varphi_{\text{IMQ }j}(\mathbf{x}) = \sqrt{\frac{(2j)!}{(j!)^2 4^j}} \left( \frac{b}{a} \right)^{j/2} \mathbf{x}^{\otimes j}

Здесь:

\mathbf{x}^{\otimes j} — тензорное произведение вектора\mathbf{x}с самим собой j раз.

Скалярное произведение функций неявного преобразования будет:

 \varphi_{\text{IMQ}}(\mathbf{x})^\top\cdot \varphi_{\text{IMQ}}(\mathbf{y})  \\[20pt] =\sum_{j=0}^{M} \varphi_{\text{IMQ }j}(\mathbf{x})^\top \cdot \varphi_{\text{IMQ }j}(\mathbf{y})= \sum_{j=0}^{M} \left( \frac{(2j)!}{(j!)^2 4^j} \left( \frac{b}{a} \right)^j (\mathbf{x}^\top \cdot \mathbf{y})^j \right) = K_{\text{IMQ}},\\[20pt]M \to \infty

Проверка сходимости разложения

Несмотря на то, что видно, что данные ядра вычисляют скалярное произведение в бесконеченомерном пространстве, это происходит при условии, когда вышеперечисленные ряды сходятся, поэтому сейчас проверим условие сходимости.

Условие сходимости геометрической прогрессии для обоих ядер:

|z| < 1\left| \frac{b}{a} (\mathbf{x}^\top \cdot \mathbf{y}) \right| < 1

По неравенству Коши-Буняковского:

| \mathbf{x}^\top \cdot \mathbf{y} | \leq \| \mathbf{x} \| \| \mathbf{y} \|\left| \frac{b}{a} (\mathbf{x}^\top \cdot \mathbf{y}) \right| \leq \frac{b}{a} \| \mathbf{x} \| \| \mathbf{y} \| = \frac{2\lambda^2 \| \mathbf{x} \| \| \mathbf{y} \|}{1 + \lambda^2 (\| \mathbf{x} \|^2 + \| \mathbf{y} \|^2)}

Наша задача — показать, что:

\frac{2\lambda^2 \| \mathbf{x} \| \| \mathbf{y} \|}{1 + \lambda^2 (\| \mathbf{x} \|^2 + \| \mathbf{y} \|^2)}  < 1

Умножим обе части неравенства на знаменатель (так как знаменатель не равен нулю и всегда положителен):

2\lambda^2 \| \mathbf{x} \| \| \mathbf{y} \| < 1 + \lambda^2 (\| \mathbf{x} \|^2 + \| \mathbf{y} \|^2)\lambda^2 ( 2\| \mathbf{x} \| \| \mathbf{y} \| -   \| \mathbf{x} \|^2 -  \| \mathbf{y} \|^2)< 1

Заметим, что:

2\| \mathbf{x} \| \| \mathbf{y} \| -   \| \mathbf{x} \|^2 -  \| \mathbf{y} \|^2 =  -(\| \mathbf{x} \| -  \| \mathbf{y} \|)^2 \leq 0 < 1

Так как неравенство является справедливым:

\lambda^2 ( 2\| \mathbf{x} \| \| \mathbf{y} \| -   \| \mathbf{x} \|^2 -  \| \mathbf{y} \|^2)< 1

То выполняется и данное условие:

\left| \frac{b}{a} (\mathbf{x}^\top \cdot \mathbf{y}) \right| < 1

3.2.1 Многослойная RBF нейронная сеть

То, что мы рассмотрели RBF-нейронную сеть с одним скрытым слоем, в целом можно экстраполировать на многослойную, где мы рекурсивно применяем набор RBF-ядер.

Для первого слоя:

\mathbf{h}^{(1)} =  \begin{bmatrix}  K_\text{RBF}\left(\frac{\mathbf{x} - \mathbf{c}_1^{(1)}}{\lambda_1^{(1)}}\right) \\  K_\text{RBF}\left(\frac{\mathbf{x} - \mathbf{c}_2^{(1)}}{\lambda_2^{(1)}}\right) \\  \vdots \\  K_\text{RBF}\left(\frac{\mathbf{x} - \mathbf{c}_{M_1}^{(1)}}{\lambda_{M_1}^{(1)}}\right)  \end{bmatrix}

Для второго слоя:

\mathbf{h}^{(2)} =   \begin{bmatrix}   K_\text{RBF}\left(\frac{\mathbf{h}^{(1)} - \mathbf{c}_1^{(2)}}{\lambda_1^{(2)}}\right) \\   K_\text{RBF}\left(\frac{\mathbf{h}^{(1)} - \mathbf{c}_2^{(2)}}{\lambda_2^{(2)}}\right) \\   \vdots \\   K_\text{RBF}\left(\frac{\mathbf{h}^{(1)} - \mathbf{c}_{M_2}^{(2)}}{\lambda_{M_2}^{(2)}}\right)   \end{bmatrix}

И так далее, доL-го слоя:

f_\text{MRBFN}(\mathbf{x}) = \begin{bmatrix} w_1 & w_2 & \dots & w_{M_L} \end{bmatrix} \cdot \mathbf{h}^{(L)}

Здесь:

  • \mathbf{c}_i^{(l}– центры RBF-нейронов на l-м слое.

  • \lambda^{(l)}_i– ширина ядра на l-м слое.

  • M_l – количество нейронов на l-м слое.

Но увы, многослойные RBF-нейронные сети не получили широкой популярности в сообществе. Исследований на эту тему крайне мало, обсуждений на форумах тоже практически не встретишь. Более того, мне так и не удалось найти формального доказательства того, что многослойная RBF-сеть обладает свойством универсальной аппроксимации. Поэтому я приведу это доказательство сам.

Теорема универсальной аппроксимации многослойной RBF нейронной сети

В данном доказательстве за основу будет использоватся работа Дж. Парка и В. Сандберга – «Universal Approximation Using Radial-Basis-Function Networks»

Теорема 1: ПлотностьS_Kв L^p(\mathbb{R}^r) (Park, J.; I. W. Sandberg, 1991)

Пусть K: \mathbb{R}^r \rightarrow \mathbb{R} – интегрируемая, ограниченная функция, непрерывная почти всюду и такая, что:

\int_{\mathbb{R}^n} K(x) \, dx \neq 0

Тогда семействоS_K,​состоящее из конечных линейных комбинаций сдвигов функцииK,

S_K = \left\{ \sum_{i=1}^M w_i K(\mathbf{x} - \mathbf{c}_i) : M \in \mathbb{N},\ w_i \in \mathbb{R},\ \mathbf{c}_i \in \mathbb{R}^r \right\}

плотно вL^p(\mathbb{R}^r)для любогоp \in [1, \infty).

Tеорема 2: Плотность S_K​ в C(\mathbb{R}^r) с метрикой d (Park, J.; I. W. Sandberg, 1991)

ПустьK: \mathbb{R}^r \rightarrow \mathbb{R}– интегрируемая, ограниченная и непрерывная функция, такая, что:

\int_{\mathbb{R}^r} K(x) \, dx \neq 0

Тогда семействоS_K,​состоящее из функций вида:

q(x) = \sum_{i=1}^M w_i K(x - c_i)

гдеM \in \mathbb{N},w_i \in \mathbb{R},иc_i \in \mathbb{R}^r,плотно вC(\mathbb{R}^r)относительно метрики:

d(f, g) = \sum_{n=1}^\infty 2^{-n} \frac{\| (f - g) \cdot 1_{[-n, n]^r} \|_\infty}{1 + \| (f - g) \cdot 1_{[-n, n]^r} \|_\infty}

Теорема 3: Универсальная аппроксимация многослойными RBF сетями

ПустьK: \mathbb{R}^r \rightarrow \mathbb{R}– интегрируемая, ограниченная и непрерывная функция, такая что:

\int_{\mathbb{R}^r} K(x) \, dx \neq 0

иKне является константой. Предположим, что каждый скрытый слой сети имеет параметр сглаживания \lambda_l > 0.Тогда семейство многослойных RBF сетей с произвольным числом слоев L \geq 2и произвольным числом нейронов в каждом слое M_l плотно в C(\mathbb{R}^r) относительно равномерной аппроксимации на компактных множествах.

Доказательство:

Докажем это методом математической индукции по числу слоевL.

Базовый случай (L = 2):

При L = 2 сеть представляет собой стандартную RBF сеть с одним скрытым слоем.
Согласно теореме 2, семейство S_K плотно в C(\mathbb{R}^r).
Следовательно, утверждение верно для L = 2.

Индуктивный шаг:

Предположим, что теорема верна для некоторого L = k \geq 2,то есть любую функцию f \in C(\mathbb{R}^r) можно аппроксимировать равномерно на компактных множествах с помощью сети с k слоями.

Теперь докажем, что утверждение верно дляL = k + 1.

Лемма 3.1: Композиция универсальных аппроксиматоров

Если функцию f: \mathbb{R}^r \rightarrow \mathbb{R} можно аппроксимировать с произвольной точностью функциями из семейства A,а функцию h: \mathbb{R} \rightarrow \mathbb{R} можно аппроксимировать с произвольной точностью функциями из семейства B,то композицияh \circ fможет быть аппроксимирована композициями функций из B и функций изA.

Доказательство:

Пусть \hat{f} \in A и \hat{h} \in B такие, что

\| f - \hat{f} \|_\infty < \delta, \quad \| h - \hat{h} \|_\infty < \delta\| h \circ f - \hat{h} \circ \hat{f} \|_\infty \leq \| h \circ f - h \circ \hat{f} \|_\infty + \| h \circ \hat{f} - \hat{h} \circ \hat{f} \|_\infty

Поскольку h равномерно непрерывна на значениях функции f,существуетL_h > 0такое, что

\| h \circ f - h \circ \hat{f} \|_\infty \leq L_h \| f - \hat{f} \|_\infty < L_h \delta\| h \circ \hat{f} - \hat{h} \circ \hat{f} \|_\infty = \| h - \hat{h} \|_\infty < \delta\| h \circ f - \hat{h} \circ \hat{f} \|_\infty < (L_h + 1) \delta

Выбирая \delta достаточно малым, мы можем сделать ошибку аппроксимации произвольно малой.

Лемма 3.2: Композиция в многослойных сетях

Если функция f может быть аппроксимирована с точностью \delta сетью сk слоями, и функция идентичности \text{id}: \mathbb{R} \rightarrow \mathbb{R} может быть аппроксимирована на компактном множестве с точностью \delta дополнительным слоем (с использованием функций изS_K​), то сеть с k + 1 слоями аппроксимирует f с точностью (L_h + 1) \delta.

Доказательство:

Пустьf_k– аппроксимация функции f сетью с k слоями, так что| f - f_k |_\infty < \delta.

Пустьh– функция идентичности, а h' – её аппроксимация дополнительным слоем, так что \| h - h' \|_\infty < \delta на значениях функции f_k​.

Тогда h' \circ f_k аппроксимируетfс ошибкой (L_h + 1) \delta,используя результат из леммы 3.1.

Лемма 3.3: Линейная комбинация универсальных аппроксиматоров

Линейная комбинация функций, каждая из которых может аппроксимировать любую функцию из определенного класса с заданной точностью, также может аппроксимировать любую функцию из этого класса с нужной точностью.

Доказательство:

Пусть f_i​ аппроксимирует f с \| f - f_i \|_\infty < \epsilon_i дляi = 1, \dots, N.

Рассмотрим линейную комбинацию:

F = \sum_{i=1}^N w_i f_i

Выбирая коэффициентыc_iсоответствующим образом и минимизируя \epsilon_i,можно обеспечить \| f - F \|_\infty < \epsilon для любого желаемого\epsilon > 0.

Завершение индуктивного шага:

По индукционному предположению существует f_k такая, что

\| f - f_k \|_\infty < \frac{\epsilon}{2(L_h + 1)}

Поскольку K удовлетворяет условиям теоремы 2, функцию идентичности можно аппроксимировать на значениях функции f_k с точностью

\delta = \frac{\epsilon}{2(L_h + 1)}

Функция f_{k+1} = h' \circ f_k​ аппроксимирует f с точностью

\| f - f_{k+1} \|_\infty \leq (L_h + 1) \delta = \epsilon / 2

Используя лемму 3.3, можно настроить выходной слой (линейная комбинация выходов) для уменьшения ошибки до значения менее \epsilon.

Следовательно, сеть с k + 1слоями может аппроксимировать f с точностью \epsilon.

По индукции, теорема 3 верна для всех L \geq 2.

Следствие 3.1: Универсальная аппроксимация векторнозначных функций

Многослойные RBF сети с любым числом слоев L \geq 2 и любым числом выходов m являются универсальными аппроксиматорами для векторнозначных функций f: \mathbb{R}^r \rightarrow \mathbb{R}^m.

Так как каждая компонента f_j векторнозначной функции f может аппроксимироваться независимо многослойной RBF сетью, как показано в теореме 3. Объединяя аппроксимации всех компонент, получаем аппроксимацию функцииf с нужной точностью.

Следствие 3.2: Универсальная аппроксимация в пространствах

Многослойные RBF сети являются универсальными аппроксиматорами в пространстве L^p(\mathbb{R}^r) для любого p \in [1, \infty).

Используя теорему 1 и теорему 3, мы видим, что семейство S_K плотно в L^p(\mathbb{R}^r).Следовательно, многослойные RBF сети могут аппроксимировать любую функцию в L^p(\mathbb{R}^r)с произвольной точностью.

Основная причина, почему этот подход остался в тени, кроется в том, как RBF-сети традиционно обучали. Обычно процесс выглядел так: данные сначала кластеризовали, центры кластеров брали в качестве параметров для RBF-нейронов, а затем настраивали веса только для линейного выходного слоя. В результате необходимость в многослойной архитектуре просто отпадала, делая её использование нелогичным и неоправданным.

Однако с развитием машинного обучения, когда стали массово применять метод обратного распространения ошибки, многослойные сети набрали большую популярность. Казалось бы, это должно было дать новый импульс и для многослойных RBF-сетей. Но увы, ассоциации с этим методом остались на уровне устаревшего подхода с одним скрытым слоем. Это, мягко говоря, несправедливо, ведь потенциал таких сетей гораздо шире.

В следующем разделе про KAN я более подробно покажу это, сравнив многослойные RBF-сети с другим, но подобным по концепции преобразования, вариантом KAN.

Реализация многослойной RBF нейронной сети на PyTorch.

Так как данная сеть может на практике сталкиватся с проблемой затухающих градиентов, я приведу два варианиа кода: с реализацией SkipConnection и DenseNet.

SkipConection MRBFN

import torch
import torch.nn as nn

# ---------------------
# Классический RBF слой
# ---------------------

class RBF(nn.Module):
    def __init__(self, in_features, out_features, basis_func, per_dimension_sigma=False):
        """
        Arg:
            per_dimension_sigma (bool): 
                Если True, для каждого выходного нейрона и каждого входного признака обучается отдельное значение σ.
                Если False, для каждого выходного нейрона используется одно общее значение σ для всех входных признаков.
        """
        super(RBF, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.per_dimension_sigma = per_dimension_sigma
        self.basis_func = basis_func

        if self.per_dimension_sigma:
            self.log_sigmas = nn.Parameter(torch.Tensor(out_features, in_features))

        else:
            self.log_sigmas = nn.Parameter(torch.Tensor(out_features))

        self.centres = nn.Parameter(torch.Tensor(out_features, in_features))
        self.reset_parameters()

    def reset_parameters(self):

        nn.init.normal_(self.centres, mean=0.0, std=1.0)
        nn.init.constant_(self.log_sigmas, 0.0)

    def forward(self, input):

        B = input.size(0)
        x = input.unsqueeze(1).expand(B, self.out_features, self.in_features)
        c = self.centres.unsqueeze(0).expand(B, self.out_features, self.in_features)

        if self.per_dimension_sigma:
            sigma = torch.exp(self.log_sigmas).unsqueeze(0).expand(B, self.out_features, self.in_features)
            distances = ((x - c).pow(2) / sigma).sum(dim=-1)

        else:
            sigma = torch.exp(self.log_sigmas).unsqueeze(0).expand(B, self.out_features)
            distances = (x - c).pow(2).sum(dim=-1) / sigma

        return self.basis_func(distances)

def gaussian_rbf(distances):
    return torch.exp(-distances)

      
# -----------------------------------------------------
# RBF слой с использованием идеи SkipConnection(ResNet)
# -----------------------------------------------------
  
class RBFResBlock(nn.Module):
    def __init__(self, in_features, out_features, basis_func, per_dimension_sigma=False):
        super(RBFResBlock, self).__init__()

        self.rbf = RBF(in_features, out_features, basis_func, per_dimension_sigma)

        if in_features != out_features:
            self.skip_connection = nn.Linear(in_features, out_features)

        else:
            self.skip_connection = nn.Identity()

    def forward(self, x):

        rbf_output = self.rbf(x)
        skip_connection_output = self.skip_connection(x)
        return rbf_output + skip_connection_output

# ------------------------
# Пример модели с 4 слоями
# ------------------------
      
class ResMRBFN(nn.Module):
    def __init__(self, in_features, hidden_units1, hidden_units2, hidden_units3, out_features, per_dimension_sigma=False):
        super(ResMRBFN, self).__init__()

        self.rbf_block1 = RBFResBlock(in_features, hidden_units1, gaussian_rbf, per_dimension_sigma)

        self.rbf_block2 = RBFResBlock(hidden_units1, hidden_units2, gaussian_rbf, per_dimension_sigma)

        self.rbf_block3 = RBFResBlock(hidden_units2, hidden_units3, gaussian_rbf, per_dimension_sigma)

        self.linear_final = nn.Linear(hidden_units3, out_features)

    def forward(self, x):

        x1 = self.rbf_block1(x)

        x2 = self.rbf_block2(x1)

        x3 = self.rbf_block3(x2)

        return self.linear_final(x3)

Dense MRBFN

import torch
import torch.nn as nn

# ---------------------
# Классический RBF слой
# ---------------------

class RBF(nn.Module):
    def __init__(self, in_features, out_features, basis_func, per_dimension_sigma=False):
        """
        Arg:
            per_dimension_sigma (bool): 
                Если True, для каждого выходного нейрона и каждого входного признака обучается отдельное значение σ.
                Если False, для каждого выходного нейрона используется одно общее значение σ для всех входных признаков.
        """
        super(RBF, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.per_dimension_sigma = per_dimension_sigma
        self.basis_func = basis_func

        if self.per_dimension_sigma:
            self.log_sigmas = nn.Parameter(torch.Tensor(out_features, in_features))

        else:
            self.log_sigmas = nn.Parameter(torch.Tensor(out_features))

        self.centres = nn.Parameter(torch.Tensor(out_features, in_features))
        self.reset_parameters()

    def reset_parameters(self):

        nn.init.normal_(self.centres, mean=0.0, std=1.0)
        nn.init.constant_(self.log_sigmas, 0.0)

    def forward(self, input):

        B = input.size(0)
        x = input.unsqueeze(1).expand(B, self.out_features, self.in_features)
        c = self.centres.unsqueeze(0).expand(B, self.out_features, self.in_features)

        if self.per_dimension_sigma:
            sigma = torch.exp(self.log_sigmas).unsqueeze(0).expand(B, self.out_features, self.in_features)
            distances = ((x - c).pow(2) / sigma).sum(dim=-1)

        else:
            sigma = torch.exp(self.log_sigmas).unsqueeze(0).expand(B, self.out_features)
            distances = (x - c).pow(2).sum(dim=-1) / sigma

        return self.basis_func(distances)

def gaussian_rbf(distances):
    return torch.exp(-distances)

      
# ---------------------------------------
# RBF слой с использованием идей DenseNet
# ---------------------------------------
     
class RBFDenseBlock(nn.Module):
    def __init__(self, in_features, out_features, basis_func, per_dimension_sigma=False):
        super(RBFDenseBlock, self).__init__()

        self.rbf = RBF(in_features, out_features, basis_func, per_dimension_sigma)

    def forward(self, x, previous_outputs):

        combined_inputs = torch.cat(previous_outputs, dim=1)

        rbf_densenet_output = self.rbf(combined_inputs)

        return rbf_densenet_output

      
class TransitionLayer(nn.Module):
    def __init__(self, in_features, out_features):
        super(TransitionLayer, self).__init__()

        self.transition = nn.Sequential(
            nn.Linear(in_features, out_features),
            nn.Mish(),
        )

    def forward(self, x):
        return self.transition(x)      

      
# ------------------------
# Пример модели с 4 слоями
# ------------------------

def gaussian_rbf(distances):
    return torch.exp(-distances)


class DenseMRBFN(nn.Module):
    def __init__(self, in_features, hidden_units1, hidden_units2, hidden_units3, out_features, per_dimension_sigma=False):
        super(DenseMRBFN, self).__init__()

        self.rbf_block1 = RBFDenseBlock(in_features, hidden_units1, gaussian_rbf, per_dimension_sigma)
        self.transition1 = TransitionLayer(in_features + hidden_units1, hidden_units1)

        self.rbf_block2 = RBFDenseBlock(in_features + hidden_units1, hidden_units2, gaussian_rbf, per_dimension_sigma)
        self.transition2 = TransitionLayer(in_features + hidden_units1 + hidden_units2, hidden_units2)

        self.rbf_block3 = RBFDenseBlock(in_features + hidden_units1 + hidden_units2, hidden_units3, gaussian_rbf, per_dimension_sigma)
        self.transition3 = TransitionLayer(in_features + hidden_units1 + hidden_units2 + hidden_units3, hidden_units3)

        self.linear_final = nn.Linear(hidden_units3, out_features)

    def forward(self, x):
        outputs = [x]

        x1 = self.rbf_block1(x, outputs)
        outputs.append(x1)
        x1 = self.transition1(torch.cat(outputs, dim=1))

        x2 = self.rbf_block2(x1, outputs)
        outputs.append(x2)
        x2 = self.transition2(torch.cat(outputs, dim=1))

        x3 = self.rbf_block3(x2, outputs)
        outputs.append(x3)
        x3 = self.transition3(torch.cat(outputs, dim=1))

        return self.linear_final(x3)


4. Объяснение архитектуры KAN: Kolmogorov-Arnold Networks

Для начала предлагаю определить ключевые термины в контексте данного раздела, чтобы избежать путаницы в дальнейшем.

KAN – семейство нейронных сетей прямого распространения имеющих следующий вид:

{\small f_\text{KAN}(\mathbf{x}) = \sum_{i_L=1}^{n_L} \phi_{L-1, i_L, i_{L-1}} \left(   \sum_{i_{L-1}=1}^{n_{L-1}} \phi_{L-2, i_{L-1}, i_{L-2}} \left(   \cdots \left(   \sum_{i_1=1}^{n_1} \phi_{1, i_2, i_1} \left(   \sum_{i_0=1}^{n_0} \phi_{0, i_1, i_0}(x_{i_0})  \right)   \right)     \right)   \right)}

То есть искомую функцию можно разложить на суперпозиции суммы функций одной переменной \phi_{l,i_{l+1},i_l}(x_{i_l}).В последнем слое индекс i_Lозначает, что функция может быть векторозначной.

Где каждая сумма (слой) \sum_{i_l=1}^{n_l}  \phi_{l,i_{l+1},i_l}(x_{i_l}) представляет собой преобразование подобного рода:

\mathbf{x}_{l+1} = \sum_{i_l=1}^{n_l}  \phi_{l,i_{l+1},i_l}(x_{i_l}) \\[20pt] \\= \left[ \begin{array}{cccc}    \phi_{l,1,1}(x_{1}) & + & \phi_{l,1,2}(x_{2}) & + \cdots + & \phi_{l,1,n_l}(x_{n_l}) \\    \phi_{l,2,1}(x_{1}) & + & \phi_{l,2,2}(x_{2}) & + \cdots + & \phi_{l,2,n_l}(x_{n_l}) \\    \vdots &  & \vdots & \ddots & \vdots \\    \phi_{l,n_{l+1},1}(x_{1}) & + & \phi_{l,n_{l+1},2}(x_{2}) & + \cdots + & \phi_{l,n_{l+1},n_l}(x_{n_l}) \\    \end{array} \right]

B-spline KAN – частный случай KAN при\phi_{l,i_{l+1},i_l}(x_{i_l}) = \phi_{\text{BSKAN }l, i_{l+1}, i_l}(x_{i_l})

\phi_\text{BSKAN}(x)=w_b​​f_\text{base}(x)+w_s f_\text{spline}(x)​f_\text{base} = \text{silu}(x) = \frac{x}{1 + e^{-x}}f_\text{spline}(x) = \sum_i w_i B^k_i(x), \\[10pt] \text{где}\   B_i(x) \ \text{– B-сплайн степени k на одном слое}

Нейронная сеть будет иметь следующий вид:

f_\text{BSKAN}(\mathbf{x}) = \sum_{i_L=1}^{n_L} \phi_{\scriptscriptstyle \text{BSKAN } L-1, i_L, i_{L-1}}  \left(   \cdots \left(   \sum_{i_1=1}^{n_1} \phi_{\scriptscriptstyle \text{BSKAN } 1, i_2, i_1} \left(   \sum_{i_0=1}^{n_0} \phi_{\scriptscriptstyle \text{BSKAN } 0, i_1, i_0} (x_{i_0})  \right)   \right)   \right)

Где каждый слой представляет собой преобразование подобного рода:

\mathbf{x}_{l+1} = \sum_{i_l=1}^{n_l} \phi_{\text{BSKAN }l, i_{l+1}, i_l}(x_{i_l}) \\[20pt]=    \begin{bmatrix}    \phi_{\text{BSKAN }_{l,1,1}}(x_{1}) + \phi_{\text{BSKAN }_{l,1,2}}(x_{2}) + \dots + \phi_{\text{BSKAN }_{l,1,n_l}}(x_{n_l}) \\    \phi_{\text{BSKAN }_{l,2,1}}(x_{1}) + \phi_{\text{BSKAN }_{l,2,2}}(x_{2}) + \dots + \phi_{\text{BSKAN }_{l,2,n_l}}(x_{n_l}) \\    \vdots \\    \phi_{\text{BSKAN }_{l,n_{l+1},1}}(x_{1}) + \phi_{\text{BSKAN }_{l,n_{l+1},2}}(x_{2}) + \dots + \phi_{\text{BSKAN }_{l,n_{l+1},n_l}}(x_{n_l})    \end{bmatrix}

Официальная реализация B-spline KAN доступна в репозитории pykan на GitHub.

Хочу также уточнить, что авторы оригинального исследования определяют также KAN, но остановились на B-сплайнах как удобном выборе для параметризации этих одномерных функций. Они просто рассматривают реализацию, тогда как моя цель – обобщить многие архитектуры, используя их расширение теоремы Колмогорова-Арнольда на произвольный случай. Поэтому я и назвал их реализацию B-spline KAN, отделив её от KAN.

4.1 MLP как частный случай KAN

Мы уже рассматривали аффинное преобразование и применение функции активации как суперпозицию функций одной переменной в пункте: 2.2 «Аффинное преобразование и применение функции активации как функции преобразования и суперпозиции суммы функций».

\mathbf{x}_{l+1} = \sum_{i_l=1}^{n_l}  \phi_{l,i_{l+1},i_l}(x_{i_l}) \\[20pt]   =\left[ \begin{array}{cccc}     \phi_{l,1,1}(x_{1}) & + & \phi_{l,1,2}(x_{2}) & + \cdots + & \phi_{l,1,n_l}(x_{n_l}) \\     \phi_{l,2,1}(x_{1}) & + & \phi_{l,2,2}(x_{2}) & + \cdots + & \phi_{l,2,n_l}(x_{n_l}) \\     \vdots &  & \vdots & \ddots & \vdots \\     \phi_{l,n_{l+1},1}(x_{1}) & + & \phi_{l,n_{l+1},2}(x_{2}) & + \cdots + & \phi_{l,n_{l+1},n_l}(x_{n_l}) \\     \end{array} \right], \\[10pt] \quad \\[10pt]  \text{где} \\[10pt]   \phi_{l,i_{l+1},i_l}(x_{i_l}) = w_{l,i_{l+1},i_l }\cdot f_{\text{activation, }l}(x_{i_l})+ b_{l,i_{l+1}, i_l}

Если мы сравним это со слоем в KAN, то увидим, что функция активации и последующее аффинное преобразование составляют один слой в KAN. Первый слой, очевидно, будет состоять из линейных функций. \phi_{0,i_1,i_0}(x_{l,i}) = w_{ i_1, i_0} \cdot x_{i_0}+ b_{ i_1, i_0}.И в контексте данной интерпретации все функции\phi_{l,i_{l+1},i_l}(x_{i_l})являются обучаемыми, хоть и не могут аппроксимировать в большинстве своем функции одной переменной. Это связано с тем, что они, по сути, являются масштабированными функциями активации, которые также в большинстве своем не обладают данной возможностью.

Тем самым можно заключить логичный вывод, что MLP является частным случаем KAN. Несмотря на то, что KAN и MLP являются подвидами нейронных сетей прямого распространения, KAN обобщает MLP на случай произвольных функций одной переменной.

Но также предлагаю рассмотреть, что из себя представляет часть существующих теорем универсальной аппроксимации для MLP в контексте KAN. Для начала рассмотрим теорему Цыбенко, которая утверждает, что нейронные сети с одним скрытым слоем и произвольным числом нейронов, использующие сигмоидные функции активации, обладают свойством универсальной аппроксимации.

Это идентично KAN с двумя слоями:

f_\text{Cybenko}(\mathbf{x}) = \sum_{i_1=1}^{n_1} \phi_{1,i_1} \left( \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}(x_{i_0}) \right)

В первом слое все функции будут линейными, а во втором используются сигмоидные функции активации и масштабирующие коэффициенты для каждой из них.

Первый слой:

\mathbf{x}_1 = \sum_{i_0=1}^{n_0} w_{i_1,i_0} x_{i_0} + b_{i_1} \\[20pt]  =\begin{bmatrix}     w_{1,1} x_{1} & + & w_{1,2} x_{2} & + & \cdots & + & w_{1,n_0} x_{n_0} & + & b_{1} \\     w_{2,1} x_{1} & + & w_{2,2} x_{2} & + & \cdots & + & w_{2,n_0} x_{n_0} & + & b_{2} \\     \vdots &  & \vdots &  & \ddots &  & \vdots &  & \vdots \\     w_{n_1,1} x_{1} & + & w_{n_1,2} x_{2} & + & \cdots & + & w_{n_1,n_0} x_{n_0} & + & b_{n_1}     \end{bmatrix}\\[30pt]  = \sum_{i_0=1}^{n_0} \phi_{i_1,i_0}(x_{i_0})\\[20pt]  =   \begin{bmatrix}    \phi_{1,1}(x_{1}) + \phi_{1,2}(x_{2}) + \dots + \phi_{1,n_0}(x_{n_0}) + \phi_{1,n_0}(x_{n_0}) \\[20pt]    \phi_{2,1}(x_{1}) + \phi_{2,2}(x_{2}) + \dots + \phi_{2,n_0}(x_{n_0}) + \phi_{2,n_0}(x_{n_0}) \\    \vdots \\    \phi_{n_1,1}(x_{1}) + \phi_{n_1,2}(x_{2}) + \dots + \phi_{n_1,n_0}(x_{n_0}) + \phi_{n_1,n_0}(x_{n_0})     \end{bmatrix},  \\[50pt]

И второй выходной:

 f_\text{Cybenko}(\mathbf{x}_1) = \sum_{i_1=1}^{n_1} w_{i_1} \sigma(x_{i_!}) +b  \\[25pt]  = w_{1} \sigma(x_1) + w_{2} \sigma(x_2) + \cdots + w_{n_1} \sigma(x_{n_1})  +b\\[20pt]= \sum_{i_1=1}^{n_1} \phi_{1,i_1} \left( \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}(x_{i_0}) \right)

В итоге мы получаем модель, в которой сначала выполняется аффинное преобразование в определённое подпространствоN- мерного пространства, затем применяется сигмоидная функция активации, после чего выполняется ещё одно аффинное преобразование и на выходе получается скаляр (для векторнозначных функций – вектор).

f_\text{Cybenko}(\mathbf{x}) = \mathbf{W}_2 \cdot \sigma(\mathbf{W}_1 \cdot \mathbf{x}+\mathbf{b}_\text{in})+\mathbf{b}_\text{out}

И в контексте KAN, теорему универсальной аппроксимации Цыбенко можно рассмотреть как теорему, которая определяет структуру KAN, которая обладает свойствами универсальной аппроксимации.

Также предлагаю рассмотреть случай ограниченной ширины и глубины нейронной сети, взяв к примеру теорему универсальной аппроксимации Н. Кулиева и В. Исмаилова из данной работы.

Котоорая гласит, что любая непрерывная функция, определённая на d-мерной области, может быть аппроксимирована нейронной сетью с двумя скрытыми слоями и сигмоидными и функциями активации:

f(x)_\text{Guliyev, Ismailov} = \sum_{p=1}^{2d+2} w_p \, \sigma\left( \sum_{q=1}^d w_{pq} \, \sigma\left( x_q + b_{pq} \right) + b_p \right)

Первый слой:

\mathbf{x}_1 = \sum_{q=1}^d \phi_{0,p,q}(x_q) \\[20pt]=   \begin{bmatrix}   w_{1,1}\sigma(w_{1,1}x_1 - b_{1,1}) & + & \dots & + & w_{1,d}\sigma(w_{1,d}x_d - b_{1,d}) \\   w_{2,1}\sigma(w_{2,1}x_1 - b_{2,1}) & + & \dots & + & w_{2,d}\sigma(w_{2,d}x_d - b_{2,d}) \\   \vdots &  & \ddots &  & \vdots \\   w_{2d+2,1}\sigma(w_{2d+2,1}x_1 - b_{2d+2,1}) & + & \dots & + & w_{2d+2,d}\sigma(w_{2d+2,d}x_d - b_{2d+2,d}) \\   \end{bmatrix}

Второй слой (выходной):

f(x)_\text{Guliyev, Ismailov} = \sum_{p=1}^{2d+2} \phi_{1,p}(x_p) \\[20pt] =   \begin{bmatrix}    w_{1}\sigma(\cdot) + \dots + w_{2d+2}\sigma(\cdot)     \end{bmatrix}   \cdot   \begin{bmatrix}    \sum_{q=1}^{d} w_{1,q}\sigma(w_{1,q}x_q - b_{1,q}) - b_{1} \\    \sum_{q=1}^{d} w_{2,q}\sigma(w_{2,q}x_q - b_{2,q}) - b_{2} \\    \vdots \\    \sum_{q=1}^{d} w_{2d+2,q}\sigma(w_{2d+2,q}x_q - b_{2d+2,q}) - b_{2d+2}    \end{bmatrix}

Собственно также, как и в случае с теоремой Цыбенко, здесь мы определяем структуру KAN с ограниченной шириной и глубиной, которая обладает универсальной аппроксимацией.

Ну и рассмотрим теоремы универсальной аппроксимации для случая произвольной ширины и глубины, которые упоминались в начале раздела про MLP, а именно теоремы Хорника и Лешно. Если рассматривать эти случаи в контексте KAN, то первый слой представляет собой аффинное преобразование, а последующие слои – преобразования, состоящие из масштабированных функций активации. При этом функция активации одинакова для всего слоя. В случае Хорника она должна быть непрерывной, ограниченной, неконстантой и неполиномиальной, а в случае теоремы Лешно допускаются кусочно-непрерывные функции и лишь локально ограниченные, а также не являющиеся полиномами почти всюду.

{\small f(\mathbf{x}) = \sum_{i_L=1}^{n_L} \phi_{L-1, i_L, i_{L-1}} \left(   \sum_{i_{L-1}=1}^{n_{L-1}} \phi_{L-2, i_{L-1}, i_{L-2}} \left(   \cdots \left(   \sum_{i_1=1}^{n_1} \phi_{1, i_2, i_1} \left(   \sum_{i_0=1}^{n_0} \phi_{0, i_1, i_0}(x_{i_0})  \right)   \right)   \cdots   \right)   \right)}

Где во входном слое фукнции \phi_{0,i_1,i_0}(x_{l,i}) = w_{ i_1, i_0}\cdot x_{i_0} + b_{ i_1, i_0},а во всех остальных – \phi_{l,i_{l+1},i_l}(x_{i_l}) = w_{l,i_{l+1}, i_l}\cdot f_{\text{activation, }l}(x_{i_l})+ b_{l, i_{l+1}, i_l}.

4.2 Теорема Колмогорова — Арнольда

Исследователи из MIT, предложив архитектуру B-spline KAN, вдохновились теоремой Колмогорова-Арнольда о представлении функций и расширили её. Однако в данном случае я предлагаю рассмотреть не архитектуру KAN через призму теоремы Колмогорова-Арнольда, а наоборот, что представляет собой теорема Колмогорова-Арнольда в контексте архитектуры KAN.

Андрей Колмогоров и Владимир Арнольд установили, что если fявляется функцией нескольких перменных, то f может быть записана как конечная композиция непрерывных функций одной переменной и операций сложения:

f(\mathbf{x}) = f(x_1, \ldots, x_n) = \sum_{q=0}^{2n} \Phi_q \left( \sum_{p=1}^n \phi_{q,p}(x_p) \right),\\[20pt]\text{где } \phi_{q,p} : [0, 1] \to \mathbb{R} \text{ и } \Phi_q : \mathbb{R} \to \mathbb{R}.

И хотя это не теорема универсальной аппроксимации, так как она утверждает просто о способности разложения функции, в контексте архитектуры KAN теорему Колмогорова-Арнольда можно рассматривать как теорему, определяющую структуру сети KAN и образующую подмножество сетей с ограниченной шириной и глубиной.

Однако можно рассмотреть её вариант, который очевидно является элементом множества KAN и, в том числе, элементом подмножества KAN, в виде MLP. Мы уже разбирали его в предыдущем пункте, а именно – теорему универсальной аппроксимации Н. Кулиева и В. Исмаилова для двухслойного MLP. В качестве основы для доказательства они использовали теорему Колмогорова-Арнольда, по сути доказывая, что частный случай теоремы способен аппроксимировать любую непрерывную функцию на компактном множестве, с контролируемой ошибкой аппроксимации.

При этом интересно, что Теорема Колмогорова-Арнольда появилась задолго до известных архитектур 1990-х годов. Более того, она была опубликована в тот же год, когда Фрэнк Розенблатт предложил идею перцептрона – в 1957 году. И только спустя 67 лет исследователи из MIT, вдохновившись этой теоремой, предложили идею для создания KAN, который объединяет огромное количество вариантов сетей прямого распространения.

4.3 B-spline KAT и B-spline KAN

Рассмотрим для начала B-spline теорему Колмогорова-Арнольда (B-spline KAT). Мы уже обсуждали, что можем представить MLP в контексте KAN как нейронную сеть с первым слоем аффинного преобразования, где каждая функция имеет вид \phi(x)= w\cdot x+b,и последующими преобразованиями, где функция в общем виде \phi(x) = w\cdot f_{\text{activation}}(x)  +b, в которой f_{\text{activation}}(x) заранее определена для всего слоя.

Несмотря на то, что функции  \phi(x) являются обучаемыми, при использовании популярных функций активации, к примеру ReLU, Mish, Swish (SiLU), GELU, функции по сути могут аппроксимировать с заданной точностью крайне маленький класс функций. Поэтому мы можем переопределить KAN, заменив все функции на произвольные B-сплайны, которые обладают куда большей возможностью аппроксимирования, что потенциально может дать больше гибкости модели, а также избавит от проблем выбора конкретной функции активации. Собственно, данный подход и предложили исследователи из MIT как вариант реализации KAN, а также выдвинули и доказали теоретическую часть для этого:

Теорема утверждает, что если целевая функция f(x) представлена как последовательность преобразований:

f(x) = (\Phi_{L-1} \circ \Phi_{L-2} \circ \dots \circ \Phi_1 \circ \Phi_0)x,

где каждое \Phi_{l,i_{l+1},i_l} – это непрерывно дифференцируемая функция(k+1)- раз.
То её можно эффективно аппроксимировать с помощью B-сплайнов.

При этом точность аппроксимации будет зависеть от параметра G,который представляет шаг сетки аппроксимации. Для любых m \in [0, k],ошибка аппроксимацииf(x) через B-сплайны в C^m- норме будет оцениваться rак:

\| f(x) - f_G(x) \|_{C^m} \leq C G^{-k+1+m}

где:

  • G – шаг сетки (чем меньше, тем точнее будет аппроксимация),

  • C – константа, зависящая от функции и её преобразований,

  • k – степень гладкости исходных функций \Phi,

  • m – порядок производной, до которого измеряется точность.

В контексте KAN данная теорема определяет структуру KAN и предоставляет аппроксимацию любой функции в пространстве непрерывных функций, обладающих непрерывными производными порядка k+1 на компактном множестве K – то есть в C^{k+1}(K). При этом множество C^{k+1}(K) является подмножеством пространства непрерывных функций C(K).

И хотя в оригинальном исследовании B-spline KAT предлагаются как альтернатива традиционным теоремам универсальной аппроксимации, её природа аналогична, так как она также утверждает, что существует такая последовательность преобразований \Phi_1, \Phi_2, \dots\ , и что при достаточном количестве нейронов мы можем аппроксимировать любую функцию из определённого множества функций с заданной точностью в пределах\epsilon. Таким образом, B-spline KAT можно также отнести к их числу!

Теперь перейдём к B-spline KAN. Вспомним, что в нем каждая из функций одной переменной задается как:

\phi_\text{BSKAN}(x)=w_b​f_\text{base}(x)+w_s{​f_\text{spline}}(x)​f_\text{base} = \text{silu}(x) = \frac{x}{1 + e^{-x}}f_\text{spline}(x) = \sum_i w_i B^k_i(x), \\[10pt] \text{где}\   B_i(x) \ \text{– B-сплайн степени k на одном слое}

Можно, конечно, интерпретировать, что мы берем модель из B-spline KAT, состоящую из композиции сумм B-сплайнов, добавив просто взвешенную функцию активации от входного вектора. Однако по сути мы берем MLP с \phi(x) = w\cdot f_{\text{activation}}(x)  +b, где вместо константной функции в виде смещения f_\text{bias}(x) = b, мы используем B-сплайны f_\text{bias} = w_s{​f_{spline}}(x).Очевидно, что сплайны могут без проблем аппроксимировать на компактном множестве константную функцию, а значит, теоретически данная модель может сойтись либо к чистому MLP, либо к модификации MLP. Это, в свою очередь, означает, что B-spline KAN в реализации, которую предложили в официальном репозитории pykan, больше напоминает модификацию MLP, чем альтернативную модель, предложенную в B-spline KAT.

4.4 SVM и RBF нейронная сеть как частный случай KAN

Мы уже знаем, что SVM можно представить как нейронную сеть прямого распространения и в некоторых случаях как MLP. В данном случае с линейным ядром, как в общем виде, так и с его разложением, у нас будет, по сути, два слоя с линейным и аффинным преобразованием.

f_{\text{Linear SVM}}(\mathbf{x}) =\sum_{i=1}^{n} \alpha_i y_i K_\text{Linear}(\mathbf{x}_\text{train}, \mathbf{x}) + b  = \mathbf{W}_2(\mathbf{W}_1 \cdot \varphi_\text{linear}(\mathbf{x})) + b \\= \sum_{i=1}^{n} \alpha_i y_i (\mathbf{x}_\text{train}\cdot \mathbf{x}) + b

Если представить в формате KAN, то это будет выглядеть следующим образом:

f_\text{Linear SVM}(x) = \sum_{i_1=1}^{n_1} \phi_{1,i_1} \left( \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}(x_{i_0}) \right),\\[10pt] \text{где} \\[10pt]  \phi_{0,i_1,i_0}(x_{i_0}) = x_{\text{train},i_1, i_0} \cdot x_{i_0}, \\[10pt]  \phi_{1,i_1}(x_{i_1}) = \alpha_{i_1} \cdot y_{i_1} \cdot x_{i_1} +b_{i_1}

С полиномиальным ядром всё в целом аналогично: если не использовать разложение с помощью функции \varphi_{\text{poly }n}​, то мы просто изменяем выходной слой и добавляем смещение во входной слой, производя аффинное преобразование, а не линейное.

f_\text{Poly SVM}(\mathbf{x}) = \sum_{i=1}^{n} \alpha_i y_i \left( \mathbf{x}_\text{train} \cdot \mathbf{x} + \mathbf{b}_\text{in} \right)^k + b_\text{out} =  \sum_{i_1=1}^{n_1} \phi_{1,i_1} \left( \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}({x}_{i_0}) \right) , \\ \text{где}\\[10pt] \phi_{0,i_1,i_0}({x}_{i_0}) = {x}_{\text{train},i_1, i_0} \cdot {x}_{i_0} + b_{\text{in}, i_1}, \\[10pt] \phi_{1,i_1}(x_{i_1}) = \alpha_{i_1} \cdot y_{i_1} \cdot \left( x_{i_1} \right)^k + b_\text{out}.

А вот с разложением с помощью функции \varphi_{\text{poly }n​}всё посложнее. Мы знаем, что формула для SVM выглядит подобным образом (если \mathbf{b}_\text{in} состоит из нулей):

f_\text{Poly SVM}(\mathbf{x})_ = \mathbf{W}_2(\mathbf{W}_1 \cdot \varphi_{\text{poly }n}(\mathbf{x}))+ b_\text{out}

Возьмем простой и привычный пример для двумерных входных данных:

\varphi_{\text{poly }2}(\mathbf{x})  = \begin{bmatrix}x_1^2 \\x_2^2\\  \sqrt{2}x_1x_2\end{bmatrix}

Нам было бы очень интересно подать в виде:

\varphi_{\text{poly }2}(\mathbf{x}) =    \begin{bmatrix}   \phi_{1,1}(x_1) + \phi_{1,2}(x_2) \\   \phi_{2,1}(x_1) + \phi_{2,2}(x_2) \\   \phi_{3,1}(x_1) + \phi_{3,2}(x_2) \\   \end{bmatrix}

Однако последний элемент в виде \sqrt{2}x_1x_2 всё портит. Безусловно, мы его можем разложить подобным образом:

 \sqrt{2}x_1x_2  = \frac{\sqrt{2}}2((x_1 + x_2)^2 - x_1^2-x_2^2)

Но увы, данный вариант не будет работать для произвольного случая. К примеру, для \varphi_{\text{poly }n}полиномиального ядра третьей степени степени для двумерного входного вектора появляется член – \sqrt{3}x_1^2x_2,а его разложение будет выглядеть следующим образом:

\sqrt{3}x_1^2x_2 = \frac{\sqrt{3}}3((x_1 + x_2)^3 - 3x_1x_2^2 -x_1^3-x_2^3)

Как можно увидеть, тут не обойтись без функции двух переменных, которая также раскладывается и так бесконечное количество раз. Для произвольного случая все аналогично, и это можно вывести, используя мультиномиальную теорему.

Существует вариант разложить подобным образом:

c \cdot \prod_{i=1}^n x_i^{a_i} = c \cdot \exp\left(\sum_{i=1}^n a_i \ln|x_i|)\right), x_i>0

Но условие положительности, накладываемое логарифмом, мешает определить конечный знак данного произведения. Мы можем использовать знаковую функцию в виде комплексного члена. И тогда наше преобразование будет выглядеть следующим образом:

c \cdot \prod_{i=1}^n x_i^{a_i} = c \cdot \exp\left( \sum_{i=1}^n a_i \left( \ln|x_i| + i \arg(x_i) \right) \right), x_i \neq0, \\[20pt] arg(x_i) - \text{фаза } x_i​

Исходя из этого всего, можно увидеть, что преобразование с помощью функции \varphi_{\text{poly }n}(\mathbf{x}) , что \varphi_\text{RBF}(\mathbf{x})можно разложить на два слоя KAN.

Теперь рассмотрим RBF-нейронную сеть с одним скрытым слоем и произвольным количеством нейронов в контексте KAN, но уже с использованием ядерного трюка, как это предложено в теореме универсальной аппроксимации (Дж. Парк, В. Сандберг), которую мы обсуждали в пункте 3.2 «RBF нейронная сеть». В контексте KAN её можно воспринимать как теорему, которая формирует KAN для приближения широкого класса функций. Аналогично обсуждаемым ранее теоремам, её структура будет выглядеть следующим образом:

f_\text{Park, Sandberg}(\mathbf{x}) = \sum_{i_1=1}^{n_1} \phi_{1,i_1} \left( \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}(x_{i_0}) \right)  = \sum_{i=1}^{N} w_i K_\text{RBF}(\mathbf{x}, \mathbf{c}_i)
  1. Первый слой:

    \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}(x_{i_0}) = \sum_{i_0=1}^{n_0} (x_{i_0} - c_{i_1,i_0})^2 \\[20pt] =  {\small\left[   \begin{matrix}   (x_{0,1} - c_{1,1})^2 & + & (x_{0,2} - c_{1,2})^2 & + & \dots & + & (x_{0,n_0} - c_{1,n_0})^2 \\   (x_{1,1} - c_{2,1})^2 & + & (x_{1,2} - c_{2,2})^2 & + & \dots & + & (x_{1,n_0} - c_{2,n_0})^2 \\   \vdots &  & \vdots &  & \ddots &  & \vdots \\   (x_{n_1,1} - c_{n_1,1})^2 & + & (x_{n_1,2} - c_{n_1,2})^2 & + & \dots & + & (x_{n_1,n_0} - c_{n_1,n_0})^2 \\   \end{matrix}   \right]}
  2. Второй слой:

    • Гауссово ядро:

      \sum_{i_1=1}^{n_1} \phi_{1, i_1}(x_{i_1}) = \sum_{i_1=1}^{n_1} w_{i_1} \cdot \exp\left(- \frac{(x_{i_1})^2}{\lambda_{i_1}}\right)  \\[20pt] = w_{1} \cdot \exp\left(- \frac{(x_{1})^2}{\lambda_{1}}\right) + w_{2} \cdot \exp\left(- \frac{(x_{2})^2}{\lambda_{2}}\right) + \dots + w_{n_1} \cdot \exp\left(- \frac{(x_{n_1})^2}{\lambda_{n_1}}\right)
    • Обратное квадратичное ядро (Inverse Quadratic):

      \sum_{i_1=1}^{n_1} \phi_{1,i_1}(x_{i_1}) = \sum_{i_1=1}^{n_1} w_{i,i_1} \cdot \frac{1}{1 + \left(\lambda_{i_1} \cdot x_{i_1}\right)^2} \\[20pt] = w_{1} \cdot \frac{1}{1 + \left(\lambda_{1} \cdot x_{1}\right)^2} + w_{2} \cdot \frac{1}{1 + \left(\lambda_{2} \cdot x_{2}\right)^2} + \cdots + w_{n_1} \cdot \frac{1}{1 + \left(\lambda_{n_1} \cdot x_{n_1}\right)^2}
    • Обратное мультиквадратичное ядро (Inverse Multiquadric):

      \sum_{i_1=1}^{n_1} \phi_{1, i_1}(x_{i_1}) = \sum_{i_1=1}^{n_1} w_{i_1} \cdot \frac{1}{\sqrt{1 + \lambda_{i_1} \cdot (x_{i_1})^2}} \\[20pt] = w_{1} \cdot \frac{1}{\sqrt{1 + \lambda_{1} \cdot (x_{1})^2}} + w_{2} \cdot \frac{1}{\sqrt{1 + \lambda_{2} \cdot (x_{2})^2}} + \dots + w_{n_1} \cdot \frac{1}{\sqrt{1 + \lambda_{n_1} \cdot (x_{n_1})^2}}

Для теоремы универсальной аппроксимации RBF-нейронной сети с произвольным количеством скрытых слоев и нейронов, которую я доказывал в пункте 3.2.1 «Многослойная RBF нейронная сеть», всё аналогично. Она также формирует KAN и выглядит всё так:

  • Для l = 0

    \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}(x_{i_0}) = \sum_{i_0=1}^{n_0} (x_{i_0} - c_{i_1,i_0})^2 \\[30pt] = {\small \left[  \begin{matrix}  (x_{0,1} - c_{1,1})^2 & + & (x_{0,2} - c_{1,2})^2 & + & \dots & + & (x_{0,n_0} - c_{1,n_0})^2 \\  (x_{1,1} - c_{2,1})^2 & + & (x_{1,2} - c_{2,2})^2 & + & \dots & + & (x_{1,n_0} - c_{2,n_0})^2 \\  \vdots &  & \vdots &  & \ddots &  & \vdots \\  (x_{n_1,1} - c_{n_1,1})^2 & + & (x_{n_1,2} - c_{n_1,2})^2 & + & \dots & + & (x_{n_1,n_0} - c_{n_1,n_0})^2 \\  \end{matrix}  \right]}\\[40pt]
  • Для 1\leq l\leq L-2

    \sum_{i_l=1}^{n_l} \phi_{i_l,i_{l+1},i_l}(x_{i_l}) = \sum_{i_l=1}^{n_l} (c_{i_{l+1}, i_l} - \exp\left(- \frac{(x_{i_l})^2}{\lambda_{i_{l+1}}}\right))^2 \\ = \left[  \begin{matrix}     (c_{1,1} - \exp\left(- \frac{(x_{1,1})^2}{\lambda_1}\right))^2 + \dots + (c_{1, n_l} - \exp\left(- \frac{(x_{1, n_l})^2}{\lambda_1}\right))^2 \\     (c_{2,1} - \exp\left(- \frac{(x_{2,1})^2}{\lambda_2}\right))^2 + \dots + (c_{2, n_l} - \exp\left(- \frac{(x_{2, n_l})^2}{\lambda_2}\right))^2 \\       \vdots \\     (c_{n_{l+1},1} - \exp\left(- \frac{(x_{n_{l+1},1})^2}{\lambda_{n_{l+1}}}\right))^2 + \dots + (c_{n_{l+1}, n_l} - \exp\left(- \frac{(x_{n_{l+1}, n_l})^2}{\lambda_{n_{l+1}}}\right))^2 \\     \end{matrix}   \right]\\[60pt]
  • Для l ={L-1}

    \sum_{i_{L-1}=1}^{n_{L-1}} \phi_{L-1, i_{L}, i_{L-1}}(x_{i_{L-1}}) = \sum_{i_{L-1}=1}^{n_{L-1}} w_{i_{L}, i_{L-1}} \cdot \exp\left(- \frac{(x_{i_{L-1}})^2}{\lambda_{i_{L-1}}}\right)  \\[20pt]  = \left[   \begin{matrix}     w_{1,1} \cdot \exp\left(- \frac{(x_{1})^2}{\lambda_{1}}\right) + w_{1,2} \cdot \exp\left(- \frac{(x_{2})^2}{\lambda_{2}}\right) + \dots + w_{1,n_{L-1}} \cdot \exp\left(- \frac{(x_{n_{L-1}})^2}{\lambda_{n_{L-1}}}\right) \\   \vdots   \end{matrix}   \right]\\[30pt]

4.4.1 Многослойная RBF нейронная сеть (MRBFN) vs FastKAN

Вскоре после выхода исследования про KAN была выпущена модель, которая вместо использования B-спланов использует Гауссово ядро. Сама модель доступна на GitHub, а также её описание на arXiv.

Цель данного сравнения – показать, что, несмотря на то, что с первого взгляда мы получаем KAN с RBF-ядрами, который быстрее B-spline KAN и по точности ± такой же, и как бы всё отлично, но у нас уже существует подобный KAN в виде многослойной RBF-нейронной сети, который ничем не хуже.

Архитектура FastKAN выглядит следующим образом:

f_\text{FastKAN}(\mathbf{x}) = {\small  \sum_{i_L=1}^{n_L} \phi_{L-1, i_L, i_{L-1}} \left(   \sum_{i_{L-1}=1}^{n_{L-1}} \phi_{L-2, i_{L-1}, i_{L-2}} \left(   \cdots \left(   \sum_{i_1=1}^{n_1} \phi_{1, i_2, i_1} \left(   \sum_{i_0=1}^{n_0} \phi_{0, i_1, i_0}(x_{i_0})  \right)   \right)    \right)   \right)}\\[20pt]где \\[10pt] \phi_{l,i_{l+1},i_l}(x_{l,i_l}). = K_\text{RBF}(c_{i_{l+1},i_l}, x_{l, i_l})
  • Для {0\leq l\leq L-2}

    \sum_{i_{l}=1}^{n_{l}} \phi_{l, i_{l+1}, i_{l}}(x_{i_{l}}) = \sum_{i_{l}=1}^{n_{l}} K_\text{RBF}(c_{i_{l+1}, i_{l}}, x_{i_{l}}) \\[20pt] =  \left[    \begin{matrix}    K_\text{RBF}(c_{1,1}, x_{1}) + K_\text{RBF}(c_{1,2}, x_{2}) + \dots + K_\text{RBF}(c_{1, n_{l}}, x_{n_{l}}) \\    K_\text{RBF}(c_{2,1}, x_{1}) + K_\text{RBF}(c_{2,2}, x_{2}) + \dots + K_\text{RBF}(c_{2, n_{l}}, x_{n_{l}}) \\    \vdots \\    K_\text{RBF}(c_{n_{l+1},1}, x_{1}) + K_\text{RBF}(c_{n_{l+1},2}, x_{2}) + \dots + K_\text{RBF}(c_{n_{l+1}, n_{l}}, x_{n_{l}}) \\    \end{matrix}    \right] \\[40pt]
  • Для l={L-1}

    \sum_{i_{L-1}=1}^{n_{L-1}} \phi_{L-1, i_{L}, i_{L-1}}(x_{i_{L-1}}) = \sum_{i_{L-2}=1}^{n_{L-2}} K_\text{RBF}(c_{i_{L}, i_{L-1}}, x_{i_{L-1}}) \\[20pt] =  \left[    \begin{matrix}    K_\text{RBF}(c_{1,1}, x_{1}) + K_\text{RBF}(c_{1,2}, x_{2}) + \dots + K_\text{RBF}(c_{1, n_{L-1}}, x_{n_{L-1}}) \\    \vdots    \end{matrix}    \right]\\[10pt]

Из пункта 3.2 мы знаем, что преобразование с помощью слоя RBF-нейронной сети (кроме выходного) выглядит следующим образом:

\mathbf{x}_{\text{output}} =    \begin{bmatrix}    K_{\text{RBF}}(\mathbf{x}_{\text{input}}, \mathbf{c}_1) \\    K_{\text{RBF}}(\mathbf{x}_{\text{input}}, \mathbf{c}_2) \\    K_{\text{RBF}}(\mathbf{x}_{\text{input}}, \mathbf{c}_3) \\    \vdots \\    K_{\text{RBF}}(\mathbf{x}_{\text{input}}, \mathbf{c}_n)    \end{bmatrix}

То есть разница в том, что в случае RBF-нейронной сети мы применяем Гауссово ядро между всем входным вектором и вектором веса, когда в FastKAN мы применяем между каждым элементом входного и вектора веса, а потом суммируем.

Для выполнения поставленной задачи нужно выполнить, по сути, данное сравнение в плане скорости и сложности преобразования.

\begin{bmatrix}    K_{\text{RBF}}(\mathbf{x}_{\text{input}}, \mathbf{c}_1) \\    K_{\text{RBF}}(\mathbf{x}_{\text{input}}, \mathbf{c}_2) \\    K_{\text{RBF}}(\mathbf{x}_{\text{input}}, \mathbf{c}_3) \\    \vdots \\    K_{\text{RBF}}(\mathbf{x}_{\text{input}}, \mathbf{c}_n)    \end{bmatrix}   \quad \text{vs} \quad   \begin{bmatrix}    \sum_{q=1}^{M} K_{\text{RBF}}(\mathbf{x}_{\text{input}, q}, \mathbf{c}_{1, q}) \\    \sum_{q=1}^{M} K_{\text{RBF}}(\mathbf{x}_{\text{input}, q}, \mathbf{c}_{2, q}) \\    \sum_{q=1}^{M} K_{\text{RBF}}(\mathbf{x}_{\text{input}, q}, \mathbf{c}_{3, q}) \\    \vdots \\    \sum_{q=1}^{M} K_{\text{RBF}}(\mathbf{x}_{\text{input}, q}, \mathbf{c}_{n, q})    \end{bmatrix}

По сути, нам достаточно сравнить преобразование, которое приводит в обоих случаях к элементу результирующего вектора. Это без проблем обобщается на весь слой и всю модель, то есть:

K_\text{RBF}(\mathbf{x}, \mathbf{c}) \quad \text{vs} \quad \sum_{q=1}^{M} K_\text{RBF}(\mathbf{x}_q, \mathbf{c}_q) \\\\ \varphi_{\text{RBF}}(\mathbf{x})^\top \cdot \varphi_{\text{RBF}}(\mathbf{c}) \quad \text{vs} \quad \sum_{q=1}^{M} \varphi_{\text{RBF}}(\mathbf{x}_q)^\top \cdot \varphi_{\text{RBF}}(\mathbf{c}_q)

Функции\varphi_{\text{RBF}}для входных векторов размерностью больше двух в итоге дадут идентичный логический вывод из-за свойств функции. Поэтому рассмотрим на привычных двумерных векторах\mathbf{x} = [x_1, x_2]и \mathbf{с} = [с_1, с_2].Одномерный случай мы проанализируем после. Также в качестве примера ядра я буду использовать Гауссово. Для обратного квадратического и обратного мультиквадратического вывод идентичен, или для ядер, которые обладают теми же свойствами. Также сумма мультииндексов ограничена M =2,и для удобства \lambda = 2.

Начнем с:

\sum_{q=1}^{m} K_\text{Gaussian}(x_q, с_q)\varphi_\text{gaussian}(x_1) = \exp\left( -\frac{1}{2} x_1^2 \right) \left[ 1, x_1, \frac{x_1^2}{\sqrt{2}}, \dots \right]\varphi_\text{gaussian}(x_2) = \exp\left( -\frac{1}{2} x_2^2 \right) \left[ 1, x_2, \frac{x_2^2}{\sqrt{2}}, \dots \right]\varphi_\text{gaussian}(c_1) = \exp\left( -\frac{1}{2} c_1^2 \right) \left[ 1, c_1, \frac{c_1^2}{\sqrt{2}}, \dots \right]\varphi_\text{gaussian}(c_1) = \exp\left( -\frac{1}{2} c_1^2 \right) \left[ 1, c_1, \frac{c_1^2}{\sqrt{2}}, \dots \right]\sum_{q=1}^{2} K_{\text{Gaussian}}(x_q, c_q) = \sum_{q=1}^{2} \varphi_{\text{gaussian}}(x_q)^\top \cdot \varphi_{\text{gaussian}}(c_q) \\=\exp\left( -\frac{1}{2} (x_1^2 + c_1^2) \right) \left( 1 + x_1 c_1 + \frac{x_1^2 c_1^2}{2} + \dots \right) \\+\exp\left( -\frac{1}{2} (x_2^2 + c_2^2) \right) \left( 1 + x_2 c_2 + \frac{x_2^2 c_2^2}{2} + \dots \right)

И теперь перейдем к K_\text{Gaussian}(\mathbf{x}, \mathbf{с})

\varphi_\text{gaussian}(\mathbf{x}) = \exp\left( -\frac{1}{2} (x_1^2 + x_2^2) \right) \left[ 1, x_1, x_2, \frac{x_1^2}{\sqrt{2}}, x_1 x_2, \frac{x_2^2}{\sqrt{2}}, \dots \right]\varphi_\text{gaussian}(\mathbf{c}) = \exp\left( -\frac{1}{2} (c_1^2 + c_2^2) \right) \left[ 1, c_1, c_2, \frac{c_1^2}{\sqrt{2}}, c_1 c_2, \frac{c_2^2}{\sqrt{2}}, \dots \right]K_\text{Gaussian}(\mathbf{x}, \mathbf{c}) = \varphi_\text{gaussian}(\mathbf{x})^\top \cdot \varphi_\text{gaussian}(\mathbf{c}) \\[20pt]=\textstyle \exp\left( -\frac{1}{2} (x_1^2 + x_2^2 + c_1^2 + c_2^2) \right) \left( 1 + x_1 c_1 + x_2 c_2 + \frac{x_1^2 c_1^2}{2} + x_1 x_2 c_1 c_2 + \frac{x_2^2 c_2^2}{2} + \dots \right)

Как мы можем заметить, разница в том, что для вычисления ядра между векторами у нас экспоненциальный множитель учитывает все элементы векторов, а также появляются смешанные члены вродеx_1 x_2 с_1 с_2.

Поэтому, выразим K_\text{Gaussian}(\mathbf{x}, \mathbf{с}) с помощью:

\sum_{q=1}^{m} K_\text{Gaussian}(x_q, с_q)K_\text{Gaussian}(\mathbf{x}, \mathbf{c}) = \varphi_\text{gaussian}(\mathbf{x})^\top \cdot \varphi_\text{gaussian}(\mathbf{c}) \\ =\exp\left( -\frac{1}{2} \sum_{q=1}^{M} (x_q^2 + c_q^2) \right) \cdot \left(\sum_{q=1}^{M} \varphi_{\text{Gaussian}}\left(\frac{x_q}{\exp(-0.5 x_q^2)}\right) \cdot \varphi_{\text{Gaussian}}\left(\frac{c_q}{\exp(-0.5 c_q^2)}\right)+ \\+ \sum_{\text{(смешанные члены)}} \right)

Как мы можем увидеть, каждый элемент преобразования\varphi_{\text{gaussian}}(\mathbf{x})^\top \cdot \varphi_{\text{gaussian}}(\mathbf{с}) учитывает не просто экспоненту от суммы конкретных квадратов двух элементов, а от всех элементов двух векторов. Также мы учитываем совместные члены, которые учитывают множитель экспоненты от всех членов двух векторов. В совокупности это даёт очевидно больше возможностей для учета взаимосвязи между входными признаками, а значит, потенциально более высокую точность в задачах.

В контексте KAN в случае с RBF-нейронной сетью мы по сути имеем дополнительные слои при представлении сети с использованием функции \varphi_\text{RBF}.Как мы обсуждали, можно разложить, используя экспоненту от суммы логарифмов с контролем знака, используя фазу данного числа в комплексной плоскости, что даёт дополнительный слой, в то время как в FastKAN подобных дополнительных слоев нет.

Теперь перейдём к скорости. Довольно очевидно, что для входных векторов с размерностью больше или равной двум RBF-нейронная сеть с использованием ядерного трюка будет всегда быстрее, чем FastKAN.

В случае с одномерным входным вектором RBF-нейронная сеть и FastKAN равны и по преобразованию, и по скорости.

То есть в итоге мы имеем более быструю и потенциально более точную модель.

4.5 Проклятье и благословение размерности

При обсуждении проклятия размерности часто игнорируют благословение размерности, считая его учтённым по умолчанию, что ошибочно. Эти явления являются двумя сторонами одной медали: увеличение размерности может как приносить преимущества, так и создавать недостатки в зависимости от контекста и подхода к решению задачи.

Проклятие размерности – термин, описывающий различные проблемы, которые возникают при анализе и обработке данных в многомерных пространствах, но не проявляются в пространствах с малым количеством измерений, например в привычном трёхмерном пространстве. Этот термин был введён Ричардом Беллманом в 1957 году.

Благословение размерности – термин, который, вопреки ожиданиям о проклятии размерности, указывает на то, что в высокоразмерных пространствах могут возникать и положительные эффекты, позволяющие решать задачи проще, чем ожидалось. Он был введён в конце 1990-х годов Дэвидом Донохо.

Суть проклятия размерности в том, что при увеличении числа измерений объём пространства растёт экспоненциально быстро, а имеющиеся данные становятся «разреженными», то есть их оказывается слишком мало для надёжного анализа. Это особенно важно, когда количество данных невелико относительно внутренней размерности самих данных. При этом также может экспоненциально расти сложность модели при увеличении количества измерений входных данных.

Также часто пространство начинает демонстрировать явление концентрации меры: величины, зависящие от случайных переменных, в высоких размерностях концентрируются вокруг своих средних значений, и вероятность больших отклонений стремится к нулю. К примеру, так ведут себя нормы векторов, скалярные произведения, углы между векторами, эвклидовы расстояния и т. п.

Однако все эти выводы в основном опираются на синтетические сценарии. На практике же нередко преобладает благословение размерности.

Суть в том, что машинное обучение связано с отнесением экземпляров к их источникам, а классовые метки символизируют разные процессы. Аргумент о проклятии исходит из предположения, что все данные приходят из одного процесса. Если бы это было так, машинное обучение теряло бы смысл. Однако, если учесть несколько процессов, потеря контраста может стать полезной, так как помогает находить ближайший и наиболее связанный экземпляр, делая расстояния более значимыми в высоких размерностях. На практике вектора часто подвержены одинаковым внутриклассовым корреляциям между признаками внутри одного и того же класса. Это приводит к тому, что эффективная размерность одного класса оказывается ниже, чем всё пространство данных, а значит, позволяет моделям машинного обучения разделять классы более эффективно.

Теперь перейдём к MLP. Стереотип о том, что эти сети подвержены проклятию размерности, выглядит чрезмерно громким, так как они (как и многие другие модели машинного обучения) в одних условиях могут страдать от проклятия размерности, а в других – нет. Всё зависит от конкретных обстоятельств, в которых мы их рассматриваем. В контексте нейронных сетей, и в частности MLP, обычно говорят об экспоненциальном росте сложности самой модели при увеличении входного пространства признаков и определённой желаемой точности.

К примеру, есть исследование Эндрю Р. Баррона «Оценки универсальной аппроксимации для суперпозиций сигмоидной функции», в котором анализируется MLP-архитектура, предложенная Цыбенко. Баррон доказывает, что при сходимости данного интеграла (нормы Баррона):

C_f = \int_{\mathbb{R}^d} |\omega| |\hat{f}(\omega)| \, d\omega<\infty

где \hat{f} – это преобразование Фурье целевой функции  f,количество нейронов, необходимое для достижения заданной точности аппроксимации, растёт полиномиально, а не экспоненциально с увеличением размерности входных данных. То есть, если преобразование Фурье целевой функции не содержит больших высокочастотных элементов и убывает достаточно быстро, то проклятие размерности можно считать разрушенным.

Всё аналогично и для B-spline KAT: предложенная модель также разрушает проклятие размерности, но лишь при соблюдении ряда условий. А именно, если целевую функцию f можно разложить на блоки \Phi, обладающие непрерывными производными порядка k+1, и при этом константа C в ошибке аппроксимации не растёт экспоненциально с увеличением размерности входных данных, то тогда проклятие размерности можно считать разрушенным.

Кстати, на MathOverflow есть обсуждение, в котором ставят под сомнение точность утверждения о разрушении проклятия размерности и просят уточнить условия.

В целом же это одна из проблем множества статей, рассматривающих B-spline KAN, поскольку некорректно утверждать, что MLP якобы подвержен проклятию размерности, а KAN – нет. На деле всё определяется конкретными предположениями и условиями применения той или иной модели.

4.6 Итог и обобщение информации с помощью множеств

В этой статье одной из целей, которую я ставил, было показать, что многие известные архитектуры сетей прямого распространения можно объединить и рассматривать через призму KAN, даже те, которые с первого взгляда не являются ими. Это дает возможность лучше понять, в чем они схожи и чем отличаются.

Также предлагаю теперь посмотреть как то, что мы обсуждали, будет выглядеть в контексте множеств. Однако сразу предупреждаю, что данная визуализация не охватывает все варианты и подмножества которые мы обсуждали, а для удобства восприятия включены только основные. В качестве примера пересечения множеств можно рассматривать комбинацию двух вариантов.

Список еще некоторых вариантов KAN можно найти в данном репозитории на GitHub.


И напоследок хотел сказать, что в планах так же написаь статью, где я покажу 2 новых варианта KAN. На данный момент в интернете подобные реализации мне еще не встречались.

Так что будет интересно!

Источники

Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems. Сybenko, G. (1989)

Lower bounds for approximation by MLP neural networks. Maiorov, Vitaly; Pinkus, Allan (April 1999)

Multilayer feedforward networks are universal approximators. Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (January 1989)

Multilayer feedforward networks with a nonpolynomial activation function can approximate any function. Leshno, Moshe; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon (March 1992)

Support-Vector Networks. Cortes, Corinna; Vapnik, Vladimir (1995)

Mercer's theorem. J. Mercer (May 1909)

Introduction to Machine Learning: Class Notes 67577. Shashua, Amnon (2009)

Universal Approximation Using Radial-Basis-Function Networks. Park, J.; I. W. Sandberg (Summer 1991)

KAN: Kolmogorov-Arnold Networks. Ziming Liu et al

Kolmogorov-Arnold Networks are Radial Basis Function Networks. Ziyao Li

When is "Nearest Neighbor" Meaningful? Beyer, K.; Goldstein, J.; Ramakrishnan, R.; Shaft, U (1999)

A survey on unsupervised outlier detection in high-dimensional numerical data. Zimek, A.; Schubert, E.; Kriegel, H.P. (2012)

Shell Theory: A Statistical Model of Reality. Lin, Wen-Yan; Liu, Siying; Ren, Changhao; Cheung, Ngai-Man; Li, Hongdong; Matsushita, Yasuyuki (2021)

Utilizing Geometric Anomalies of High Dimension: When Complexity Makes Computation Easier. Kainen, Paul C. (1997)

Blessing of dimensionality: mathematical foundations of the statistical physics of data. Gorban, Alexander N.; Tyukin, Ivan Y. (2018)

Universal Approximation Bounds for Superpositions of a Sigmoidal Function.
Andrew R. Barron

Комментарии (14)


  1. kenoma
    05.01.2025 07:59

    Ну, слушайте, уравнениями из курса линейной алгебры даже школьниц нынче не впечатлишь, а ребята поопытнее знают, что при желании с помощью бэкпропа можно что угодно аппроксимировать чем угодно. Скажите лучше, чем этот вот KAN принципиально лучше на практике? Есть задачи, в которых он переплюнул существующие топологии? Тезис про "сложность" это ерунда, потому что вы прячете сложность из одного места в другое.


    1. Flokis_guy Автор
      05.01.2025 07:59

      Если речь идет о B-spline KAN в репозитории pykan, то я написал в статье, что это, по сути, модификация MLP на случай смещения в виде гладкой непрерывной функции вместо константной. И, судя по некоторым тестам, на практике он не показывает преимущества, хоть теоретически имеет все шансы, так как может сходиться к классическому виду MLP, но при этом предоставляет больше возможностей.

      Если речь идет о модели в B-spline KAT, то эта модель вообще плотна только в пространстве непрерывных гладких функций, и это так себе, в сравнении с другими теоремами. И, вполне кстати, можно взять данное исследование и обобщить, к примеру, на пространства Соболева, по сути, заменив сумму на слоях на произведение.

      Но хочу заметить, что в статье я не преследовал идеи по типу «Deep Learning 2.0» или «вау, это новая эра, MLP старьё» и тому подобное, а, скорее даже наоборот. Потому что после обширного чтения статей и комментариев на просторах интернета, особенно, кстати, данного треда, я понял, что люди не совсем понимают, что из себя представляет KAN и что показали в оригинальном исследовании, а потом удивляются, почему он в тестах на практике хуже.


      1. kenoma
        05.01.2025 07:59

        Я не получил даже намека ответа на вопрос "В каких случаях мне стоит рассмотреть применение KAN для решения задачи?".


        1. Flokis_guy Автор
          05.01.2025 07:59

          Во-первых, вы не уточнили, о каком именно KAN идет речь в рамках данной статьи.

          Теперь по поводу вопросов:

          Скажите, чем этот KAN принципиально лучше на практике?

          Лучше понятие растяжимое, лучше чего? Вот поэтому я и привёл вам общую информацию о них до этого.

          Есть задачи, в которых он переплюнул существующие топологии?

          Открываем тест, который я вам в предыдущем комментарии привёл со сравнением с MLP, и видим, что в одной задаче он переплюнул.

          В каких случаях мне стоит рассмотреть применение KAN для решения задачи?

          Все зависит от определения «задачи». Кому-то на практике нужно аппроксимировать сложную функцию в L^p, а кому-то различить кошек и собак. И, как я уже говорил, я предоставил ссылку на тесты, где показаны результаты на некоторых задачах.

          Ну, и, ответ очевидно будет опять же общий: нужно смотреть на свойства модели и задачи, результаты на тестах, теоретические результаты и так далее, логично же.

          Но рекомендации могу дать:

          В контексте B-spline KAN, в сравнении с классическими MLP, если вы готовы мириться с большой сложностью и верите в то, что большая гибкость даст положительный результат.

          В контексте модели из B-spline KAT, если вы готовы к её ограничениям в виду плотности в пространстве гладких непрерывных функций.


        1. azTotMD
          05.01.2025 07:59

          Для задач символьной регрессии. Это когда надо из данных получить аналитическое выражение их связывающее. Авторы КАНа целенаправленно занимались этой проблемой, начиная с классических нейронных сетей.

          Эта задача с точки зрения обывателя бесполезна, этим ученые занимаются. У меня была идея попробовать КАН для какой-нибудь естестественно-научной задачи.


          1. kenoma
            05.01.2025 07:59

            т.е. получить из данных какую нибудь аналитическую формулу?


            1. azTotMD
              05.01.2025 07:59

              Да, например, установить, что сопротивление воздуха зависит от скорости квадратично. Но понятно, что это простой и известный пример, а для произвольной зависимости такая задача не решена


              1. kenoma
                05.01.2025 07:59

                Я правильно понял, что использовать KAN имеет смысл когда у меня имеется некая сложная функция, для которой вычисление значений является дорогим, а использование KAN позволит удешевить эту процедуру за счет некоего снижения точности? При условии стационарности, гладкости и непрерывности исходной функции.


                1. azTotMD
                  05.01.2025 07:59

                  Нет. Прикол KAN-ов в том, что они потенциально могут выучить функциональную зависимость, а не просто коэффициенты. В обычных нейронках у нас есть какая-то жесткая архитектура - матричные умножения, свертки и т.д. И куча параметров - весов, биасов. При промежуточные величины пропускаются через фиксированные функции активации - сигмоды, релушки и т.д. Градиентным спуском/подъёмом мы уточняем эти коэффициенты, чтобы подогнать модель под наши данные. Если у модели достаточно степеней свободы, то можно достаточно хорошо аппроксимировать данные. Но эта аппроксимация ничего не говорит о "природе вещей". Если архитектура плохо соответствует реальной зависимости - то будет плохая аппроксимация. Может вы знаете, что иногда в нейронку выгодно подавать не данные как есть, а с каким-либо препроцессингом - например, поделить одну величину на другую. Теоретически, КАНы могут сами выучить произвольные функции активации. Сказать, что вот x1 надо пропустить через экспоненту, а x2 - через синус.

                  Про "удешивить" и "точность" там речи не идёт


                  1. kenoma
                    05.01.2025 07:59

                    Стало понятнее, т.е. я могу решить вопросы препроцессинга, когда у меня входные данные разномасштабные\нелинейно-зависимые и я об этом не знаю. Эта штука сможет справиться с фрактальными закономерностями?


                    1. azTotMD
                      05.01.2025 07:59

                      Эта штука сможет справиться с фрактальными закономерностями?

                      Не знаю, попробуйте. Потом отпишитесь, интересно, что получится.


      1. alan008
        05.01.2025 07:59

        pykan - слишком весёлое название для столь серьезного проекта :-D


  1. nikolz
    05.01.2025 07:59

    Векторное (линейное) пространство – это множество, где можно складывать векторы и умножать их на числа, следуя определённым правилам. Например, множество всех векторов на плоскости, как векторов на графике, является векторным пространством.

    Это Ваше определение? Что такое "множество"?

    Мне более понятно такое:

    Ве́кторное простра́нство (лине́йное пространство) — математическая структура, представляющая собой набор элементов, называемых векторами, для которых определены операции сложения друг с другом и умножения на число — скаляр

    https://ru.wikipedia.org/wiki/Векторное_пространство


  1. nikolz
    05.01.2025 07:59

    Вот тут все объяснено на интуитивном уровне без написания кучи формул:

    https://tproger.ru/articles/chto-takoe-seti-kolmogorova-arnolda-i-kak-oni-uluchwayut-obuchenie-graph-