В стремительно развивающейся области искусственного интеллекта новая архитектура обещает произвести революцию в понимании и создании нейронных сетей. Названная сетью Колмогорова-Арнольда (KAN), эта инновационная структура от MIT готова трансформировать традиционные модели своим уникальным подходом.

Традиционный фундамент: многослойные перцептроны (MLP)

Чтобы оценить значимость KAN, необходимо вспомнить традиционный фундамент ИИ-приложений — многослойные перцептроны (MLP). Эти модели являются основой в ИИ, структурируя вычисления через слоистые преобразования, которые можно упростить следующим образом:

f(x)=σ(W∗x+B)f(x)=σ(Wx+B)

Где:

  • σ обозначает функцию активации (например, ReLU или сигмоид), вводящую нелинейность,

  • W символизирует настраиваемые веса, определяющие силу связей,

  • B представляет собой смещение,

  • x является входным сигналом.

Эта модель подразумевает, что входные данные обрабатываются путем умножения на веса, добавления смещения и применения функции активации. Суть обучения этих сетей заключается в оптимизации W для повышения производительности при выполнении конкретных задач.

Введение сети Колмогорова-Арнольда (KAN)

KAN представляет собой радикальное изменение парадигмы MLP, переопределяя роль и функционирование функций активации. В отличие от статических, необучаемых функций активации в MLP, KAN включает унарные функции, которые действуют как веса и функции активации, адаптируясь в процессе обучения.

Рассмотрим это упрощенное представление:

f(x1,x2)=Φ2(φ2,1(φ1,1(x1)+φ1,2(x2)))f(x1,x2)=Φ2(φ2,1(φ1,1(x1)+φ1,2(x2)))

Где:

  • x1 и x2 являются входными данными,

  • φ1,1 и φ1,2 — это специфические унарные функции для каждого входа, которые затем обрабатываются через другую функцию Φ2 на следующем слое.

Новаторские изменения в архитектуре нейронных сетей

KAN не просто изменяет, а полностью перерабатывает работу сети, делая её более интуитивной и эффективной за счет:

  • Активации на краях: Перемещение функций активации на края, а не в ядро нейрона, потенциально изменяет динамику обучения и улучшает интерпретируемость.

  • Модульной нелинейности: Применение нелинейности перед суммированием входов позволяет дифференцированно обрабатывать особенности и, возможно, более точно контролировать влияние входных данных на выходы.

Эта архитектура может привести к созданию сетей, которые не просто немного лучше, но и принципиально более способны справляться со сложными, динамическими задачами.

Для получения более подробной информации об этом исследовании, вы можете ознакомиться с оригинальными ресурсами:

Комментарии (8)


  1. Aniro
    27.05.2024 21:53
    +4

    Меня терзают смутные сомнения, не преобразуется или эта новая концепция в старую, добавлением дополнительных слоев?


    1. ValeriyPushkarev
      27.05.2024 21:53
      +2

      уже обсуждалось - кроме способности графа вычислений из полиномов аппроксимировать функции (прорыв?) нейросеть больше никуда не годится.

      Таких возможных графов вычислений различных полиномов есть еще примерно 100 штук. Ни слова об оптимальности подхода, только

      эта инновационная структура от MIT готова трансформировать традиционные модели своим уникальным подходом.

      Почему не умножать в узлах, почему не сделать весовые функции вида N*x^M+C ?

      Где больше вычислительная сложность, где выше качество (количество слоев\переменных для достижения результата на нескольких функциях) - загадка.

      MiT! :)


      1. avost
        27.05.2024 21:53
        +2

        уже обсуждалось - кроме способности графа вычислений из полиномов аппроксимировать функции (прорыв?) нейросеть больше никуда не годится

        Угу, кроме способности сладывать и вычитать числа, компьютеры больше никуда не годятся :)

        Таких возможных графов вычислений различных полиномов есть еще примерно 100 штук

        Да, разумеется. Проблемка кроется в волшебных пузырьках в коэффициентах. Перцептроны с сигмоидами рулят не потому, что они лучшие, а потому, что придумали бэк пропогейшен - эффективный способ как эту штуку обучать и показали его эквивалентность градиентному спуску. Более сложная сеть может быть либо более компактной, либо более вычислительно мощной (а может и то и другое). Основная проблема - как это обучить. Кажется, не всякая произвольная сеть с произвольными функциями активации/весов вообще сходится. Подозреваю, что данную сеть просто исследовали достаточно хорошо, чтобы говорить о сходимости и обучаемости.

        Ни слова об оптимальности подхода

        В каком смысле ни слова? Вы прочли хотя бы основные работы по теме? И что вы подразумеваете под "оптимальностью"? Оптимальность в каком смысле? И причём она тут вообще? Для большинства практических применение достаточно улучшения хотя бы одного параметра.

        Почему не умножать в узлах, почему не сделать весовые функции вида N*x^M+C ?

        Потому, что исследовали вполне определённую архитектуру. Но вы можете поисследовать свою, возможно, тоже получите хорошие результаты.

        Где больше вычислительная сложность, где выше качество (количество слоев\переменных для достижения результата на нескольких функциях) - загадка.

        Если не читать исследования - загадка. А так - нэтъ. ))


    1. Kealon
      27.05.2024 21:53

      По сути да, кластеризует выходит


  1. Imaginarium
    27.05.2024 21:53
    +2

    f(x)=σ(W∗x+B)f(x)=σ(Wx+B)

    Поясните формулу, пожалуйста, раскройте смысл курсива или почему правая часть отличается от центральной. А заодно было бы неплохо переписать в TeX, вроде Хабр это позволяет.


    1. domix32
      27.05.2024 21:53
      +3

      Обе формулы записаны дважды. В оригинале они там без TeX

      f(x) = \sigma(W*x+B)

      И KAN

      f(x_1,x_2)=Φ_2(φ_{2,1}(φ_{1,1}(x_1)+φ_{1,2}(x_2)))


      1. Imaginarium
        27.05.2024 21:53
        +5

        Спасибо, хоть в комментариях грамотные люди статью доделают.


  1. GIP3
    27.05.2024 21:53

    На просторах необъятного интернета подобные объяснения на каждом шагу, даже с примерами и инфографикой; как на русском, так и на английском языках.Смысл вашей статьи?