Всем привет. Меня зовут Алмаз Хуснутдинов. В этой статье я показал, что такое дифференциал, как выводится понятие производной и рассказал про правила дифференцирования, которые используются в системах автоматического дифференцирования для глубокого обучения.
Содержание: Предел функции, дифференциал, дифференциал аргумента и функции, понятие производной, вывод производной функции, правила дифференцирования, пример использования цепного правила.
P. S. Я не особо разбираюсь в математике, поэтому я не рассказал про всякие математические оговорки, которые нужно по-хорошему упомянуть. Основная цель статьи - рассказать что такое дифференциал и про правила дифференцирования, так как я буду в другой статье рассказывать про алгоритм автоматического дифференцирования, для понимания которого нужно понимать правила дифференцирования. Я вынес их в отдельную статью, чтобы не было каши.
Предел
Предел функции одной переменной - значение, к которому приближается значение функции, когда её аргумент (независимая переменная) приближается к определённой точке. Формально, для функции , предел в точке определяется как число a, к которому приближается, когда x приближается к :
Предел функции многих переменных. Предел функции многих переменных определяется аналогичным образом, как и для функции одной переменной, но здесь учитывается не одна переменная, а все переменные:
В отличие от функций одной переменной, где приближение к предельной точке происходит только слева или справа, для функций многих переменных приближение может происходить по бесконечному числу направлений. Это означает, что для существования предела функции многих переменных необходимо, чтобы значение функции стремилось к одному и тому же числу вдоль любого пути, ведущего к предельной точке.
Для функции двух переменных, сначала вычисляется предел изменяя первую переменную, затем вторую, а потом наоборот, сначала изменяем вторую переменную, затем первую. Если в обоих случаях значение предела совпадает, значит предел этой функции в данной точке существует. Для большего числа переменных процесс аналогичный, для каждой переменной нужно начинать вычислять предел с этой переменной.
При нахождении пределов часто встречаются неопределённости — когда по правилам математики не получается вычислить значение, такие как 0/0 или ∞/∞. Для устранения этих неопределённостей могут использоваться методы упрощения выражения и правило Лопиталя.
Свойства предела:
Скрытый текст
Предел константы:
Предел суммы:
Предел произведения константы на функцию:
Предел произведения двух функций:
Предел частного:
Для вычисления пределов необходимо понимать их свойства, чтобы понимать, как именно получается то или иное преобразование.
Дифференциал
Приращение значения - прибавление к значению какой-либо переменной какого-то небольшого числа , в результате получается новое значение .
Рассмотрим график функции (см. рисунок ниже). В точке получается значение функции . Делаем приращение значения и получаем значение . В результате получается новое значение функции и изменение значения функции .
Наша задача состоит в том, чтобы вычислить значение угла, который образует линия графика к горизонтальной оси. Рассмотрим прямоугольный треугольник ABC. Мы можем посчитать значение угла BAC, оно будет равно тангенсу частного . Но, как видно из рисунка, это не будет истинным значением угла, более того, оно будет сильно неточным. Рассмотрим другой способ.
Для чего нам нужно знать значение этого угла? - Значение угла показывает значение скорости изменения функции в данной точке. Мы можем использовать это значение для того, чтобы двигаться в сторону локального минимума или максимума — это основа градиентного обучения в машинном обучении.
Рассмотрим касательную прямую . Мы рассматриваем угол в треугольнике ABD, который образует касательная к линии графика в точке . Угол касательной и угол линии графика совпадают. Для того, чтобы вычислить значение этого угла, нужно вычислить значение тангенса частного BD/AB.
Мы видим, что фактическое значение функции в точке отличается от значения , которое образуется в точке D, более того, мы не знаем значения , поэтому вычисление угла таким способом становится невозможным.
Так как это невозможно, то рассмотрим предыдущий способ, но с небольшим изменением. Так как погрешность измерения угла через тангенс BC/BA или же велика, то это не очень подходит, но вместо этого можно изменять величину приращения . Чем меньше смещение x, тем меньше расстояние между и . Так как не может быть меньше, чем , то в предельном значении будет равен . Чем меньше приращение, тем точнее значение угла и тем ближе значение к значению . Мы можем делать это приращение бесконечно малым, если будем использовать понятие предела (так как оно математически позволяет это сделать).
Нужно будет делать это постоянно, поэтому нужно ввести понятие, которым можно оперировать. Таким образом мы приходим к понятию о бесконечно малом приращении — дифференциале. Также, потом нужно вывести свойства дифференциала (правила дифференцирования), чтобы можно было их использовать и не задумываться о том, как работает дифференцирование на низком уровне.
Дифференциал (от лат. differentia «разность, различие») — бесконечно малое приращение значения:
— оператор, который представляет собой предел бесконечно малого приращения аргумента (числа), — переменная (аргумент оператора ), — приращенное значение аргумента (переменной) .
Дифференциал аргумента — бесконечно малое приращение аргумента функции:
Дифференциал функции — бесконечно малое приращение значения функции:
Если у функции много переменных, то дифференциал функции для каждой переменной будет разным, и будет называться частным дифференциалом функции. Для нахождения частного дифференциала, нужно зафиксировать (не изменять) значения всех переменных кроме рассматриваемой.
Мы можем вычислить значение тангенса угла BAC, которое при использовании понятия дифференциала, будет равно значению тангенса угла BAD.
Производная
Из понятия дифференциала вытекает понятие производной. Фактически, производную функции в точке можно представить как отношение дифференциала значения функции к дифференциалу аргумента:
— приращение значения аргумента функции, — приращение значения функции. В этой формуле использовано свойство предела «предел частного», так запись более удобна.
Производная — частное от дифференциала значения функции в точке х и дифференциала значения переменной x. Это отношение можно интерпретировать как значение угла линии графика в точке x для функции или значение скорости изменения графика функции .
Частная производная — отношение частного дифференциала функции по рассматриваемой переменной к дифференциалу рассматриваемой переменной функции.
Формально, если функция дифференцируема в точке x, то дифференциал или определяется как: или, используя обозначение для бесконечно малого приращения x, . Это означает, что дифференциал функции можно рассматривать как линейное приближение приращения функции в окрестности данной точки.
Обозначения производной:
Если не ошибаюсь, то закругленные значки дифференциала принято использовать для частных производных, прямые значки — если функция состоит из одной переменной. Но это не принципиально.
Градиент — совокупность всех или определенной группы частных производных функции. Например, вектор или матрица частных производных:
это вектор-градиент или просто градиент функции .
Дифференцирование — процесс определения производной (или скорости изменения) какой-либо функции.
Дифференцирование связано с темпами изменений каких-то функций или процессов. В случае с линией графика, поверхностью и так далее, это означает указание наклона касательной вдоль заданного направления. Она дает возможность математическим путем вычислять скорость переменного движения, позволяя определить, где возникают максимальные и минимальные значения.
Вывод аналитической формулы производной функции
Здесь приведен пример того, как находить аналитическое значение производной.
Найдем производную функции через понятие предела, .
Скрытый текст
Уберем неопределенность домножив числитель и знаменатель на сопряженное выражение и используем свойство предела «предел частного».
Найдем производную функции , .
Скрытый текст
Используем свойство логарифма «разница логарифмов равна логарифму частного», . Затем домножаем знаменатель на . По свойству предела выносим константу из знаменателя. Затем используем замечательный предел:
Подобным образом выводится аналитическое значение производной для любой элементарной функции — такая функция, которая не разлагается на более простые, например, степенная, логарифмическая или косинус. Для вывода производных более сложных функций используются выражения производных элементарных функций (таблица производных), так как выводить их через предел не имеет смысла — получится вывод тех же самых выражений для элементарных функций.
Источник двух приведенных примеров.
Правила дифференцирования
Дифференциал функции обладает несколькими свойствами, которые можно использовать при дифференцировании функций.
Форма записи дифференциала не зависит от того, является ли независимой переменной или функцией другой переменной. Это делает ее инвариантной формой записи дифференциала — то есть не зависящей от того, является переменная значением функции или она изначально просто число — это позволяет использовать правила дифференцирования.
Дифференцирование сложной функции. Сложная функция — функция, которая состоит из нескольких функций. Производная такой функции вычисляется через «раскрытие» внутреннего выражения:
Если , то
Рассмотрим 2 примера.
Скрытый текст
Пусть. Для того, чтобы вычислить производную значения по , нужно сначала раскрыть это выражение. При раскрытии выражения появляется множитель, который равен единице, его обычно не пишут, но он существует и играет определенную роль - например, при дифференцировании матрицы через матричное произведение или при вычислении производной сложной функции.
Здесь представлено значение y элементарной функции , мы дифференцируем это значение по переменной элементарной функции. У нас появляется множитель , который представляет собой производную функции саму по себе, этот множитель появляется из-за того, что мы берем производную не по функции , а по значению .
Скрытый текст
Пусть .
Здесь аналогично. Сначала раскрываем значение у, потом раскрываем степенную функцию (ln(x))^3 и затем вычисляем производную конечной, логарифмической функции ln(x). Мы просто обозначили степенную функцию (ln(x))^3 через f(x), чтобы запись была более удобной.
По сути, раскрытие выражения является цепным правилом дифференцирования (о котором рассказано ниже). Я просто хотел акцентировать внимание на том, что мы его используем постоянно, но при этом даже об этом не подозреваем.
Дифференцирование для арифметических операций. Для функций и , дифференцируемых в точке , имеем:
Скрытый текст
где C — константа, и могут быть функциями либо переменными.
Цепное правило дифференцирования. Это метод нахождения производной составной функции. Если , то тогда можно рассматривать как функцию, мы можем обозначить значение как функцию , тогда получится . И когда мы будем дифференцировать функцию , мы придем к тому, что я описал в пункте «дифференцирование сложной функции», то есть к тому же самому цепному правилу.
Допустим, что у нас есть функция , которая состоит из других функций . Каждая последующая функция принимает на вход значение предыдущей функции .
Результатом функции на рисунке будет число . Для получения числа нужно использовать число и как-то его преобразовать. Аналогично для других значений.
Цепное правило заключается в том, что вычислять значение производной для каждой переменной можно на основе значения производной последующей функции и значения производной параметра относительно этой последующей функции .
Скрытый текст
- производная функции от самой себя всегда равна 1.
- здесь вместо во втором множителе нужно подставить выражение (формулу), по которому получается результат .
- здесь вместо во втором множителе нужно подставить выражение, по которому получается результат .
- здесь аналогично.
Как видите, для вычисление производной каждого последующего значения можно просто использовать значение производной предыдущего значения. Таким образом получается цепочка умножения производных.
Если расписывать выражения для каждого полностью, то получится выражение, в котором можно будет заменить соответствующие члены на производные для предыдущих значений, то есть получится то же самое:
Правило суммы. Если какая-то переменная участвует в нескольких преобразованиях, то есть в получении нескольких переменных, то для вычисления ее частной производной нужно сложить все частные производные этих переменных (в которых участвует данная переменная) по данной переменной. Правило суммы. Если какая-то переменная участвует в нескольких преобразованиях, то есть в получении нескольких переменных, то для вычисления ее частной производной нужно сложить все частные производные этих переменных (в которых участвует данная переменная) по данной переменной.
Правило суммы. Если какая-то переменная участвует в нескольких преобразованиях, то есть в получении нескольких переменных, то для вычисления ее частной производной нужно сложить все частные производные этих переменных (в которых участвует данная переменная) по данной переменной.
Скрытый текст
Для того, чтобы вычислить производную , нужно суммировать значения производных переменных, в получении которых участвовала переменная , по переменной , в данном примере это производные и .
Пример использования цепного правила
На вход подаются две переменные и . Здесь присутствую 3 функции:
Скрытый текст
Вычисляем все значения.
Вычисляем производные для каждого относительно по цепному правилу.
= + = + =
Для нужно суммировать все производные, в которых участвует значение - правило суммы.
= =
Проверим значения производных, не используя цепное правило:
= = = + = + =
= = = + = = =
Выглядит точно так же, но это не одни и те же формулы. В первом случае используется цепное правило, во втором — правило умножения (арифметическая операция).
Заключение
В этой статье я рассказал о том, как выводится понятие производной. О том, как выводятся аналитические значения производных функций, как используются свойства пределов для их вычисления. И, самое главное, о правилах дифференцирования, которые необходимо понимать для того, чтобы работать с алгоритмами обучения в машинном обучении, которые основаны на градиентах.
Для анализа данных и для применения моделей машинного обучения это, скорее всего, изучать не особо имеет смысл, так как суть анализа данных в том, чтобы анализировать данные, а не работу моделей машинного обучения изнутри. Но для инженерии в машинном обучении и, в целом, для создания ИИ, это необходимо — так как это развивает понимание того, что такое обучение интеллектуальной программы в принципе.
Есть вопросы — спрашивайте. Также подписывайтесь на мой канал в телеграме, чтобы не пропустить мои статьи по различным темам машинного обучения и идеям о создании цифрового интеллекта.
Комментарии (22)
dyadyaSerezha
12.01.2025 07:38А где тут были ИИ (из заголовка) и машинное обучение (из тэга)?
neuromancertdi Автор
12.01.2025 07:38Ну, про ИИ, это значит, что я рассказываю в статье про математику, которая используется для обучения нейросетей. А хаб "машинное обучение" я поставил, так как я буду делать статью про алгоритм автоматического дифференцирования для глубокого обучение, который реализуется на основе правил дифференцирования, про которые я и сделал статью
WLMike
12.01.2025 07:38Кроме неточностей непонятно на кого это рассчитано. Это изучают где-то семестр в ВУЗе. Вряд ли можно хоть чего-то содержательно понять, если не знал и так, просто прочитав статью
neuromancertdi Автор
12.01.2025 07:38Благодарю за обратную связь. Я не подумал о том, чтобы уточнить для чего я сделал эту статью. Я сделаю статью про алгоритм автоматического дифференцирования, в котором нужно понимать то, как работают правила дифференцирования. Я сделал эту отдельную статью, чтобы не впихивать это все в статью про autograd
GospodinKolhoznik
12.01.2025 07:38Как свидетельствуют очевидцы, когда Николай Алексеевич Некрасов впервые прочитал статью Алмаза Хуснутдинова по дифференциальному исчислению, он был в невероятно восторге и поспешил поделиться ей со своим близким другом Виссарионом Григорьевичем Белинским.
«Новый Фихтенгольц явился!» — закричал Некрасов, входя к нему со статьей — «У вас Фихтенгольцы-то как грибы растут», — строго заметил ему Белинский, но рукопись взял. Когда Некрасов опять зашёл к нему, вечером, то Белинский встретил его «просто в волнении»: «Приведите, приведите его скорее!».
neuromancertdi Автор
12.01.2025 07:38Не понимаю этот рассказ, это наверно отрывок с каким-то юмором.
Я просто не подумал упомянуть о том, для чего я сделал эту статью. Я выложу статью про алгоритм автоматического дифференцирования, который используется для обучения нейросетей. Для его понимания нужно понимать правила дифференцирования и вообще само понятие дифференциала. Как-то так
Exlt8
12.01.2025 07:38Нда, коллеги выше мьельнир в руки брали) А если конструктивно, то как именно берете по слоям в конечных разностях производные с учетом машинной точности? Не аналитически же вы все это делаете..
neuromancertdi Автор
12.01.2025 07:38Не совсем понял вопрос. Здесь я рассказал про правила дифференцирования, которые буду использовать для объяснения алгоритма autograd, не подумал упомянуть об этом. А аналитические значения нужны как раз для этого алгоритма. Их нужно будет использовать при обратном распространении ошибки для расчета производных на основе цепного правила, которое будет использовать формулы для каждой отдельной арифметической операции и элементарных функций
YDR
12.01.2025 07:38про предел функции нескольких переменных написано неправильно. Пределы по x1 затем по х2, и сначала по х2 затем по х1 могут оба существовать и быть одинаковыми, но нужно, чтобы все пределы по любым последовательностям существовали и были одинаковыми, чего может и не быть.
neuromancertdi Автор
12.01.2025 07:38Благодарю за обратную связь. Я не особо разбираюсь в этом, поэтому не знаю как правильно это нужно рассказывать. Не подумал упомянуть, что я плохо в этом разбираюсь. Я просто привел эти определения, чтобы как бы немного ввести в тему - что есть некое понятие предела, на основе которого выводится понятие дифференциала.
MasterMentor
12.01.2025 07:38Хорошая маленькая статья с ясным изложением. +
PS Те, кто осведомлён, что такое "Дифференциал, производная и правила дифференцирования" - просто её не читайте! :)
SergeMukhin
12.01.2025 07:38X->0, lim (sin(X)/X) = lim (sin(X)) / lim(X)?
neuromancertdi Автор
12.01.2025 07:38По идее так и есть
631052
12.01.2025 07:38нет, тут слева 1, а справа 0/0, причём не не определённость, а именно число ноль, делённое на число ноль (после предельного перехода это уже действительны числа).
т. е. правая часть равенства не имеет смысла
Flokis_guy
12.01.2025 07:38Нет, как выше написали, выходит неопределенность вида 0/0. В этом случае можно использовать либо правило Лопиталя, ну или в ряд Тейлора синус разложить.
631052
12.01.2025 07:38нельзя, ни Лопиталя ни Тейлора, получится порочный круг.
слева "первый замечательный предел", он равен единице. это оказывается геометрически.
Flokis_guy
12.01.2025 07:38Это вполне возможно, мы получаем единицу по правилу Лопиталя, так как выходит cos(0). При разложении синуса в ряд Тейлора около нуля мы получаем первый член равным 1, а все остальные стремятся к 0.
631052
12.01.2025 07:38так при вычислении производной синуса и используется тот факт, что 1й з. п. равен единице.
поэтому и нельзя
MasterMentor
12.01.2025 07:38PPS Читал в советах "Как писать статьи" от Хабра, что критерий успеха статьи - не плюсы, а закладки.
На 23:38 13.01.2025 плюсов 0 и 35 закладок (что много).
Делайте выводы, господа. ;)
garryq
Много приблизительных высказываний. Например, «свойства пределов» ни разу не очевидны, там нужна хотя бы дифференцируемость. Правило Лопиталя (это про деление) работает не всегда. «Домножение на сопряженное выражение» – некорректная операция, выражение должно быть по крайней мере строго ненулевым.
neuromancertdi Автор
Благодарю за ваш комментарий. Да, много всяких оговорок нужно было бы упомянуть, но я в этом не разбираюсь. Я не подумал о том, чтобы указать про это в предисловии. Основная цель статьи - рассказать про то, что такое дифференциал и про правила дифференцирования