[ad_1]

Dernière mise à jour le 31 juillet 2021

Les dérivées d’ordre supérieur peuvent capturer des informations sur une fonction que les dérivées de premier ordre ne peuvent pas capturer à elles seules.

Les dérivées du premier ordre peuvent capturer des informations importantes, telles que le taux de changement, mais à elles seules, elles ne peuvent pas faire la distinction entre les minima et les maxima locaux, où le taux de changement est nul pour les deux. Plusieurs algorithmes d’optimisation abordent cette limitation en exploitant l’utilisation de dérivées d’ordre supérieur, comme dans la méthode de Newton où les dérivées de second ordre sont utilisées pour atteindre le minimum local d’une fonction d’optimisation.

Dans ce tutoriel, vous découvrirez comment calculer des dérivées univariées et multivariées d’ordre supérieur.

Après avoir terminé ce tutoriel, vous saurez :

  • Comment calculer les dérivées d’ordre supérieur de fonctions univariées.
  • Comment calculer les dérivées d’ordre supérieur de fonctions multivariées.
  • Comment les dérivées du second ordre peuvent être exploitées en apprentissage automatique par des algorithmes d’optimisation du second ordre.

Commençons.

Dérivés d’ordre supérieur
Photo de Jairph, certains droits réservés.

Présentation du didacticiel

Ce tutoriel est divisé en trois parties ; ils sont:

  • Dérivées d’ordre supérieur de fonctions univariées
  • Dérivées d’ordre supérieur de fonctions multivariées
  • Application en apprentissage automatique

Dérivées d’ordre supérieur de fonctions univariées

En plus des dérivées du premier ordre, dont nous avons vu qu’elles peuvent nous fournir des informations importantes sur une fonction, telles que son taux de changement instantané, les dérivées d’ordre supérieur peuvent également être tout aussi utiles. Par exemple, la dérivée seconde peut mesurer l’accélération d’un objet en mouvement, ou elle peut aider un algorithme d’optimisation à faire la distinction entre un maximum local et un minimum local.

Le calcul des dérivées d’ordre supérieur (deuxième, troisième ou supérieur) de fonctions univariées n’est pas si difficile.

La dérivée seconde d’une fonction n’est que la dérivée de sa dérivée première. La troisième dérivée est la dérivée de la deuxième dérivée, la quatrième dérivée est la dérivée de la troisième, et ainsi de suite.

– Page 147, Calcul pour les nuls, 2016.

Par conséquent, le calcul des dérivées d’ordre supérieur implique simplement de différencier la fonction à plusieurs reprises. Pour ce faire, nous pouvons simplement appliquer notre connaissance de la règle du pouvoir. Considérons la fonction, F(X) = x3 + 2x2 – 4x + 1, à titre d’exemple. Puis:

Dérivée première : F‘(X) = 3X2 + 4X – 4

Dérivée seconde : F”(X) = 6X + 4

Dérivée troisième : F”'(X) = 6

Quatrième dérivée : F (4)(X) = 0

Dérivée cinquième : F (5)(X) = 0 etc.

Ce que nous avons fait ici, c’est que nous avons d’abord appliqué la règle de puissance à F(X) pour obtenir sa dérivée première, F‘(X), puis appliqué la règle de puissance à la dérivée première afin d’obtenir la seconde, et ainsi de suite. La dérivée finira par atteindre zéro à mesure que la différentiation est appliquée à plusieurs reprises.

L’application des règles du produit et du quotient reste également valable pour obtenir des dérivées d’ordre supérieur, mais leur calcul peut devenir de plus en plus compliqué à mesure que l’ordre augmente. La règle générale de Leibniz simplifie la tâche sur cet aspect, en généralisant la règle du produit à :

Ici, le terme, m! / k!(mk)!, est le coefficient binomial du théorème binomial, tandis que F (k) et g(k) désigne le ke dérivée des fonctions, F et g, respectivement.

Par conséquent, trouver les dérivées première et seconde (et, par conséquent, substituer à m = 1 et m = 2, respectivement), par la règle générale de Leibniz, nous donne :

(fg)(1) = (fg)’ = F (1) g + F g(1)

(fg)(2) = (fg)” = F (2) g + 2F (1) g(1) + F g(2)

Remarquez la dérivée première familière telle que définie par la règle du produit. La règle de Leibniz peut également être utilisée pour trouver des dérivées d’ordre supérieur de fonctions rationnelles, puisque le quotient peut être efficacement exprimé en un produit de la forme, F g-1.

Dérivées d’ordre supérieur de fonctions multivariées

La définition des dérivées partielles d’ordre supérieur des fonctions multivariées est analogue au cas univarié : le me dérivée partielle d’ordre pour m > 1, est calculé comme la dérivée partielle de (m – 1)e dérivée partielle d’ordre. Par exemple, prendre la dérivée seconde partielle d’une fonction à deux variables donne quatre dérivées partielles secondes : deux propre dérivées partielles, Fxx et Faa, et deux dérivées partielles croisées, Fxy et Fyx.

Pour prendre une « dérivée », nous devons prendre une dérivée partielle par rapport à x ou y, et il y a quatre façons de le faire : x puis x, x puis y, y puis x, y puis y.

– Page 371, Calcul simple et multivariable, 2020.

Considérons la fonction multivariée, F(X, oui) = X2 + 3xy + 4oui2, pour laquelle on aimerait trouver les dérivées partielles secondes. Le processus commence par trouver ses dérivées partielles du premier ordre, d’abord :

Les quatre dérivées partielles du second ordre sont ensuite trouvées en répétant le processus de recherche des dérivées partielles, des dérivées partielles. Le propre les dérivées partielles sont les plus simples à trouver, puisque nous répétons simplement le processus de différenciation partielle, en ce qui concerne soit X ou alors oui, une seconde fois:

La dérivée partielle croisée de la précédemment trouvée FX (c’est-à-dire la dérivée partielle par rapport à X) se trouve en prenant la dérivée partielle du résultat par rapport à oui, Nous donnant Fxy. De même, en prenant la dérivée partielle de Foui en ce qui concerne X, nous donne Fyx:

Ce n’est pas par hasard que les dérivées partielles croisées donnent le même résultat. Ceci est défini par le théorème de Clairaut, qui stipule que tant que les dérivées partielles croisées sont continues, alors elles sont égales.

Application en apprentissage automatique

En apprentissage automatique, c’est la dérivée du second ordre qui est le plus souvent utilisée. Nous avions mentionné précédemment que la dérivée seconde peut nous fournir des informations que la dérivée première à elle seule ne peut pas capturer. Plus précisément, il peut nous dire si un point critique est un minimum ou un maximum local (selon que la dérivée seconde est supérieure ou inférieure à zéro, respectivement), pour lequel la dérivée première serait, sinon, nulle dans les deux cas.

Il y a plusieurs deuxième ordre algorithmes d’optimisation qui exploitent ces informations, dont la méthode de Newton.

Les informations de second ordre, en revanche, nous permettent de faire une approximation quadratique de la fonction objectif et d’approcher la bonne taille de pas pour atteindre un minimum local…

– Page 87, Algorithmes d’optimisation, 2019.

Dans le cas univarié, la méthode de Newton utilise un développement en série de Taylor du second ordre pour effectuer l’approximation quadratique autour d’un certain point de la fonction objectif. La règle de mise à jour de la méthode de Newton, obtenue en mettant la dérivée à zéro et en résolvant la racine, implique une opération de division par la dérivée seconde. Si la méthode de Newton est étendue à l’optimisation multivariée, la dérivée est remplacée par le gradient, tandis que l’inverse de la dérivée seconde est remplacé par l’inverse de la matrice hessienne.

Nous couvrirons les approximations des séries Hessian et Taylor, qui tirent parti de l’utilisation de dérivées d’ordre supérieur, dans des didacticiels séparés.

Lectures complémentaires

Cette section fournit plus de ressources sur le sujet si vous cherchez à approfondir.

Livres

Résumé

Dans ce didacticiel, vous avez découvert comment calculer des dérivées univariées et multivariées d’ordre supérieur.

Concrètement, vous avez appris :

  • Comment calculer les dérivées d’ordre supérieur de fonctions univariées.
  • Comment calculer les dérivées d’ordre supérieur de fonctions multivariées.
  • Comment les dérivées du second ordre peuvent être exploitées en apprentissage automatique par des algorithmes d’optimisation du second ordre.

Avez-vous des questions?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.