[ad_1]

Il est souvent souhaitable d’étudier des fonctions qui dépendent de nombreuses variables.

Le calcul multivarié nous fournit les outils pour le faire en étendant les concepts que nous trouvons dans le calcul, tels que le calcul du taux de changement, à plusieurs variables. Il joue un rôle essentiel dans le processus de formation d’un réseau de neurones, où le gradient est largement utilisé pour mettre à jour les paramètres du modèle.

Dans ce tutoriel, vous découvrirez une introduction douce au calcul multivarié.

Après avoir terminé ce tutoriel, vous saurez :

  • Une fonction multivariée dépend de plusieurs variables d’entrée pour produire une sortie.
  • Le gradient d’une fonction multivariée est calculé en trouvant la dérivée de la fonction dans différentes directions.
  • Le calcul multivarié est largement utilisé dans les réseaux de neurones pour mettre à jour les paramètres du modèle.

Commençons.

Une introduction douce au calcul multivarié
Photo de Luca Bravo, certains droits réservés.

Présentation du didacticiel

Ce tutoriel est divisé en trois parties ; ils sont:

  • Re-visiter le concept d’une fonction
  • Dérivées de fonctions multivariées
  • Application du calcul multivarié à l’apprentissage automatique

Re-visiter le concept d’une fonction

Nous nous sommes déjà familiarisés avec le concept de fonction, en règle générale qui définit la relation entre une variable dépendante et une variable indépendante. Nous avons vu qu’une fonction est souvent représentée par oui = F(X), où à la fois l’entrée (ou la variable indépendante), X, et la sortie (ou la variable dépendante), oui, sont des nombres réels simples.

Une telle fonction qui prend une seule variable indépendante et définit un mappage un à un entre l’entrée et la sortie, est appelée un univarié une fonction.

Par exemple, disons que nous essayons de prévoir le temps en fonction de la température seule. Dans ce cas, la météo est la variable dépendante que nous essayons de prévoir, qui est fonction de la température comme variable d’entrée. Un tel problème peut donc être facilement encadré dans une fonction univariée.

Cependant, disons que nous voulons maintenant baser nos prévisions météorologiques sur le taux d’humidité et la vitesse du vent aussi, en plus de la température. Nous ne pouvons pas le faire au moyen d’une fonction univariée, où la sortie dépend uniquement d’une seule entrée.

Par conséquent, nous portons notre attention sur multivarié fonctions, ainsi appelées parce que ces fonctions peuvent prendre plusieurs variables en entrée.

Formellement, nous pouvons exprimer une fonction multivariée comme une correspondance entre plusieurs variables d’entrée réelles, m, à une sortie réelle :

Par exemple, considérons la surface parabolique suivante :

F(X, oui) = X2 + 2oui2

Il s’agit d’une fonction multivariée qui prend deux variables, X et oui, en entrée, d’où m = 2, pour produire une sortie. Nous pouvons le visualiser en traçant ses valeurs pour X et oui entre -1 et 1.

Tracé tridimensionnel d’une surface parabolique

De même, nous pouvons avoir des fonctions multivariées qui prennent plus de variables en entrée. Les visualiser, cependant, peut être difficile en raison du nombre de dimensions impliquées.

Nous pouvons même généraliser davantage le concept de fonction en considérant des fonctions qui mappent plusieurs entrées, m, à plusieurs sorties, m:

Ces fonctions sont plus souvent appelées valeur vectorielle les fonctions.

Dérivées de fonctions multivariées

Rappelez-vous que le calcul est concerné par l’étude du taux de changement. Pour une fonction univariée, g(X), ceci peut être réalisé en calculant sa dérivée :

La généralisation de la dérivée aux fonctions de plusieurs variables est le gradient.

– Page 146, Mathématiques de l’apprentissage automatique, 2020.

La technique pour trouver le gradient d’une fonction de plusieurs variables consiste à faire varier chacune des variables à la fois, tout en gardant les autres constantes. De cette manière, nous prendrions le dérivée partielle de notre fonction multivariée par rapport à chaque variable, à chaque fois.

Le gradient est alors l’ensemble de ces dérivées partielles.

– Page 146, Mathématiques de l’apprentissage automatique, 2020.

Afin de mieux visualiser cette technique, commençons par considérer une simple fonction quadratique univariée de la forme :

g(X) = X2

Tracé linéaire d’une fonction quadratique univariée

Trouver la dérivée de cette fonction à un moment donné, X, nécessite l’application de l’équation pour g‘(X) que nous avons défini précédemment. Nous pouvons, alternativement, prendre un raccourci en utilisant la règle de puissance pour trouver que :

g'(x) = 2X

en outre, s’il fallait imaginer trancher la surface parabolique considérée plus haut, avec un plan passant par oui = 0, on se rend compte que la section efficace résultante de F(X, oui) est la courbe quadratique, g(X) = X2. Par conséquent, nous pouvons calculer la dérivée (ou la pente, ou pente) de la surface parabolique dans la direction de X, en prenant la dérivée de F(X, oui) mais en gardant oui constant. Nous appelons cela le partiel dérivé de F(X, oui) en ce qui concerne X, et notez-le par pour signifier qu’il y a plus de variables en plus de X mais celles-ci ne sont pas envisagées pour le moment. Par conséquent, la dérivée partielle par rapport à X de F(X, oui) est:

On peut de même tenir X constante (ou, en d’autres termes, trouver la section transversale de la surface parabolique en la coupant avec un plan passant par une valeur constante de X) pour trouver la dérivée partielle de F(X, oui) en ce qui concerne oui, comme suit:

Ce que nous avons essentiellement fait, c’est que nous avons trouvé la dérivée univariée de F(X, oui) dans chacun de X et oui directions. La combinaison des deux dérivées univariées comme étape finale, nous donne la dérivée multivariée (ou le gradient):

La même technique reste valable pour les fonctions de dimensions supérieures.

Application du calcul multivarié à l’apprentissage automatique

Les dérivées partielles sont largement utilisées dans les réseaux de neurones pour mettre à jour les paramètres (ou poids) du modèle.

Nous avions vu qu’en minimisant une fonction d’erreur, un algorithme d’optimisation cherchera à suivre son gradient en descente. Si cette fonction d’erreur était univariée, et donc fonction d’un seul poids indépendant, alors l’optimiser impliquerait simplement de calculer sa dérivée univariée.

Cependant, un réseau de neurones comprend de nombreux poids (chacun attribué à un neurone différent) dont l’erreur est fonction. Par conséquent, la mise à jour des valeurs de poids nécessite que le gradient de la courbe d’erreur soit calculé par rapport à l’ensemble de ces poids.

C’est là qu’intervient l’application du calcul multivarié.

Le gradient de la courbe d’erreur est calculé en trouvant la dérivée partielle de l’erreur par rapport à chaque poids ; ou en d’autres termes, trouver la dérivée de la fonction d’erreur en gardant tous les poids constants sauf celui considéré. Cela permet à chaque poids d’être mis à jour indépendamment des autres, pour atteindre l’objectif de trouver un ensemble optimal de poids.

Lectures complémentaires

Cette section fournit plus de ressources sur le sujet si vous cherchez à approfondir.

Livres

Résumé

Dans ce didacticiel, vous avez découvert une introduction douce au calcul multivarié.

Concrètement, vous avez appris :

  • Une fonction multivariée dépend de plusieurs variables d’entrée pour produire une sortie.
  • Le gradient d’une fonction multivariée est calculé en trouvant la dérivée de la fonction dans différentes directions.
  • Le calcul multivarié est largement utilisé dans les réseaux de neurones pour mettre à jour les paramètres du modèle.

Avez-vous des questions?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.