Ce que vous devez savoir sur la gestion des risques liés aux modèles

Actualités de de l'Intelligence Artificielle - Machine Learning - Objets connectés

Ce que vous devez savoir sur la gestion des risques liés aux modèles


Qu’est-ce que le risque de modèle?

Risque de modèle est un terme généralement utilisé dans le contexte de modèles financiers. Il fait généralement référence à des hypothèses du modèle d’apprentissage automatique qui rendent impossible la capture complète du risque financier. Cela peut être le résultat d’un modèle qui est fortement biaisé et ne modélise pas correctement les données sous-jacentes, ou qui est d’une autre manière inexacte. Ne pas évaluer correctement le risque financier peut entraîner toute une série d’implications négatives, telles que des décisions de prêts subprime inappropriés, des prédictions incorrectes concernant la direction des marchés financiers ou des titres individuels et des décisions commerciales désastreuses fondées sur des prévisions financières erronées.

Cependant, en 2021, les mégadonnées et l’apprentissage automatique sont largement utilisés dans de nombreux secteurs différents et la définition du risque de modèle a été élargie pour refléter ce fait. Aujourd’hui, quand quelqu’un parle de risque de modèle, il réfléchit généralement aux problèmes en aval inhérents à l’utilisation de tout type de modèle statistique.

Le risque de modèle fait référence aux risques inhérents à l’exécution de modèles d’apprentissage automatique en production. Le fait est qu’il y a toujours des risques quand on travaille avec des modèles de données, et chaque organisation doit mettre en place la gouvernance et des procédures opérationnelles pour minimiser et atténuer ces risques.

Téléchargez notre guide gratuit pour modéliser la gestion des risques.

Sources de risque de modèle

Sources de risque pendant le développement du modèle et la formation

Le risque de modèle peut survenir à un certain nombre d’endroits dans le processus de création de modèle. Par exemple, les sorties d’un modèle dépendent des données, des hypothèses, des contextes, des mathématiques sous-jacentes et du code avec lequel il a été formé. Lorsque l’un de ces éléments présente des erreurs ou des biais, ils se propageront probablement aux sorties et entraîneront une sorte d’erreur.

Et pourtant, même en utilisant le plus grand soin pour développer des modèles, une petite marge d’inexactitude fondamentale est généralement inévitable. Ceci est codifié dans le célèbre Compromis biais-variance principe de l’apprentissage automatique, qui affirme que l’erreur totale d’un modèle peut être décomposée en une somme de son biais au carré et de sa variance plus une composante appelée erreur irréductible. Cette dernière partie est incontournable. Même avec un modèle parfaitement optimisé et réglé, il y aura toujours une partie de l’erreur qui est insoluble en raison du bruit dans la finitude des données avec lesquelles nous devons travailler. Aucun ensemble d’entraînement fini ne peut fournir une mesure parfaite de toute circonstance réelle.

Cela dit, il existe de nombreux aspects contrôlables du risque de modèle. Le premier d’entre eux concerne les données elles-mêmes. Bien qu’aucun ensemble de données ne soit jamais parfait, de meilleurs modèles peuvent presque toujours être obtenus en rassemblant des données représentatives plus nombreuses et de meilleure qualité. C’est une simple conséquence de Approximation de Monte Carlo– plus on utilise de données, meilleure est l’estimation de la distribution dans le monde réel. Ainsi, à chaque fois qu’une erreur de temps est rencontrée dans un modèle, le premier instinct devrait être de revenir en arrière et d’examiner les données sur lesquelles il a été formé.

Ensuite, de nombreux modèles sont formés avec des hypothèses inhérentes à l’esprit. C’est particulièrement le cas lorsque la sélection manuelle des fonctionnalités est utilisée ou que les règles relatives au comportement d’un système sont codées dans le modèle lui-même. Par exemple, un modèle de découverte de médicaments peut être construit de manière à produire des résultats qui adhèrent aux propriétés chimiques sous-jacentes aux interactions moléculaires, ou un modèle de langage peut coder certaines structures linguistiques telles que l’arrangement des temps ou le comportement des prédicats dans une phrase. Toute erreur dans ces hypothèses sous-jacentes entraînera également des erreurs globales dans les extrants du modèle et un risque quantifiable.

Une autre chose à garder à l’esprit est le contexte dans lequel un modèle est formé. Cela renvoie aux données utilisées par un modèle. Normalement, un modèle est formé pour refléter avec précision les caractéristiques de certaines distributions de données sous-jacentes. Lorsqu’un modèle est entraîné sur les données d’une distribution, puis appliqué aux données d’une autre distribution, il peut faire de mauvaises prédictions. Notamment, cela a été démontré dans la reconnaissance d’images. Lorsque les classificateurs sont formés sur des images de personnes d’une race mais ensuite appliqués à ceux d’une race différente, le modèle peut étiqueter de manière inexacte des caractéristiques ou faire d’autres grossières erreurs de généralisation. Disposer d’un ensemble de données représentatif reflétant précisément le contexte dans lequel le modèle sera finalement utilisé est primordial pour réduire le risque du modèle.

Cette erreur de non-distribution est problématique, mais ce n’est qu’un côté de la médaille. Il y a des problèmes qui surviennent également lorsque toute votre distribution de données est intrinsèquement biaisée. Par exemple, les humains ont leurs propres biais et ces biais sont codifiés dans les données que nous générons. Lorsque les modèles sont formés sur ces données, le modèle apprend à reproduire ces biais, même si nous aimerions en fin de compte que notre modèle fonctionne comme les humains le devraient, et non comme ils le font. Chaque fois qu’un modèle est conçu, il est important de réfléchir aux biais vers lesquels il pourrait être enclin et de décider si des ajustements au modèle sont ultimement nécessaires.

Le contexte est également utile à d’autres égards. Un problème fréquemment rencontré dans certains modèles est leur manque de transparence dans les bases de leurs décisions. Les réseaux de neurones et autres modèles hautement paramétrés peuvent souvent être complexes au point de prêter à confusion. Bien qu’ils puissent faire des prédictions très précises, il y a souvent peu ou pas d’informations sur Pourquoi ou comment de telles prédictions ont été faites. Le gouverneur Lael Brainard de la Réserve fédérale a très bien expliqué cela dans son récent discours. Elle y discute de certaines des complexités nuancées associées à la gestion des risques des modèles et, en particulier, des pièges associés au recours à des algorithmes de boîte noire qui manquent d’introspection dans leur fonctionnement interne. Souvent, comprendre le contexte dans lequel un modèle a été formé peut aider à élucider le raisonnement derrière ses processus de prise de décision, et parfois il peut même être préférable de passer par le travail supplémentaire consistant à utiliser des modèles d’apprentissage automatique interprétables dans un espace de problème particulier.

Enfin, le risque de modèle peut survenir en raison de problèmes liés à la machinerie technique sur laquelle un modèle est basé. Par exemple, un modèle lui-même peut être totalement inexact. Il pourrait présenter un biais élevé et ne pas avoir suffisamment de fonctionnalités pour capturer avec précision les relations dans les données, un phénomène connu sous le nom de sous-ajustement. Il peut également s’agir d’une variance élevée et de modéliser trop étroitement les données sous-jacentes de telle sorte que sa capacité à se généraliser à de nouvelles données s’en trouve affectée. Ceci est connu comme surapprentissage. D’autres problèmes pourraient inclure un modèle mal calibré, un modèle basé sur des équations ou une théorie statistique erronées, ou un modèle entraîné avec des méthodes d’optimisation incorrectes qui ne trouvent pas un bon optimum. La liste est pratiquement sans fin.

Et même si les calculs et les procédures intégrés dans un modèle sont corrects, des erreurs techniques peuvent survenir lors de sa mise en œuvre. L’erreur du programmeur est une composante fréquente et bien comprise de l’ingénierie logicielle. Pour cette raison, il est nécessaire d’avoir d’excellents tests, CI / CD, et des processus de déploiement en place afin de pouvoir identifier rapidement les bogues dans le code d’un modèle et les corriger. C’est l’une des raisons pour lesquelles la gouvernance modèle est si importante. Une validation de modèle robuste est une autre pièce essentielle du puzzle.

Sources de risque pour les modèles en production

Bien qu’il existe de nombreuses sources de risque de modèle pendant le processus de développement et de formation du modèle, de plus en plus d’organisations commencent à réaliser que ce qui se passe après le déploiement du modèle est tout aussi important, sinon plus.

Les sources de risque pour les modèles en production sont souvent liées à la dette technique une organisation peut avoir accumulé. Plus précisément, certaines de ces principales sources de risque comprennent:

  1. Ne pas avoir un catalogue complet de tous les modèles en production
  2. Manque de documentation pour quelles données sont utilisées pour quels modèles
  3. Modèles qui ont été déployés dans le passé et qui ne répondent pas aux normes organisationnelles actuelles en matière de test et de documentation
  4. Incapacité de voir les dépendances entre tous les modèles en production
  5. Mauvaise surveillance des modèles, entraînant une dégradation des performances ou un échec pur et simple

C’est pourquoi la gouvernance à travers le complet Le cycle de vie du ML est crucial.

Comment gérer le risque de modèle

Cela nous amène à gérer le risque du modèle. Bien que nous ayons discuté de certains éléments spécifiques d’une stratégie de gestion des risques, il est important de la considérer comme une philosophie globale de développement de modèles, et non simplement comme une approche ad hoc déployée en réponse à des crises d’erreurs individuelles. Le risque de modèle n’est pas une quantité statique. C’est quelque chose qui peut et doit être atténué.

La gouvernance est un élément clé de ce processus de gestion des risques. Et comme mentionné, la gouvernance devrait être appliquée à tous les Achevée Cycle de vie du ML, pas seulement dans un domaine comme le développement de modèles. Gouvernance de l’apprentissage automatique fait référence au processus global permettant à une organisation de contrôler l’accès, de mettre en œuvre la stratégie et de suivre l’activité des modèles et de leurs résultats. Cela peut notamment inclure la validation de la sortie, des tests de précision, d’exactitude et de dérive, la gestion des versions de modèle qui permet le suivi des résultats au fil du temps, la documentation du comportement du modèle et le contrôle des droits d’accès à un modèle donné.

Algorithmie Tendances des entreprises en 2021 en matière d’apprentissage automatique rapport trouvé ceci 56% des organisations sont aux prises avec des problèmes de gouvernance, de sécurité et d’auditabilité. Donc, si vous ne savez pas par où commencer avec la gouvernance de l’apprentissage automatique, vous n’êtes pas seul.

La complexité de la gouvernance de l’apprentissage automatique est aggravée par le fait que la politique d’une organisation doit coexister avec et compléter les réglementations du secteur. Cela peut être difficile, en particulier dans des domaines hautement réglementés tels que la finance, la médecine, la biotechnologie et le génie civil, où les règles changent fréquemment. L’adoption d’une pratique de gouvernance modèle cohésive demande une réflexion, une révision et de la patience constantes.

C’est pourquoi, en collaboration avec HP Bunaes, fondateur de Services bancaires alimentés par l’IA, nous avons élaboré un guide pour modéliser la gestion des risques. Téléchargez-le aujourd’hui pour apprendre les 7 étapes pour mettre en œuvre une stratégie de gouvernance efficace. Puis, rejoignez-nous pour un webinaire le 16 mars, où nous serons rejoints par Bunaes pour parcourir les 7 étapes en détail. Inscrivez-vous aujourd’hui.

Téléchargez notre guide gratuit pour modéliser la gestion des risques.

En savoir plus sur la série de blogs sur la gouvernance AI / ML