Recherche sur des modèles de langage large qui heurtent des bosses éthiques

Actualités de de l'Intelligence Artificielle - Machine Learning - Objets connectés

Recherche sur des modèles de langage large qui heurtent des bosses éthiques



Selon une nouvelle étude, les grands modèles linguistiques tels que le GPT-3 d’OpenAI courent le risque de perpétuer des préjugés et des préjugés contre un éventail de communautés marginalisées. (Crédit: Getty Images)

Par John P. Desmond, éditeur de tendances IA

Une enquête de recherche sur la collection d’ensembles de données de la communauté d’apprentissage automatique montre une dépendance excessive à des ensembles de données mal organisés utilisés pour former des modèles d’apprentissage automatique.

Les auteurs de l’étude recommandent une culture qui prend soin des personnes représentées dans les ensembles de données et respecte leur vie privée et leurs droits de propriété. Cependant, dans l’environnement d’apprentissage automatique actuel, «tout est permis», ont déclaré les auteurs de l’enquête dans un compte rendu dans VentureBeat.

« Les données et leur (dés) contenu: une enquête sur le développement et l’utilisation des ensembles de données dans l’apprentissage automatique»A été rédigé par les linguistes Amandalynne Paullada et Emily Bender de l’Université de Washington, Inioluwa Deborah Raji, membre de la Mozilla Foundation, et les chercheurs de Google Emily Denton et Alex Hanna. Le document a conclu que les grands modèles linguistiques contiennent la capacité de perpétuer les préjugés et les préjugés contre un éventail de communautés marginalisées et que les ensembles de données mal annotés font partie du problème.

Les événements de l’année écoulée ont accru la visibilité des lacunes du courant dominant ensembles de données qui nuisent souvent aux personnes issues de communautés marginalisées. Après Timnit Gebru, l’éthicien de l’IA, (voir la couverture dans Tendances IA) a été écarté de Google dans le cadre de ce qui a été signalé comme une «censure de recherche sans précédent», la société a commencé à examiner des documents de recherche sur des «sujets sensibles», selon un compte rendu de Reuters.

La nouvelle revue la procédure demande aux chercheurs de consulter les juristes, les politiques, et les équipes de relations publiques avant de poursuivre des sujets tels que l’analyse des visages et des sentiments et les catégorisations de race, de sexe ou d’affiliation politique, selon les pages Web internes expliquant la politique.

«Les progrès technologiques et la complexité croissante de notre environnement externe conduisent de plus en plus à des situations où des projets apparemment inoffensifs soulèvent des problèmes éthiques, de réputation et de réglementation., ou des questions juridiques », a déclaré l’une des pages destinées au personnel de recherche. Reuters n’a pas pu déterminer la date du message, bien que trois employés actuels aient déclaré que la politique avait commencé en juin.

Margaret Mitchell, scientifique principale, Google Research

Quatre chercheurs membres du personnel, dont la scientifique principale Margaret Mitchell, qui faisait partie de l’équipe de recherche avec Gebru, ont déclaré qu’ils craignaient que Google commence à interférer avec des études cruciales sur les dommages technologiques potentiels. «Si nous recherchons la chose appropriée compte tenu de notre expertise, et que nous ne sommes pas autorisés à publier cela pour des raisons qui ne sont pas conformes à un examen par les pairs de haute qualité, nous nous retrouvons dans un grave problème de censure», a déclaré Mitchell.

Les chercheurs de Google ont publié plus de 200 articles au cours de l’année dernière sur le développement responsable de l’IA, parmi plus de 1000 projets au total, a déclaré Jeff Dean, vice-président senior de Google. L’étude des services Google pour les préjugés fait partie des «sujets sensibles» de la nouvelle politique de l’entreprise, selon une page Web interne. Parmi les dizaines d’autres «sujets sensibles» répertoriés figuraient l’industrie pétrolière, la Chine, l’Iran, Israël, le COVID-19, la sécurité domestique, l’assurance, les données de localisation, la religion, les véhicules autonomes, les télécommunications., et les systèmes qui recommandent ou personnalisent le contenu Web.

Problèmes de confidentialité avec les grands modèles linguistiques également

Un autre problème récemment apparu à propos des grands modèles linguistiques est qu’ils courent le risque d’exposer des informations personnelles. Décrit sur Le blog IA de Google, la nouvelle étude a été publiée conjointement par Google, Apple, l’Université de Stanford, OpenAI, l’Université de Californie, Berkeley et Northeastern University.

Admissible, « Extraction de données de formation à partir de modèles de grand langage,«  la nouvelle étude indique que les modèles ont le potentiel de «divulguer des détails» à partir des données sur lesquelles ils sont formés. «Ils peuvent parfois contenir des données sensibles, y compris des informations personnelles identifiables (PII) – noms, numéros de téléphone, adresses, etc., même si elles sont formées sur des données publiques», déclarent les auteurs de l’étude.

En l’appelant une «attaque par extraction de données d’entraînement», elle a le plus grand potentiel de dommages lorsqu’elle est appliquée à un modèle accessible au public, mais pour lequel l’ensemble de données utilisé pour l’entraînement ne l’est pas. Les auteurs de l’étude ont monté une attaque d’extraction de données de formation de preuve de concept sur GPT-2, le modèle de langage accessible au public développé par OpenAI qui a été formé en utilisant uniquement des données publiques. Les résultats s’appliquent à la compréhension des menaces à la vie privée possibles sur les grands modèles linguistiques en général, déclarent les auteurs.

« Le but d’une attaque d’extraction de données de formation est alors de passer au crible les millions de séquences de sortie du modèle de langage et de prédire quel texte est mémorisé », a déclaré l’auteur Nicholas Carlini, scientifique chez Google Research. C’est un problème car le texte mémorisé peut contenir le numéro de carte de crédit de quelqu’un, par exemple.

Les résultats ont montré que oSur 1 800 séquences candidates du modèle de langage GPT-2, les chercheurs ont extrait plus de 600 séquences mémorisées à partir des données publiques d’entraînement. Les exemples mémorisés couvrent un large éventail de contenus, y compris les titres d’actualité, les messages de journal, le code JavaScript, les informations personnelles, etc.

«Bien que nous démontrions ces attaques sur GPT-2 spécifiquement, elles montrent des failles potentielles dans tous les grands modèles de langage génératif», a déclaré Carlini. «Le fait que ces attaques soient possibles a des conséquences importantes pour l’avenir de la recherche en machine learning utilisant ces types de modèles».

Le consortium OpenAI, dont la mission déclarée est de faire en sorte que la technologie de l’IA «profite à toute l’humanité», a publié le grand modèle de langage GPT-2 en février 2019. Il a été formé sur 40 Go de données texte et avait 1,5 milliard de paramètres.

OpenAI a publié le grand modèle de langage GPLT-3 en juin 2020. Il a été formé sur 175 milliards de paramètres, 10 fois plus que le prochain plus grand modèle de langage, le Turing Natural Language Generation, développé par Microsoft avec 17 milliards de paramètres, selon un article expliquant le grand modèle de langage GPT-3 publiée sur le site Web de Sigmoïde, une entreprise qui exploite et gère des plateformes de données.

Bhaskar Ammu, scientifique principal des données, Sigmoid

La capacité du modèle GPT-2 à générer de fausses nouvelles est devenue controversée. « Les fausses nouvelles générées par GPT-3 ont été si difficiles à distinguer des vraies, et dans l’une des expériences, les résultats montrent que seulement 50% des fausses nouvelles ont pu être détectées! » a déclaré Bhaskar Ammu, Senior Data Scientist chez Sigmoid, auteur de l’article. Il se spécialise dans la conception de solutions de science des données pour les clients, la construction d’architectures de bases de données et la gestion de projets et d’équipes.

Contrairement à de nombreux modèles de langage, GPT-3 n’a pas besoin de Transfer Learning, où le modèle est affiné sur des ensembles de données spécifiques à des tâches spécifiques. «Les applications de GPT-3 sont l’apprentissage en contexte, où un modèle est alimenté par une tâche / une invite / un tir ou un exemple, et il y répond en fonction des compétences et des capacités de reconnaissance de formes acquises au cours de la formation. pour adapter la tâche spécifique actuelle », a-t-il déclaré.

«Malgré sa formidable facilité d’utilisation, l’énorme taille du modèle est le principal facteur qui entrave l’utilisation pour la plupart des gens, à l’exception de ceux qui disposent de ressources disponibles», a déclaré Ammu. «Cependant, il y a des discussions dans la fraternité qui distillation pourrait venir à la rescousse.

Lisez les articles sources dans VentureBeat, Reuters, sur Le blog IA de Google, dans le journal « Extraction de données de formation à partir de modèles de langage large, Et un article expliquant le grand modèle de langage GPT-3 publié sur le site Web de Sigmoïde.