[ad_1]
| Rob Bensinger | Bulletins
MIRI COO Malo Bourgon passe en revue notre dernière année et discute de nos futurs plans dans les mises à jour et la stratégie 2020.
Notre plus grande mise à jour est que nous avons fait des progrès moins concrets que prévu sur la nouvelle recherche que nous avons décrite dans Mise à jour 2018: Nos nouvelles orientations de recherche. En conséquence, nous réduisons notre travail sur ces orientations de recherche et recherchons de nouveaux angles d’attaque qui ont de meilleures chances de résulter en une solution au problème d’alignement.
Autres mises à jour MIRI
Nouvelles et liens
- Daniel Filan lance le podcast AI X-Risk Research (AXRP) avec des épisodes mettant en vedette Adam Gleave, Rohin Shah et Andrew Critch.
- AlphaFold de DeepMind représente une très grande avancée dans la prédiction de la structure des protéines.
- Metaculus lance Forecasting AI Progress, un tournoi ouvert de quatre mois pour prédire les progrès de l’IA, avec une cagnotte de 50 000 $.
- Poursuite du débat sur les décollages: Richard Ngo répond à l’argument de Paul Christiano sur les «pressions de sélection changeantes» contre le décollage brutal.
- Beth Barnes d’OpenAI discute du problème des arguments obscurs pour la sécurité de l’IA via un débat:
Auparavant, nous espérions que le débat / IDA pourrait vérifier toute connaissance pour laquelle de tels arguments compréhensibles par l’homme existent, même si ces arguments sont d’une ampleur insurmontable. Nous espérions que les débatteurs pourraient stratégiquement traverser de petites parties du grand arbre d’argument implicite et montrer ainsi que l’arbre entier pouvait être fiable.
Le problème des arguments obscurcis suggère que nous ne pourrons peut-être pas compter sur les débatteurs pour trouver des failles dans les grands arguments, de sorte que nous ne pouvons faire confiance aux arguments que lorsque nous pourrions trouver des failles en répétant au hasard – par exemple parce que l’argument est suffisamment petit pour que nous puissions trouver un argument seul défaut s’il en existait un, ou parce que l’argument est suffisamment robuste pour être correct à moins qu’il n’ait de nombreux défauts.
- Certains domaines de recherche sur l’IA et leur pertinence par rapport à la sécurité existentielle: Andrew Critch compare la robustesse hors distribution, les fondations d’agents, la RL multi-agents, l’apprentissage des préférences et d’autres domaines de recherche.
- Ben Hoskin publie sa revue de la littérature sur l’alignement de l’IA 2020 et sa comparaison caritative.
- Open Philanthropy résume ses subventions à la gouvernance de l’IA à ce jour.