Le défi des données intelligentes – Blog sur les statistiques

Actualités de de l'Intelligence Artificielle - Machine Learning - Objets connectés

Le défi des données intelligentes – Blog sur les statistiques


Les statistiques officielles n’ont jamais échappé aux changements qui s’opèrent autour d’elles. De nombreuses organisations au niveau national et international y font constamment face et il est toujours intéressant de voir quelle est l’évaluation actuelle des défis futurs en 2019.

Un exemple

En voici un exemple: Kurt Vandenberghe de la Commission européenne (direction A) dans son discours de clôture à la conférence sur les nouvelles techniques et technologies pour les statistiques officielles (NTTS 2019).

Il se concentre sur la collecte de données – données particulièrement intelligentes -, les qualifications nécessaires et le soutien éventuel de l’IA. La diffusion, le contact avec les utilisateurs des données et les questions sur la présentation compréhensible et l’utilisation correcte des données sont laissés de côté. Et aucune référence au potentiel de données liées, avec lequel plus peut être retiré des sources existantes.

Le texte suivant comprend la dernière partie du discours de Vandenberghes avec la conclusion. J’ai ajusté un peu la mise en page avec des reflets:

«Alors, à quoi ressemblera l’avenir?

Je suis récemment tombé sur une déclaration sur un site Web d’Eurostat selon laquelle au cours de la troisième décennie de ce siècle « La plupart des données, sinon toutes, devraient être organiques, c’est-à-dire des sous-produits des activités, des systèmes et des objets des personnes, y compris des milliards d’appareils intelligents connectés à Internet ». Dans ce nouveau contexte, il est de plus en plus nécessaire d’examiner et d’utiliser le potentiel du transfert de données «B-to-G» entre les entreprises et les administrations publiques. Cela implique des données provenant des médias sociaux, des téléphones portables, de l’Internet des objets, etc. Il devrait y avoir un nouveau rôle pour les institutions statistiques, saisi par le terme
« statistiques intelligentes».
Je cite la même page liée au NTTS d’Eurostat: «Les statistiques intelligentes peuvent être considérées comme le futur rôle étendu des statistiques officielles dans un monde imprégné de technologies intelligentes.» Enfin, il y a la question de des statistiques intelligentes fiables, à nouveau avec un rôle important pour les statistiques officielles, garantissant non seulement la validité et l’exactitude des résultats, mais aussi le respect de la vie privée des personnes concernées et la protection de la confidentialité.

Confidentialité et confidentialité
sont une préoccupation croissante et nous avons besoin de plus de recherche sur les techniques et technologies pour éviter les abus de données sur les particuliers et les entreprises.

Je suppose que ce que nous verrons dans les années à venir n’est cependant pas une technique remplaçant celles existantes, mais une
coexistence et synergies entre
sources de données établies et nouvelles
et techniques, des services publics et privés, et des prestataires généraux et spécialisés qui se complètent. Cela comprendra des enquêtes traditionnelles basées sur des questionnaires et des sources de données administratives, ainsi que de nouvelles techniques telles que les mégadonnées. Si certaines de ces sources fourniront des informations structurelles de base de haute qualité, d’autres fourniront des données plus récentes sur les tendances clés.
Ce qui sera de plus en plus il est important d’avoir des méta-informations et des connaissances richese sur la qualité de ces sources et pour garantir et créer des statistiques fiables, y compris des statistiques intelligentes fiables.

Et dans tout cela, nous ne pouvons pas oublier le rôle que
des personnes avec les bonnes compétences
jouera. On a vu déjà ces dernières années qu’il y a une forte croissance en Europe de la demande d’analystes big data et de managers qui savent gérer le big data. On s’attend à ce que cela se développe davantage. Pour éviter un déficit de compétences, nous devrons encourager les jeunes à entreprendre des études dans ces domaines et les établissements d’enseignement à proposer des cours correspondants. Dans le débat sur «l’avenir du travail» (les changements technologiques futurs pourraient mettre en danger les emplois traditionnels), il y a une chose qui est certaine: le besoin d’analystes de données va encore augmenter.

Et je suppose qu’il est prudent de dire qu’ils seront de plus en plus soutenus par l’intelligence artificielle.
Intelligence artificielle
peut aider à donner un sens à des quantités de plus en plus importantes de données, à en vérifier la validité et à améliorer leur qualité, en libérant les statisticiens des tâches de routine. L’intelligence artificielle pourrait nous aider à analyser les données avec une portée, une échelle et une rapidité accrues. En fait, une grande partie de ce que j’ai dit auparavant et de ce dont vous avez discuté lors de la conférence concerne – directement ou indirectement – l’intelligence artificielle – bien que l’IA ne semble pas très présente dans le programme. Paraphrasant la citation d’Isaac Asimov sur les ordinateurs, nous pourrions dire «Je n’ai pas peur de l’IA, je crains son absence». Et peut-être faut-il surtout craindre l’absence d’une IA européenne. L’Europe doit montrer l’exemple en matière d’IA et développer une IA qui respecte les valeurs européennes et améliore la vie des Européens. La Commission augmente donc ses investissements annuels dans l’IA de 70% dans le cadre du programme de recherche et d’innovation Horizon 2020. Il atteindra 1,5 milliard d’euros pour la période 2018-2020, et les ressources continueront d’augmenter après 2020 ».

Données intelligentes et processus appropriés

Les données intelligentes sont la défi dans la collecte de données. Ce qui doit être considéré, comment les processus doivent être adaptés pour relier les différentes sources de données au standard des statistiques publiques – c’est le sujet de discussion. Ici aussi, deux exemples (de 2018).


Les cadres actuels de la production statistique officielle sont-ils appropriés pour l’utilisation des mégadonnées et des statistiques intelligentes fiables? Bertrand LOISON Vice-directeur, Office fédéral de la statistique, Diego KUONEN PDG, Statoo Consulting et professeur de science des données, Université de Genève

Du résumé:
«En tant qu’approche séquentielle de la production statistique, le GSBPM (« Generic Statistical Business Process Model ») est devenu une norme bien établie utilisant le raisonnement déductif comme paradigme analytique. Par exemple, les premières étapes du GSBPM sont entièrement axées sur le raisonnement déductif basé sur la collecte de données primaires et ne sont pas adaptées au raisonnement inductif appliqué à des données secondaires (déjà existantes) (par exemple, les mégadonnées issues, par exemple, d’écosystèmes intelligents). Tenant compte du potentiel apparent des mégadonnées dans la production statistique officielle, le processus GSBPM doit être adapté pour intégrer à la fois des approches complémentaires d’analyse (c’est-à-dire le raisonnement inductif et déductif)…. ‘

[4] Kuonen D. (2018). Processus de production des statistiques officielles et processus d’innovation des données augmentés par des statistiques intelligentes fiables: amis ou ennemis? Présentation principale donnée le 15 mai 2018 à la conférence «Big Data for European Statistics (BDES)» à Sofia, Bulgarie
(https://goo.gl/RMfpfB).

Vers une architecture de référence pour des statistiques intelligentes fiables
Fabio Ricciato, Michail Skaliotis, Albrecht Wirthmann, Kostas Giannakouris, Fernando Reis EUROSTAT Task Force on Big Data, 5, rue Alphonse Weicker, L 2721 Luxembourg

Du résumé:
«…. Nous décrivons le concept de Trusted Smart Statistics comme l’évolution naturelle des statistiques officielles dans le nouveau monde datafied, où les sources de données traditionnelles (enquêtes et données administratives) représentent une partie précieuse mais petite du stock mondial de données, la plupart d’entre elles étant détenues dans le secteur privé. secteur. Afin de progresser vers la mise en œuvre pratique de cette vision, une architecture de référence pour des statistiques intelligentes fiables est nécessaire, c’est-à-dire un système cohérent de moyens techniques, organisationnels et juridiques combinés pour fournir un ensemble articulé de garanties de confiance à tous les acteurs impliqués. Dans cet article, nous faisons un premier pas dans cette direction en proposant des principes de conception et des composants système sélectionnés…. ».