Big Data Paris 2018 : Fast data, data literacy et enfin RGPD !

La 7ème édition du salon du Big Data a eu lieu au palais des Congrès de Paris, les 12 et 13 mars derniers. Cet événement incontournable permet de rassembler des speakers emblématiques autour de conférences traitant des enjeux stratégiques qui émergent des données pour les entreprises. Cette année c’est une culture de la donnée partagée de tous, transparente et éthique, qui nous a semblé être le point de convergence.
Quantmetry a participé au salon #standA56 et a notamment donné deux conférences : avec Aptus Health, nous avons expliqué “comment réussir sa stratégie d’IA? une application du content tagging pour l’industrie pharmaceutique”, ainsi qu’avec Alstom nous avons présenté « Digital train, smart mobility et IOT : le digital au service de la mobilité avec Data grand station » .
Nous vous livrons donc notre feedback et nos synthèses des conférences/ateliers sur les thématiques phares suivantes :
-
Fast data : l’organisation à l’heure du temps réel
-
Data literacy : vers une démocratisation des données au service des métiers
-
Evolution réglementaire : RGPD & ePrivacy
Ces sujets ont par ailleurs été abordés dès l’intervention d’ouverture de Mounir Mahjoubi, secrétaire d’État chargé du numérique. Voici ce que nous avons retenu de ce discours d’ouverture :
Au-delà des silos internes, il faut rechercher à partager des données entre acteurs du même secteur, entre public et privé pour dégager de la valeur.
Concernant les données personnelles, le RGPD constitue une opportunité pour les entreprises, qui seront amenées à cartographier leurs données dans un premier temps. L’idée est de maîtriser les usages de la donnée, et non pas de s’orienter vers une patrimonialisation des données (le fait qu’un client valorise explicitement ses données personnelles pour les vendre). Les notions de performance et d’éthique de l’IA doivent être développées en parallèle pour ne pas créer de résistances. Par ailleurs l’accent sera mis sur la sensibilisation à l’information en formant les écoliers et collégiens à un recul critique vis-à-vis de l’écran. Il est par exemple possible de demander ses jeux de données personnelles sur les GAFA et autres !
Finalement, ce sont transparence, explicabilité et données personnelles qui seront des éléments différenciant (au-delà de la performance brute).
FAST DATA

L’internet des objets est en train de transformer le big data. Davantage de données remontent en temps réel, et l’IA peut ainsi générer des résultats plus précis et plus fiables. Un point d’attention tout de même : le client veut des insights et non pas plus de données.
Quelques exemples ci-dessous d’utilisation de données en temps réel pour répondre à des problématiques métiers en industrie, agriculture et CPG.
Les grands volumes de données ne concernent pas seulement les GAFA mais aussi de nombreux industriels notamment Thales : avec ses systèmes de surveillance aérienne, de cybersécurité et les contraintes d’environnement critique, ce sont des flux continus en provenance d’avions, centres de surveillance et de commandement qui transitent sous la responsabilité du groupe. Pour citer quelques exemples : un centre de cybersécurité génère près de 100 Go de données par heure. Le rachat de l’américain Guavus permet à l’industriel de renforcer ses capacités de traitement en temps réel de toutes ces data : cette entreprise est capable de traiter plus de 100 To de données par heure !
Un autre exemple en industrie concerne la SNCF qui a développé toute une stratégie de CBM (Conditional Based Maintenance). En fait, au lieu de prévoir des contrôles techniques à échéances régulières pour toute sa flotte de trains, la SNCF surveille en temps réel, et à distance (télédiagnostic) le bon fonctionnement des machines. Cela permet de ne réaliser un contrôle que lorsque cela est vraiment nécessaire, mais également de prévoir les pannes avant qu’elles ne se produisent. Cela est possible grâce à tous les éléments du train qui sont désormais connectés : les freins, les portes, les pantographes, la climatisation ou même les WC. Les trains sont égalements géolocalisés, ce qui permet de remonter aux problèmes d’infrastructures (par exemple les voies). En effet, si tous les trains qui passent au même endroit ont la même anomalie, c’est que l’anomalie vient des voies, et pas des trains ! Les trains sont alors eux-mêmes des objets connectés qui renseignent directement sur l’état des infrastructures fixes.
S’il y a bien un domaine pour qui les problématiques big data sont en plein développement, c’est l’agriculture. Le premier service français de prédiction de rendement et de qualité de blé a été développé. Leur méthode se base sur le traitement d’images satellites, au rythme de 1000 par mois, qui scannent tout le territoire français. A cela s’ajoute plus de 30 ans de données météorologiques et agricoles. Enfin, les parcelles sont de plus en plus reliées à des objets connectés, qui informent en temps réel sur l’état des exploitations agricoles. L’énorme quantité de données et la forte influence de la météorologie ont permis d’obtenir une précision de 96% sur les prédictions de rendement, sur tout le territoire !
Lorsque vous commandez vos courses en ligne pour venir chercher votre caddy au magasin, vous n’êtes pas débités tout de suite. En effet, rien ne garantit qu’un autre client ne soit pas passé entre temps pour acheter le dernier exemplaire de votre chocolat préféré ! Vous avez donc un produit manquant à l’arrivée, qui est également retiré de votre facture. Des groupes de distribution comme les Mousquetaires développent justement des infrastructures big data pour diminuer au maximum ce problème. Typiquement, l’idéal serait que le nombre « en stock » affiché sur le site internet soit décrémenté d’une unité chaque fois qu’un client passe en caisse le produit correspondant. Il s’agit donc de faire remonter en temps réel sur une plate-forme centralisée toutes les données relatives aux tickets de caisse, de tous les supermarchés de la marque. Songez donc un peu, ce sont près de 3500 magasins, qui envoient près de 3000 tickets de caisse par seconde ! Pour le traitement des données, la plate-forme stocke jusqu’à 27 mois d’historique d’activité, soit 32 milliards de tickets de caisse, autant que d’étoiles dans la galaxie ! Et non seulement toutes ces données permettent la mise à jour instantanée des stocks, mais également elle permet de connaître les performances d’un nouveau produit fraîchement débarqué, ou même de voir comment évoluent les habitudes de consommation d’une région à l’autre. S’il n’y a pas encore de volet prédictif à cette technologie, nul doute que le machine learning pourra apporter une forte valeur ajoutée !
DATA LITERACY

Il y a aujourd’hui un besoin de rendre intelligible les algorithmes, et pas seulement de les expliquer, c’est-à-dire rendre plus compréhensible des boîtes noires. C’est le but de l’institut de convergence DATAIA, qui réfléchit à la création d’outils évaluateurs des biais et manipulations dans les systèmes mis en place.
Également chez Deezer, ce sont 50 personnes qui écoutent et repèrent des musiques. Les recommandations sont validées à la main par des collaborateurs et les nouveautés sont poussées en fonction des métadonnées (jazz, etc.) et de certains utilisateurs dits « trend-setters ». Il y a en fait une opposition entre l’efficacité de l’algorithme et une volonté de faire découvrir d’autres styles, c’est la « Filter Bubble ». Ainsi la responsabilité sur l’intelligibilité de l’algorithme revient au concepteur et pas seulement à la machine. L’analyse des logs de décision des utilisateurs doit également permettre d’obtenir plusieurs niveaux d’intelligibilité.
Par ailleurs l’avènement de l’approche use-case driven est pressenti. Chez Allianz France, on ne parle plus de POC. Le ROI est réévalué à chaque étape. Par exemple en fraude à la souscription, on va plutôt flagger des cas suspicieux et induire un traitement manuel différencié que bloquer automatiquement (use case : l’internaute fait beaucoup de simulations en faisant légèrement varier l’âge du conducteur, etc. avant de souscrire à l’assurance auto). Chez Accorhotels, il y a 2 types de client : le guest, client de l’hôtel, et les hôtels, notamment les revenue managers, qui peuvent débrayer les décisions prises par l’IA. L’UX est importante pour une bonne synergie entre les décideurs humains et les décisions prises par l’IA. On s’intéresse à l’usage des applications produites : en surveillant comment est perçue l’application, qui en parle, etc.
Également chez Thales il y a une réelle volonté de mettre les données au service des métiers. Grâce à sa Digital Factory, le groupe concentre une grande partie des réalisations et projet Data. La clé de la réussite est simple, tout projet a 4 mois pour aboutir à un MVP permettant de valider ou non son potentiel. Si tous les feux sont au vert il est par la suite confié à la Business Unit qui en est à l’origine pour le porter à maturité et l’industrialiser. En l’espace de 7 mois, ce sont 9 MVP qui ont été réalisés dans les domaines civils et militaires par une équipe pluri-disciplinaire (Data Scientist, Devops, UX) portée par des valeurs fortes de partage de la connaissance, autonomie et amélioration continue. Ceci grâce à une plateforme cloud agrégeant de multiples sources de données internes et services destinés à différents utilisateurs : employés, fournisseurs, clients, partenaires …
ÉVOLUTION RÉGLEMENTAIRE

Le 25 mai 2018 le nouveau RGPD (Règlement Général européen sur la Protection des Données personnelles) sera applicable. Aujourd’hui cette date limite est appréhendée par de nombreux dirigeants, qui ont connaissance des sanct