Big Data Paris 2018 : Fast data, data literacy et enfin RGPD !

Temps de lecture : 9 minutes

La 7ème édition du salon du Big Data a eu lieu au palais des Congrès de Paris, les 12 et 13 mars derniers. Cet événement incontournable permet de rassembler des speakers emblématiques autour de conférences traitant des enjeux stratégiques qui émergent des données pour les entreprises. Cette année c’est une culture de la donnée partagée de tous, transparente et éthique, qui nous a semblé être le point de convergence.

Stand de Quantmetry

Quantmetry a participé au salon #standA56 et a notamment donné deux conférences : avec Aptus Health, nous avons expliqué “comment réussir sa stratégie d’IA? une application du content tagging pour l’industrie pharmaceutique”, ainsi qu’avec Alstom nous avons présenté « Digital train, smart mobility et IOT : le digital au service de la mobilité avec Data grand station » .

Nous vous livrons donc notre feedback et nos synthèses des conférences/ateliers sur les thématiques phares suivantes :

Fast data : l’organisation à l’heure du temps réel
Data literacy : vers une démocratisation des données au service des métiers
Evolution réglementaire : RGPD & ePrivacy

Ces sujets ont par ailleurs été abordés dès l’intervention d’ouverture de Mounir Mahjoubi, secrétaire d’État chargé du numérique. Voici ce que nous avons retenu de ce discours d’ouverture :

Au-delà des silos internes, il faut rechercher à partager des données entre acteurs du même secteur, entre public et privé pour dégager de la valeur.

Concernant les données personnelles, le RGPD constitue une opportunité pour les entreprises, qui seront amenées à cartographier leurs données dans un premier temps. L’idée est de maîtriser les usages de la donnée, et non pas de s’orienter vers une patrimonialisation des données (le fait qu’un client valorise explicitement ses données personnelles pour les vendre). Les notions de performance et d’éthique de l’IA doivent être développées en parallèle pour ne pas créer de résistances. Par ailleurs l’accent sera mis sur la sensibilisation à l’information en formant les écoliers et collégiens à un recul critique vis-à-vis de l’écran. Il est par exemple possible de demander ses jeux de données personnelles sur les GAFA et autres !

Finalement, ce sont transparence, explicabilité et données personnelles qui seront des éléments différenciant (au-delà de la performance brute).

FAST DATA

L’internet des objets est en train de transformer le big data. Davantage de données remontent en temps réel, et l’IA peut ainsi générer des résultats plus précis et plus fiables. Un point d’attention tout de même : le client veut des insights et non pas plus de données.

Quelques exemples ci-dessous d’utilisation de données en temps réel pour répondre à des problématiques métiers en industrie, agriculture et CPG.

Les grands volumes de données ne concernent pas seulement les GAFA mais aussi de nombreux industriels notamment Thales : avec ses systèmes de surveillance aérienne, de cybersécurité et les contraintes d’environnement critique, ce sont des flux continus en provenance d’avions, centres de surveillance et de commandement qui transitent sous la responsabilité du groupe. Pour citer quelques exemples : un centre de cybersécurité génère près de 100 Go de données par heure. Le rachat de l’américain Guavus permet à l’industriel de renforcer ses capacités de traitement en temps réel de toutes ces data : cette entreprise est capable de traiter plus de 100 To de données par heure !

Un autre exemple en industrie concerne la SNCF qui a développé toute une stratégie de CBM (Conditional Based Maintenance). En fait, au lieu de prévoir des contrôles techniques à échéances régulières pour toute sa flotte de trains, la SNCF surveille en temps réel, et à distance (télédiagnostic) le bon fonctionnement des machines. Cela permet de ne réaliser un contrôle que lorsque cela est vraiment nécessaire, mais également de prévoir les pannes avant qu’elles ne se produisent. Cela est possible grâce à tous les éléments du train qui sont désormais connectés : les freins, les portes, les pantographes, la climatisation ou même les WC. Les trains sont égalements géolocalisés, ce qui permet de remonter aux problèmes d’infrastructures (par exemple les voies). En effet, si tous les trains qui passent au même endroit ont la même anomalie, c’est que l’anomalie vient des voies, et pas des trains ! Les trains sont alors eux-mêmes des objets connectés qui renseignent directement sur l’état des infrastructures fixes.

S’il y a bien un domaine pour qui les problématiques big data sont en plein développement, c’est l’agriculture. Le premier service français de prédiction de rendement et de qualité de blé a été développé. Leur méthode se base sur le traitement d’images satellites, au rythme de 1000 par mois, qui scannent tout le territoire français. A cela s’ajoute plus de 30 ans de données météorologiques et agricoles. Enfin, les parcelles sont de plus en plus reliées à des objets connectés, qui informent en temps réel sur l’état des exploitations agricoles. L’énorme quantité de données et la forte influence de la météorologie ont permis d’obtenir une précision de 96% sur les prédictions de rendement, sur tout le territoire !

Lorsque vous commandez vos courses en ligne pour venir chercher votre caddy au magasin, vous n’êtes pas débités tout de suite. En effet, rien ne garantit qu’un autre client ne soit pas passé entre temps pour acheter le dernier exemplaire de votre chocolat préféré ! Vous avez donc un produit manquant à l’arrivée, qui est également retiré de votre facture. Des groupes de distribution comme les Mousquetaires développent justement des infrastructures big data pour diminuer au maximum ce problème. Typiquement, l’idéal serait que le nombre « en stock » affiché sur le site internet soit décrémenté d’une unité chaque fois qu’un client passe en caisse le produit correspondant. Il s’agit donc de faire remonter en temps réel sur une plate-forme centralisée toutes les données relatives aux tickets de caisse, de tous les supermarchés de la marque. Songez donc un peu, ce sont près de 3500 magasins, qui envoient près de 3000 tickets de caisse par seconde ! Pour le traitement des données, la plate-forme stocke jusqu’à 27 mois d’historique d’activité, soit 32 milliards de tickets de caisse, autant que d’étoiles dans la galaxie ! Et non seulement toutes ces données permettent la mise à jour instantanée des stocks, mais également elle permet de connaître les performances d’un nouveau produit fraîchement débarqué, ou même de voir comment évoluent les habitudes de consommation d’une région à l’autre. S’il n’y a pas encore de volet prédictif à cette technologie, nul doute que le machine learning pourra apporter une forte valeur ajoutée !

DATA LITERACY

Il y a aujourd’hui un besoin de rendre intelligible les algorithmes, et pas seulement de les expliquer, c’est-à-dire rendre plus compréhensible des boîtes noires. C’est le but de l’institut de convergence DATAIA, qui réfléchit à la création d’outils évaluateurs des biais et manipulations dans les systèmes mis en place.

Également chez Deezer, ce sont 50 personnes qui écoutent et repèrent des musiques. Les recommandations sont validées à la main par des collaborateurs et les nouveautés sont poussées en fonction des métadonnées (jazz, etc.) et de certains utilisateurs dits « trend-setters ». Il y a en fait une opposition entre l’efficacité de l’algorithme et une volonté de faire découvrir d’autres styles, c’est la « Filter Bubble ». Ainsi la responsabilité sur l’intelligibilité de l’algorithme revient au concepteur et pas seulement à la machine. L’analyse des logs de décision des utilisateurs doit également permettre d’obtenir plusieurs niveaux d’intelligibilité.

Par ailleurs l’avènement de l’approche use-case driven est pressenti. Chez Allianz France, on ne parle plus de POC. Le ROI est réévalué à chaque étape. Par exemple en fraude à la souscription, on va plutôt flagger des cas suspicieux et induire un traitement manuel différencié que bloquer automatiquement (use case : l’internaute fait beaucoup de simulations en faisant légèrement varier l’âge du conducteur, etc. avant de souscrire à l’assurance auto). Chez Accorhotels, il y a 2 types de client : le guest, client de l’hôtel, et les hôtels, notamment les revenue managers, qui peuvent débrayer les décisions prises par l’IA. L’UX est importante pour une bonne synergie entre les décideurs humains et les décisions prises par l’IA. On s’intéresse à l’usage des applications produites : en surveillant comment est perçue l’application, qui en parle, etc.

Également chez Thales il y a une réelle volonté de mettre les données au service des métiers. Grâce à sa Digital Factory, le groupe concentre une grande partie des réalisations et projet Data. La clé de la réussite est simple, tout projet a 4 mois pour aboutir à un MVP permettant de valider ou non son potentiel. Si tous les feux sont au vert il est par la suite confié à la Business Unit qui en est à l’origine pour le porter à maturité et l’industrialiser. En l’espace de 7 mois, ce sont 9 MVP qui ont été réalisés dans les domaines civils et militaires par une équipe pluri-disciplinaire (Data Scientist, Devops, UX) portée par des valeurs fortes de partage de la connaissance, autonomie et amélioration continue. Ceci grâce à une plateforme cloud agrégeant de multiples sources de données internes et services destinés à différents utilisateurs : employés, fournisseurs, clients, partenaires …

ÉVOLUTION RÉGLEMENTAIRE

Le 25 mai 2018 le nouveau RGPD (Règlement Général européen sur la Protection des Données personnelles) sera applicable. Aujourd’hui cette date limite est appréhendée par de nombreux dirigeants, qui ont connaissance des sanctions qui pourront être prises par la CNIL. Celle-ci sera en effet le juge de conformité du RGPD, et engager une démarche de mise en conformité est une obligation. La CNIL réalise des contrôles, dresse un procès verbale, met en demeure la personne contrôlée, constate qu’aucune action n’est engagée et à ce moment-là prend une sanction. Mais au 25 mai, l’enjeu n’est pas d’être prêt à 100%. Il n’existe pas de méthode ni de solution technique qui permette d’être totalement conforme. Le règlement présente de nombreuses obligations qui dépendent de beaucoup de paramètres : la taille de l’entreprise, l’activité (les banques ont une règlementation très sectorielle précise par exemple). Le texte n’adapte pas les obligations à la taille de l’entreprise.

Finalement, le RGPD ne bouleverse pas l’existant et les objectifs de la loi de 1978. Par exemple, le consentement a été la pierre angulaire depuis le début avec l’obligation de pouvoir s’opposer à l’utilisation de données personnelles, ce qui reste cohérent avec le fait d’interdire la patrimonialisation (cession à un tiers). Il est recommandé dans un premier temps de désigner un chef de projet, cartographier les traitements et l’établissement de ses registres avec différents niveaux de risque et de mettre en place une façade de légalité.

Au delà de la RGPD, il y a déjà une proposition de loi au niveau européen sur la confidentialité des communications qui vise à harmoniser l’ensemble des législations nationales : il s’agit du règlement ePrivacy. L’idée est de garantir la confidentialité de toutes les communications électroniques (Gmail, Skype, Facebook Messenger…) quelque soit la plateforme utilisée lors de l’échange (mobile, PC…). Également les utilisateurs auront plus de choix sur la gestion des cookies. Enfin le règlement prévoit la confidentialité sur les métadonnées qui sont considérées comme des données personnelles et qui doivent donc être anonymisées si les utilisateurs n’ont pas donné leur consentement pour leur utilisation.

Pour faire face à ces réglementations et aux GAFA, différentes alliances et consolidations émergent au sein du secteur :

Alliance Gravity et Skyline : ce sont des alliances entre groupes de presse pour partager des plateformes, mettre en commun des cookies et les données personnelles de leurs lecteurs, afin de mutualiser l’achat d’espaces publicitaires ;
Le projet Nonio au Portugal regroupe 6 éditeurs qui représentent 80% du marché digital portugais et restreint l’accès après un certain temps pour l’internaute qui ne veut pas s’inscrire ;
Le projet Verimi en Allemagne est comparable : il prévoit la création d’un identifiant numérique pour accéder à des services, comme un passeport numérique.