Intelligence Artificielle et Data Quality : comment corriger des données historiques impactées par la Covid 19 pour améliorer la qualité des prévisions ?

Des prévisions enrayées par la crise
La crise sanitaire de la COVID19 a fortement perturbé le fonctionnement de la plupart des secteurs de l’économie. Le ralentissement globalisé de l’activité pendant les différents confinements a causé l’apparition de périodes temporelles atypiques sur les observations effectuées a posteriori.
Ces perturbations ont engendré l’émergence d’un nouveau défi pour les projets d’analyse prévisionnelle : la capacité de gestion et de traitement d’un historique affecté par un événement perturbateur ponctuel.
Nous avons exploré cette problématique au travers d’un cas d’usage dans lequel nous cherchons à estimer les appels passés dans un call center. L’objectif est de prévoir les appels quotidiens entrants afin d’optimiser le dimensionnement du nombre de téléconseillers. L’impact significatif des différentes périodes de confinement est facilement visible sur le jeu de données brut :

Impact significatif des différentes périodes de confinement
Nous avons commencé par effectuer une prévision classique en nous appuyant sur un modèle statistique dont le principe est de calculer les composants principaux d’une série temporelle (tendance et saisonnalités) en se basant sur son historique et afin de les extrapoler pour prédire l’avenir. Le modèle sélectionné est un modèle Prophet, qui a été choisi pour sa nature simple et facilement explicable, ainsi que pour la possibilité de choisir ses propres cycles saisonniers.
Les résultats obtenus sont directement influencés par les périodes de fluctuations, avec un effet particulièrement notable au niveau de la saisonnalité annuelle. Cet impact est amplifié par le manque de profondeur d’historique des données, impliquant que les saisonnalités (notamment annuelle) sont mesurées sur un faible nombre de motifs.
Le graphe ci-dessous présente l’explicabilité fournie par le modèle. On note la pénalisation sur le mois de mai, suivie d’un effet de rattrapage au mois de juillet (cercle rouge) :

Explicabilité du modèle sans correction d’historique avec un biais sur les mois de mai à juillet.
Désireux de conserver cette saisonnalité annuelle car significative d’un point de vue métier, nous avons décidé de comparer différentes méthodes de correction d’historique dans le but de gommer les effets des différents confinements.
Nous avons pour cela mis en place plusieurs méthodes et comparé les résultats obtenus dans chaque situation. Dans la section suivante, nous présenterons les approches et leur principe, à savoir :
- L’imputation
- L’ajout de variable catégorielle
- Le transport optimal
- L’adaptation de domaine temporelle
Utilisation de méthodes de correction d’historique
1/ Imputation
Cette première approche est la plus naïve, mais aussi la plus simple à mettre en place. Elle consiste à effacer l’historique des plages de confinement pour reconstruire un historique sur la base du reste des données disponibles. Dans l’exemple ci-dessous, la reconstruction est faite en utilisant pour chaque valeur manquante celle de l’année précédente :

Jeu de données avant et après imputation par la valeur de l’année passée.
Bien que pratique, cette méthode possède le désavantage de ne pas tirer parti des mesures effectuées pendant les contextes « anormaux » (confinements). Elle possède aussi l’inconvénient de ne pouvoir fonctionner que dans un sens. Il est en effet nécessaire de se baser sur le contexte prédominant afin de reconstruire le ou les contexte(s) minoritaire (soit ici de passer d’une période COVID à une période hors COVID).
Les résultats obtenus grâce à cette approche sont meilleurs qu’avec notre première approche sans modification sur l’historique. La correction est en revanche trop forte et une partie de l’information est perdue. Cette méthode fait office d’une bonne première approche, notamment si la mise en place de la correction doit être rapide.
2/ Ajout de variables catégorielles
La seconde approche n’est pas ré