IA de confiance, Time Series
03/11/2021

Intelligence Artificielle et Data Quality : comment corriger des données historiques impactées par la Covid 19 pour améliorer la qualité des prévisions ?


Auteur : Alexandre Willot
Temps de lecture : 8 minutes
Quantmetry.com : Intelligence Artificielle et Data Quality : comment corriger des données historiques impactées par la Covid 19 pour améliorer la qualité des prévisions ?

Des prévisions enrayées par la crise

La crise sanitaire de la COVID19 a fortement perturbé le fonctionnement de la plupart des secteurs de l’économie. Le ralentissement globalisé de l’activité pendant les différents confinements a causé l’apparition de périodes temporelles atypiques sur les observations effectuées a posteriori.
Ces perturbations ont engendré l’émergence d’un nouveau défi pour les projets d’analyse prévisionnelle : la capacité de gestion et de traitement d’un historique affecté par un événement perturbateur ponctuel.

Nous avons exploré cette problématique au travers d’un cas d’usage dans lequel nous cherchons à estimer les appels passés dans un call center. L’objectif est de prévoir les appels quotidiens entrants afin d’optimiser le dimensionnement du nombre de téléconseillers. L’impact significatif des différentes périodes de confinement est facilement visible sur le jeu de données brut :

Impact significatif des différentes périodes de confinement

Impact significatif des différentes périodes de confinement

Nous avons commencé par effectuer une prévision classique en nous appuyant sur un modèle statistique dont le principe est de calculer les composants principaux d’une série temporelle (tendance et saisonnalités) en se basant sur son historique et afin de les extrapoler pour prédire l’avenir. Le modèle sélectionné est un modèle Prophet, qui a été choisi pour sa nature simple et facilement explicable, ainsi que pour la possibilité de choisir ses propres cycles saisonniers.

Les résultats obtenus sont directement influencés par les périodes de fluctuations, avec un effet particulièrement notable au niveau de la saisonnalité annuelle. Cet impact est amplifié par le manque de profondeur d’historique des données, impliquant que les saisonnalités (notamment annuelle) sont mesurées sur un faible nombre de motifs.

Le graphe ci-dessous présente l’explicabilité fournie par le modèle. On note la pénalisation sur le mois de mai, suivie d’un effet de rattrapage au mois de juillet (cercle rouge) :

Explicabilité du modèle sans correction d’historique avec un biais sur les mois de mai à juillet.

Explicabilité du modèle sans correction d’historique avec un biais sur les mois de mai à juillet.

Désireux de conserver cette saisonnalité annuelle car significative d’un point de vue métier, nous avons décidé de comparer différentes méthodes de correction d’historique dans le but de gommer les effets des différents confinements.

Nous avons pour cela mis en place plusieurs méthodes et comparé les résultats obtenus dans chaque situation. Dans la section suivante, nous présenterons les approches et leur principe, à savoir :

  • L’imputation
  • L’ajout de variable catégorielle
  • Le transport optimal
  • L’adaptation de domaine temporelle

Utilisation de méthodes de correction d’historique

1/ Imputation

Cette première approche est la plus naïve, mais aussi la plus simple à mettre en place. Elle consiste à effacer l’historique des plages de confinement pour reconstruire un historique sur la base du reste des données disponibles. Dans l’exemple ci-dessous, la reconstruction est faite en utilisant pour chaque valeur manquante celle de l’année précédente :

Jeu de données avant et après imputation par la valeur de l’année passée.

Jeu de données avant et après imputation par la valeur de l’année passée.

Bien que pratique, cette méthode possède le désavantage de ne pas tirer parti des mesures effectuées pendant les contextes « anormaux » (confinements). Elle possède aussi l’inconvénient de ne pouvoir fonctionner que dans un sens. Il est en effet nécessaire de se baser sur le contexte prédominant afin de reconstruire le ou les contexte(s) minoritaire (soit ici de passer d’une période COVID à une période hors COVID).

Les résultats obtenus grâce à cette approche sont meilleurs qu’avec notre première approche sans modification sur l’historique. La correction est en revanche trop forte et une partie de l’information est perdue. Cette méthode fait office d’une bonne première approche, notamment si la mise en place de la correction doit être rapide.

2/ Ajout de variables catégorielles

La seconde approche n’est pas réellement une approche de correction d’historique mais plutôt une approche de prise en compte des différents contextes existants dans l’historique. Elle consiste à marquer les périodes touchées par la crise en utilisant des variables booléennes, puis à intégrer ces variables synthétiques dans le modèle en tant que variables exogènes. Cette approche permet une considération des perturbations sans pour autant en modifier les valeurs. Très simple à mettre en place sur un modèle de prévision comme Prophet qui permet l’ajout de ce type de saisonnalité, elle se révèle également efficace dans notre cas d’usage.

L’effet résultant de cet ajout de variable est directement représenté dans la décomposition des saisonnalités faite par le modèle :

Explicabilité du modèle une fois les variables ajoutées (une variable pour le premier confinement, une pour les deux suivants, et de la même façon des variables pour les périodes de reprise post-confinement)

Le principal défaut de cette méthode vient de sa simplicité. En considérant l’ensemble des observations de chaque contexte de la même façon (c’est le principe des variables booléennes), la modélisation ne fait qu’ajouter une constante sur chaque période (ou contexte) considérée, ce qui est évidemment simplificateur par rapport à la réalité.
Elle permet en revanche de facilement passer d’un contexte à un autre lors de la modélisation, chose qui n’était pas permise par l’imputation.

Cette méthode pourrait être optimisée en remplaçant les variables booléennes par des variables continues mais cela nécessite leur bonne définition.

3/ Transport Optimal

Le transport optimal consiste à modifier la partie de l’historique cor