Biais algorithmique


Le biais algorithmique peut être défini comme une anomalie présente dans la sortie des algorithmes de machines learning ou de deep learning. Dans cette définition, nous mettrons l’emphase sur trois différentes sources d’anomalies. En effet, le biais peut provenir de l’acquisition de données, être introduit par l’interaction utilisateurs et aussi, être amplifié par le modèle prédictif. Différents types de biais existent pouvant impacter le cycle de vie des modèles.

Les anomalies les plus souvent détectées

Ci-dessous, nous allons citer les biais les plus fréquents en les catégorisant sous les différentes sources d’anomalies mentionnées précédemment.

Biais issus de l’acquisition de données :

Biais de sélection : c’est l’effet d’une censure sur une sous-population (ex : un algorithme d’octroi de crédit ne s’entraîne que sur les crédits octroyés dans le passé).

Biais de représentation : c’est un manque de diversité inhérent à une source de données (ex : Wikipédia est essentiellement rédigé par des hommes blancs).

Biais historique : c’est un biais déjà présent dans le monde réel et donc, dans les données (ex : les postes à haute responsabilité sont essentiellement tenus par des hommes).

Biais introduits par l’interaction utilisateur :

Biais social : c’est lorsqu’un utilisateur est influencé par les autres (ex : beaucoup de commentaires positifs inhibent les commentaires négatifs, et vice versa).

Biais de présentation : c’est lorsque le design d’une interface incite l’utilisateur à faire un choix spécifique (ex : accepter ou refuser les cookies sur un site web).

Biais temporel : c’est lorsque le comportement d’un utilisateur change très rapidement dans le temps (ex : effet d’accoutumance à une publicité).

Biais amplifiés par le modèle prédictif :

Biais d’agrégation : c’est lorsqu’un modèle est jugé sur sa performance globale au détriment de sous-groupes particuliers (ex : très bon pour bloquer les fraudes sur Amazon mais pas sur tous les autres sites marchands…).

Biais d’omission : c’est lorsqu’une information directement liée à la cible est inconnue du modèle (ex : arrivée d’un concurrent pour un modèle de rétention client).

Biais d’évaluation : c’est lorsqu’un modèle est évalué selon une métrique ou une référence disproportionnée (ex : valider un modèle sur MNIST ne garantit pas sa portabilité sur la graphie française des chiffres).

Les moyens permettant de les éviter

Pour éviter tous ces différents biais, il faut traiter ces anomalies tout au long du cycle de vie des modèles. Pour ce faire, il faut commencer par identifier les biais en anticipant ceux qui peuvent surgir le long de la chaîne de traitement. Puis, il faut les mesurer en identifiant et en quantifiant les effets discriminants sur les sous-groupe sensibles. Enfin, il faut les corriger en choisissant une méthode de résolution pour y parvenir avant, pendant ou après la modélisation. Ainsi, pour corriger les biais nous retrouvons trois différentes méthodes. La première est le pre-processing où on agit sur le jeu de données d’entraînement. La deuxième est le in-processing où on agit sur la phase d’apprentissage du modèle algorithmique. La troisième est le post processing où on agit sur les résultats des prédictions. Chaque méthode comporte différentes techniques permettant de corriger les biais.

Aller en haut