Comment créer des modèles interprétables sans approximation ?

crédit : Lea Kelley
Le développement de l’Intelligence Artificielle a abouti au déploiement de nombreux modèles extrêmement performants mais dont le fonctionnement reste obscur. Ces boîtes noires sont parfois utilisées dans des applications sensibles telles que le recrutement ou l’attribution de prêts. Pour ces applications il est aisé de créer des modèles qui semblent performants mais qui reposent en réalité sur des patterns trompeurs, inacceptables ou biaisés.
Se forger une bonne compréhension des modèles et de leurs prédictions est un bon moyen d’éviter ces écueils. L’interprétabilité des modèles d’IA et de leur prédiction est donc fondamentale pour leur acceptation, et pour éviter la reproduction de biais historiques. Pour obtenir plus d’information sur le comportement des boîtes noires, il est fréquent d’ajouter une couche d’interprétabilité aux solutions déjà déployées reposant sur une approximation plus simple de ces modèles (par exemple en utilisant Shap et ses valeurs de shapley). Cependant comme indiqué, l’interprétabilité repose alors sur une approximation du modèle et est donc imparfaite. Nous explorons dans cet article une autre solution consistant à prendre en considération l’interprétabilité des modèles dès leur conception sans avoir à faire appel à une approximation.
Comment inclure la compréhension humaine dès la conception d’un modèle ?
Lors du Neural Information Processing Systems (NeurIPS) 2018, Lage et al. ont proposé un cadre pour prendre en considération l’interprétabilité dès la conception des modèles. Ils proposent basiquement de considérer beaucoup de modèles plausibles et de les sélectionner a posteriori. Le critère de sélection proposé est alors une combinaison de la performance du modèle et de son interprétabilité.
Les auteurs proposent une méthode pour évaluer l’interprétabilité des modèles. Elle consiste à fournir la structure du modèle à un humain pour qu’il reproduise les prédictions du modèle. Le temps de réponse est ensuite utilisé pour estimer l’interprétabilité du modèle. Cette méthode étant peu adaptée à des modèles très complexes, ils proposent, dans ce cas, de calculer plusieurs approximations plus simples en perturbant les données autour du point à prédire. Ces approximations sont alors soumises à l’étude d’interprétabilité décrite précédemment. L’interprétabilité du modèle complexe est alors la moyenne de l’interprétabilité des approximations locales.
Figure 1 : Process d’évaluation de l’explicabilité d’un modèle
L’étude du niveau d’interprétabilité des modèles est clairement l’étape la plus longue du processus de sélection. Les auteurs ont donc proposé deux façons de réduire le nombre de modèles à étudier : n’étudier que les modèles les plus performants et modéliser l’interprétabilité des modèles en ne réalisant d’étude que pour quelques modèles choisis aléatoirement parmi ceux-là.
Comment éviter l’étude d’interprétabilité des modèles ?
L’étude de l’interprétabilité des modèles est la tâche la plus coûteuse de la méthode précédemment décrite. Il est donc parfois préférable de choisir dès le départ un modèle interprétable par design. Cette section présente certains de ces modèles.
Figure 2 : Les aspects de l’intelligibilité en IA
Type de modèle | Avantages | Inconvénients | |
Blackbox + interprétabilité | Performances | Temps de calcul élevé
Approximation d’un premier modèle |
|
Régression Linéaires et Modèles Linéaires Généralisés | Interprétabilité
Vitesse de calcul |
Performances
Nécessite de spécifier les interactions |
|
Modèles Additifs Généralisés | Interprétabilité
Performances |
Difficulté à sélectionner les transformations non linéaires | |
Arbres de classification et de régression | Interprétabilité
Vitesse de calcul |
Performances (variance)
Diff |