Le Pruning de réseaux de neurones en Computer Vision

A l’heure où les réseaux de neurones sont de plus en plus volumineux [1], peut-on réellement continuer de croire en la capacité de nos machines à les faire tourner ?
Les backbones généralement utilisés en Computer Vision ont une taille de l’ordre de ~100Mo (figure 1). Or, à un backbone il convient de connecter une ou plusieurs couches fully connected pour obtenir un réseau de neurones capable de traiter la tâche qui lui est impartie (classification, segmentation, détection d’objet). Pour une problématique d’Object Detection par exemple, le Region Proposal Network qui suit peut facilement donner un modèle dont la taille totale avoisine 1Go (comme RetinaNet).
En quoi le taille d’un réseau peut poser problème
En 2017, Apple lance officiellement Face ID, son système de déverrouillage par reconnaissance faciale sur ses smartphones. Si des technologies de ce type existaient déjà sur le marché, la particularité de l’application Apple résidait ailleurs : pour la première fois un système de reconnaissance faciale sur mobile fonctionnait sans avoir besoin d’échanger des informations avec le Cloud.
Les systèmes de reconnaissance faciale reposent sur un (ou plusieurs) réseaux de neurones volumineux. L’inférence requiert donc de nombreux calculs, lesquels ne peuvent s’effectuer qu’à condition a priori de disposer d’une puissance de calcul qui excède largement celle d’un smartphone. Ainsi les solutions qui précédaient Face ID avaient pris le parti de déployer leurs algorithmes sur le Cloud, bénéficiant de ressources potentiellement illimitées et assurant à leurs utilisateurs un résultat rapide et performant, pourvu qu’ils disposent d’une connexion au réseau.
Seulement, avec toutes les IA que nous sommes destinés à utiliser dans l’avenir, peut-on réellement se permettre de compter sur le Cloud en toutes circonstances ?
Que se passe-t-il si le réseau n’est pas disponible ? Ou bien que l’IA soit exécutée par trop de personnes en même temps et qu’une latence se mettrait en place ?
Plusieurs questions pour lesquelles le problème disparaitrait si nous pouvions embarquer facilement nos IA.
Le Pruning de réseaux de neurones
L’intuition première face à un réseau trop « lourd » que l’on doit embarquer consiste tout simplement à l’alléger.
Définition
Le pruning, ou élagage en français, c’est l’idée de réduire la taille d’un réseau de neurones, tout en minimisant la perte de performance.
La performance étant définie par :
– Les métriques classiques en Machine Learning
– Le temps d’inférence
– Le nombre de paramètres du réseau
– Etc..
Méthodes pour y parvenir
(M1) Mettre à 0 certains paramètres
(M2) Mettre à 0 des neurones entiers
Stricto sensu, on ne « coupe » pas les branches comme le suggère la définition, seulement c’est la conséquence de la mise à 0 des paramètres qui donne une suppression in fine.
Illustration des deux méthodes de pruning
Attention : Mettre à 0 des neurones entier est différent du Drop Out
Le Drop Out est une méthode visant à diminuer l’overfitting et s’appliquant durant l’entraînement d’un réseau de neurones. Ainsi le Drop Out n’a aucun impact sur la structure du réseau en propre. De plus, le Drop Out agit aléatoirement, alors que la méthode (M2) sélectionne les neurones les moins importants.
Par la suite, nous allons présenter deux implémentations de pruning :
- L’API native de Keras [2] [3] – 2018
- MorphNet, projet de Google établi sur Tensorflow [4] [5] – 2019
Avant de présenter ces méthodes en détail, voici quelques intuitions que l’on peut avoir :
- Étant une étape supplémentaire dans la conception d’un modèle, il est logique de prévoir un coût au pruning.
- Les deux approches qui vont être introduites sont un pruning pendant l’entraînement. La durée d’entraînement en sera donc allongée.
Pour les exemples, on utilisera un problème de classification d’images, avec cifar10 par exemple (images 32×32). - Faisant appel à la méthode (M1) de pruning, les approches proposées par Keras et MorphNet mettent à 0 des paramètres. Avec un entraînement suffisamment poussé – et dénué d’overfitting -, un paramètre est au pire inutile dans un modèle. On peut donc s’attendre à ce que la performance (en termes de métriques de Machine Learning) du réseau élagué soit inférieure à celle du réseau de base. Mais nous verrons en réalité que ce n’est pas nécessairement le cas, et que cette inégalité supposée peut même s’inverser dans les faits.
Méthode 1 : API Keras
Fonctionnement
- Cette méthode creuse la matrice des paramètres du réseau c’est-à-dire annule certains de ses poids, et ce durant l’entraînement. La proportion de 0 est fonction d’un pourcentage qu’on lui a indiqué.
- Pour choisir les bons paramètres à nullifier, la méthode trie les paramètres par ordre d’importance.
Un paramètre est jugé important s’il induit souvent une activation. Cette méthode de sélection est la plus connue dans la littérature 1. - Pour appliquer cette mise à 0, l’API utilise des masques. C’est-à-dire des matrices booléennes (donc dont les coordonnées valent 0 ou 1) de mêmes tailles que l’objet que l’on veut traiter. Ici ce sont des matrices de paramètres. L’output des paramètres qui auront été déterminés comme inutiles est bloqué par le masque, et ceux-ci ne seront pas mis à jour lors de la back propagation, convergeant ainsi vers 0 par une normalisation L2.
Illustration de l’issue d’un masking
Fonctionnement de l’API
- Pour appliquer les masques sur les couches, il faut les rendre « élagables ».
Cela se fait simplement comme suit par exemple :
Code pour rendre toutes ses couches de convolutions « élagables »
- C’est la fonction pruning_low_magnitude de l’API qui est au cœur du processus. C’est elle qui applique les masques et détecte les paramètres moins importants.
Finetuning
Le pruning s’effectue à travers un pruning schedule, soit :
- Une proportion de 0 par laquelle commencer
- Une proportion de 0 à laquelle vous voulez finir
- A quelle epoch on souhaite enclencher le pruning
Le pruning schedule
Finalement
Le modèle finalement obtenu est dit « sparse », c’est-à-dire que la proportion de paramètres non nuls est devenue beaucoup plus faible. Cela permet alors de compresser le modèle.
Allure d’un MobileNet après application des masques par l’API Keras
Résultats
Les résultas de ce pruning sont plutôt satisfaisants.
Pour des pruning de ~70% la perte de précision est quasi nulle sur la plupart des problématiques classiques.
On obtient donc facilement des modèles 3x plus petits, mais tout aussi précis !
Poids d’un MobileNet avant et après pruning
Méthode 2 : MorphNet
Similarité avec la méthode Native de Keras
- Cette méthode creuse également la matrice des paramètres durant l’entraînement.
- Cependant pour ce faire, cette méthode fait appel à une régularisation Lasso Group ajoutée dans la fonction de loss du modèle. Le Lasso Group opère une régularisation par la norme L1 sur des partitions de paramètres, évaluant ainsi l’importance de groupes de paramètres côte à côte, et non les paramètres seul à seul. L’avantage de cette méthode est que lorsqu’un groupe est mis à 0, pour peu que le groupe soit d’assez grande taille, cela peut être l’input tout entier d’un filtre qui sera élagué, et donc le filtre lui-même par extension.
Illustration de la régularisation employée par MorphNet [4]
Différences
- Pour l’instant, MorphNet est axé sur les couches de convolutions
- A l’inverse de l’autre méthode : MorphNet complexifie la Loss du modèle (durant l’entraînement) en ajoutant un paramètre de régularisation comme on a vu.
- Il est nécessaire aussi de choisir une métrique sur laquelle cette régularisation va s’établir en évaluant les couches de paramètres :
- Les FLOPs (nombre d’opérations)
- La taille du modèle (nombre de paramètres)
- La latence, combinaison des FLOPs et de la taille du modèle, et fonction du hardware
Formule de la loss dans MorphNet [5]
Plus-value et mode d’emploi
- Alors que les filtres moins importants subissent un pruning, les filtres importants sont eux multipliés, réallouant alors de la mémoire pour gagner en précision.
- Par conséquent, MorphNet est une succession de suppressions et de créations de filtres.
- A chaque fin d’itération, une architecture élaguée est sauvegardée.
- Elle doit alors subir un entraînement from scratch, car la loss de la régularisation MorphNet n’est pas la loss associée à l’entraînement du réseau, étant donné qu’on y ajoute une terme de pénalisation pour la régularisati