Computer vision


La vision par ordinateur (computer vision en anglais) est le domaine de l’informatique qui vise à reproduire une partie de la complexité du système de vision humain et à permettre aux ordinateurs d’identifier et de traiter des objets dans des images et des vidéos de la même manière que les humains. Jusqu’à récemment, la vision par ordinateur ne fonctionnait que de manière limitée.
Grâce aux progrès de l’intelligence artificielle et aux innovations en matière d’apprentissage profond et de réseaux neuronaux, le domaine a pu faire de grands bonds en avant ces dernières années. Ainsi, il a pu surpasser les humains dans certaines tâches liées à la détection et à l’étiquetage des objets.

Les données, un élément clé de l’évolution de cette technique

L’un des facteurs de croissance de la vision par ordinateur est la quantité de données que nous générons aujourd’hui, qui sont ensuite utilisées pour la former et l’améliorer.

Parallèlement à l’énorme quantité de données visuelles (plus de 3 milliards d’images sont partagées en ligne chaque jour), la puissance de calcul nécessaire pour analyser ces données est désormais accessible. Le domaine de la vision par ordinateur s’est enrichi de nouveaux matériels et algorithmes, tout comme les taux de précision de l’identification des objets. En moins d’une décennie, les systèmes actuels sont passés de 50 à 99 % de précision, ce qui les rend plus précis que les humains pour réagir rapidement aux entrées visuelles.
Les premières expériences dans le domaine de la computer vision ont débuté dans les années 1950 et ont été utilisées pour la première fois à des fins commerciales, pour distinguer les textes dactylographiés des textes manuscrits, dans les années 1970.

Cette vision est-elle conforme à celle de notre cerveau ?

L’une des principales questions en suspens dans le domaine des neurosciences et de l’apprentissage automatique est la suivante : comment fonctionne exactement notre cerveau et comment peut-on s’en approcher avec nos propres algorithmes ? En réalité, il n’existe que très peu de théories complètes et opérationnelles sur le calcul du cerveau. Ainsi, bien que les réseaux neuronaux soient censés « imiter le fonctionnement du cerveau », personne ne sait si c’est réellement le cas.

Le même paradoxe s’applique à la vision par ordinateur – puisque nous ne sommes pas fixés sur la façon dont le cerveau et les yeux traitent les images, il est difficile de dire dans quelle mesure les algorithmes utilisés dans la production se rapprochent de nos propres processus mentaux internes.

À un certain niveau, la vision par ordinateur est une question de reconnaissance des formes. Une façon de former un ordinateur à la compréhension des données visuelles consiste à lui fournir des images – beaucoup d’images, des milliers, des millions si possible – qui ont été étiquetées. Puis, à les soumettre à diverses techniques logicielles, ou algorithmes, qui permettent à l’ordinateur de rechercher des modèles dans tous les éléments qui se rapportent à ces étiquettes.

Ainsi, par exemple, si vous donnez à un ordinateur un million d’images de chats, il les soumettra toutes à des algorithmes qui lui permettront d’analyser les couleurs des photos, les formes, les distances entre les formes, les endroits où les objets se côtoient…etc. afin d’identifier un profil signifiant « chat ». Lorsqu’il aura terminé, l’ordinateur sera (en théorie) capable d’utiliser son expérience en matière d’alimentation d’autres images non étiquetées pour trouver celles représentant un chat.