DALL-E 2 : derrière la hype, ruptures technologiques, opportunités et limites

DALL-E 2, le dernier outil de génération d’image à partir de texte d’Open AI, l’entreprise spécialisée dans la recherche en IA à qui l’on doit plus récemment ChatGPT, a fait couler beaucoup d’encre. Cet algorithme génère des visuels de haute qualité, est facile d’utilisation et très peu cher. Le nombre de formations disponibles pour sa prise en main montre un engouement réel non limité aux seuls data scientists. Cette révolution en cours pose malgré tout de nombreuses questions techniques, éthiques et business. Au-delà des métiers des concepts artistes, qui seraient directement menacé de disparition d’après Usbek & Rica, le potentiel de cette technologie est immense.
Dans cet article, nous étudions les différentes technologies qui ont permis l’avènement de la dernière génération de modèles génératifs et plus spécifiquement de DALL-E 2, nous abordons les limitations d’ordre technique et éthiques avant d’explorer les opportunités business liées à cette nouvelle technologie.
Les transformers au cœur d’une avancée scientifique et technique
Les Large Language Models utilisant des transformers comme GPT-3 ont déjà révolutionné le NLP. Ils permettent un accès à des modèles très puissants et déjà entrainés pouvant être adaptés avec peu d’entrainement dans la majorité des cas d’usages métier y compris sur des tâches non déjà vues.
Les modèles transformers sont une technologie récente à l’échelle du deep learning.
Source : A Survey on Vision Transformer
Après le NLP, ils se démocratisent en Computer Vision avec des modèles qui font référence comme ViT (2020) ou DETR (2020). Ils peuvent être préférés aux CNN car ils permettent :
- une meilleure parallélisation des calculs
- d’apprendre plus facilement des features sémantiques
- de lier plus efficacement des pixels très éloignés
- d’obtenir des performances qui saturent moins vite avec le nombre de paramètres.
Le modèle DALL-E 2
DALL-E 2 consiste en un assemblage de plusieurs briques de Deep Learning, chacune étant entraînée séparément.
- Le modèle CLIP est entrainé sur un jeu de données non labellisé de 650M de paires images / description extraites d’internet.
- Un modèle de diffusion appelé « prior » génère un embedding d’image à partir d’un embedding de texte généré par CLIP. Même s’il n’est pas strictement nécessaire, il permet d’améliorer grandement la qualité perçue des images générées. Cette étape est non-déterministe : des sorties différentes seront générées à partir d’une même entrée, ce qui crée de la diversité.
- D’autres modèles de diffusions rassemblés dans la brique « decoder » permettent ensuite de générer une image de taille 64×64 d’après le résultat du prior puis de l’upsampler pour augmenter sa résolution à 1024×1024. C’est à eux qu’on doit la qualité des images générées !
La partie supérieure du schéma ci-dessous représente le processus d’entraînement de CLIP, tandis que la partie inférieure représente le processus de génération.
Extrait de l’article d’OpenAI sur DALL-E2
On notera que les modèles de génération text-to-image dernière génération ont des structures très similaires. On peut citer parmi eux :
- Imagen de Google qui n’est pas encore testable
- eDiffi de NVidia qui n’est pas encore testable
- Stable diffusion de StabilityAI qui est utilisable gratuitement et opensource.
Les limitations techniques de DALL-E 2
Malgré une architecture très innovante et des performances impressionnantes, DALL-E 2 comporte quelques limitations qui sont communes avec les GANs. On observe que le modèle a du mal à générer des images avec beaucoup de détails. Les auteurs le reconnaissent et l’attribuent aux briques d’upsampling de 64×64 à 1024×1024.
Ainsi, les visages et les mains ne sont pas très bien représentés pour les humains, et le texte dans les photos n’est pas sémantiquement juste.
« Ceo talking to employees »
Les auteurs expliquent que CLIP ne gérant pas l’orthographe des mots dans les images générées, les parties textuelles des images sont souvent incorrectes.
“Datascientist coding a deep learning algorithm”
L’algorithme gère mal les longs textes descriptifs, aussi appelée prompts. Sur notre exemple ci-dessous, DALL-E 2 préfère dessiner un animal hybride dauphin-éléphant plutôt que de faire apparaître les deux.
“Dolphins swimming in a river with an elephant on a giant donut across the Seine. Sky is full of stars. With style of Monet. »
Aussi, OpenAI est connu pour avoir un approche propriétaire et de ne rendre ni leurs codes, ni les poids de leurs modèles open source comme ici avec DALL-E 2. Cela limite le partage de connaissance qui est à la base de la recherche dont a bénéficié OpenAI même et l’émergence de nouveaux cas d’usages multimodaux vision / langage. Cela crée aussi un manque de transparence notamment dans les choix qui ont été fait pour la base d’entrainement avec des questions éthiques et légales.
Une propriété intellectuelle à définir
En effet, DALL-E 2 a été entrainé sur un jeu de données extrait d’internet dont l’origine n’a pas été dévoilée. Sur de précédentes itérations de modèles similaires, on pouvait par exemple trouver des watermarks des banques d’image. A titre d’exemple, on peut toujours trouver dans le jeu de données