Synthétiser vos emails en quelques mots

✍Pierre-Jean Larpin, Antoine Simoulin / Temps de lecture 9 minutes
Une expérimentation de méthodes abstractives pour le résumé automatique
Alors que nous recevons chaque jours plus d’emails, Quantmetry mène de nombreuses expérimentations et projets pour faciliter et fluidifier leur gestion. Notamment avec la librairie Open Source Melusine qui permet de classifier des emails et d’en extraire des mots clés. Dans la continuité de ce travail, nous présentons ici une expérimentation visant à résumer automatiquement les emails, une tâche normalement opérée manuellement pour faciliter la gestion d’un échange et qui demande un temps significatif ! Nous nous concentrons ici sur des résumés “abstractifs” qui ne se limitent pas à extraire des passages saillants de l’email mais à le reformuler dans des termes et selon une formulation nouvelle et plus compacte.
Le résumé automatique
Le résumé constitue une épreuve à part entière de nombreux concours. Elle consiste à synthétiser un texte, en respectant un nombre imposé de mots, tout en retenant les informations essentielles. Cet exercice est difficile car il demande des capacités d’analyse, de réflexion et de restitution importantes.
Au delà d’une épreuve de langue, le résumé automatique représente une vraie opportunité pour de nombreux secteurs. En effet, une quantité considérable de données non structurées n’est pas exploitée par les entreprises car difficilement utilisable : par exemple, des rapports médicaux de patients, de longs rapports d’entretiens, des compte-rendus de réunions. La valorisation de ces données pourrait être rendue possible si des modèles pouvaient générer une synthèse des textes afin d’améliorer et faciliter leur traitement.
Les méthodes d’intelligence artificielle ont pendant longtemps échoué à imiter la capacité de synthèse de l’être humain mais les dernières avancées faites dans le traitement du langage permettent aujourd’hui des progrès spectaculaires dans ce domaine.
Convaincu par l’apport des nouvelles méthodes de Traitement Automatique du Langage (TAL ou NLP en anglais), Quantmetry investit du temps de ses consultants pour suivre et contribuer à l’état de l’art par le biais d’une équipe dédiée au NLP. Des travaux de recherche sur le résumé automatique de texte ont ainsi été menés en implémentant des méthodes à la pointe du NLP.
Modélisation
Il existe deux méthodes de résumé automatique détaillées ci-dessous. Dans la suite de l’article, nous étudierons la mise en place d’un modèle de résumé automatique par méthode abstractive.
La méthode extractive consiste à identifier des phrases complètes du texte original censées être les plus pertinentes et à les concaténer de façon à produire un extrait du document. Un des algorithmes par extraction le plus connu est l’algorithme TextRank, très similaire à PageRank. Cependant, cet algorithme présente des résultats limités quand les documents ne présentent pas suffisamment de phrases.
La méthode abstractive consiste à rédiger une synthèse en générant des phrases qui ne sont pas forcément contenues dans le document original. Cette méthode est plus difficile à mettre en place puisqu’elle suppose en un sens d’imiter le raisonnement de compréhension et de synthèse humain. Elle offre ainsi des perspectives d’usages plus intéressantes.
Evaluation des performances
Les modèles et techniques utilisés sont détaillés en dernière partie. Nous nous concentrons ici directement sur les résultats et leur analyse.
Quelques exemples
Sur la Table 1 ci-dessous, on peut observer des exemples de résumés générés par notre modèle après la phase d’entraînement. Ces résultats sont très cohérents et parfois même plus pertinents que les synthèses générées par l’humain ! Le modèle a appris à synthétiser des concepts par ses propres mots comme par exemple “attestation de location saisonnière” en “attestation villégiature”.
On peut également remarquer que les résumés générés par les conseillers sont très courts, ce qui va directement influencer le comportement de notre modèle, étant dans une approche supervisée.
Mail Entrant | Résumé de référence écrit par un conseiller | Résumé généré |
Comme convenu lors de mon appel je vous envoie l’acte de vente de l’appartement | Notification d’opposition | Acte de vente |
J’ai besoin d’une attestation responsabilité civile pour le propriétaire de ma location saisonnière | Client demande attestation responsabilité civile | Attestation villégiature |
J’ai de nombreux véhicules assurés chez vous et je n’ai pas de constat amiable dans chaque véhicule. Pouvez vous m’en faire parvenir ? | Véhicule | Demande de constat |
Pouvez-vous m’envoyer un relevé d’information sur 36 mois ? merci de votre retour | Gestion contrat véhicule demande relevé d’information | Demande de relevé d’information |
J’ai rejoint l’assurance aujourd’hui comme convenu par téléphone voici mon rib | Documents manquants relevé d’identité bancaire | Rib |
Table 1. Exemple de résumés générés par l’algorithme
Métriques d’évaluation manuelle
Afin d’étudier la cohérence des résumés générés sans être impacté par les limites des métriques automatiques décrites dans le paragraphe suivant, nous avons proposé à des conseillers d’évaluer un échantillon de 1000 résumés produits par notre algorithme et de les évaluer selon la grille proposée en Table 2. Les mails “parfaits” présentent un résumé syntaxiquement corrects qui résument de manière exhaustive l’email. La seconde catégorie regroupe les résumé syntaxiquement corrects mais qui ne présentent pas un compte rendu exhaustif du mail. Les résumés classifiés comme “faux” correspondent à soit des résumés dont la syntaxe n’est pas compréhensible, soit qui comportent une erreur sémantique manifeste.
Nous avons également filtré les emails avec un score de confiance élevé afin de voir si les résultats étaient meilleurs. On observe bien que les résumés avec un score de confiance élevé sont plus pertinents ce qui permet d’établir un seuil de confiance à partir duquel on considérera la prédiction comme fiable, ce seuil pouvant être défini suite à un retour métier.
Evaluation |
Proportion sur les 1000 mails |
Proportion sur mails top scorés (score > 85%) |
😊 Parfait | 53% | 68% |
😕 Incomplet, pas complètement exact | 23% | 26% |
😱 Faux, inexploitable | 24% | 6% |
Table 2. Evaluation par les conseillers
Métriques d’évaluation automatique
Les papiers scientifiques ont tendance à comparer la performance de leurs modèle par rapport à la métrique Rouge. La métrique Rouge-N établit un score basé sur la proportion de mots ou groupes de mots, appelés N-grams, en commun entre une phrase cible et une phrase prédite par rapport au nombre de N-grams présents dans la phrase cible.
Les métriques les plus utilisés sont Rouge-1 et Rouge-2. La métrique Rouge-1 priorise le nombre de mots communs sans prendre en compte l’ordre des mots, la syntaxe ou encore les mots pouvant changer le sens de la phrase (par exemple la négation). La métrique Rouge-2 tend à conserver une cohérence syntaxique.
Nous comparons dans la Table 3 les métriques Rouge-1 et Rouge-2 de notre modèle avec celles présentées dans l’article original Get to The Point. Même si les résultats sont difficilement comparables car issus de deux corpus différents, les métriques du papier académique reflètent assez bien les meilleurs résultats qu’on peut trouver actuellement dans les papiers scientifiques.
On peut observer que les métriques R1 sont très similaires (~40), signifiant que l’on capture en moyenne 40% des mots des résumés cibles. Notre modèle présente aussi une métrique R2 bien supérieure à celle observée pour le jeu de donnée CNN Daily Mail, signifiant que, dans notre cas, nous proposons des résumés plus proches des résumés de références.
Toutefois, ces deux métriques ne sont pas idéales car elles vont fortement pénaliser un résumé au sens proche mais qui n’utilise pas le même vocabulaire. Elles ne font guère sens dans l’approche abstractive d’un résumé mais elles sont actuellement les métriques sur lesquelles on juge la pertinence d’un modèle.
Dataset | R1 | R2 |
CNN Daily Mail | 39.53 | 17.28 |
Corpus Mail | 40.12 | 35.34 |
Table 3. Comparaison des métriques automatiques sur le corpus CNN Daily Mail, un corpus de référence pour cette tâche et pour notre jeu de données
Architecture du modèle
Seq2Seq
Nous avons implémenté le modèle Get To The Point: Summarization with Pointer-Generator Networks, publié à la conférence ACL en 2017. L’architecture repose sur une architecture