Penchons-nous un peu plus sur la récompense que nous avons obtenue à Unbabel pour nos systèmes d’estimation de la qualité de traduction

8 min read

À Unbabel, nous avons une grande vision. Celle de fournir des traductions de qualité humaine à l’échelle de la traduction automatique (MT). Mais comment savons-nous que notre traduction est une traduction de qualité ? 

Pour nous, la qualité est un mélange entre d’un côté, un bon texte initial que l’on utilise comme base de travail, alimenté grâce à notre domaine adapté de traduction automatique, et puis de l’autre côté, la distribution intelligente de ces données à une communauté de relecteurs, dont nous assistons en mettant à leur disposition différents outils qui leur permettent de vérifier et de corriger les textes, et ensuite d’approuver le contenu aussi vite que possible.

Tout d’abord, voici comment nous mesurons, nous contrôlons et nous optimisons la qualité au sein de notre circuit linguistique.

Audits qualité et annotations

Nous procédons périodiquement à des audits qualité auprès de nos clients et puis, une fois par semaine, nous effectuons des annotations sur des données échantillonnées, nous mettons à l’essai des hypothèses et nous exécutons des analyses approfondies aux endroits de notre circuit où l’on trouve des erreurs anormales. Nous utilisons la mesure standard de l’industrie, l’échelle de mesure multidimensionnelle de la qualité (MQM), afin de pouvoir comparer objectivement notre performance avec des tiers et des bibliothèques de traduction open source. 

Notre processus d’annotations est mené par un groupe de spécialistes ayant une formation de linguiste et de traducteur, en mesure de construire une source de connaissances approfondies au sein de notre plate-forme qui améliore la qualité d’ensemble et diminue le temps d’exécution de livraison des tâches. 

Personnalisation Client

À Unbabel, nous créons et conservons des glossaires pour chaque client et nous veillons à ce que les instructions spécifiques, les directives de la marque et les différents tons à adapter soient respectés. Les relecteurs de notre communauté sont en mesure d’accéder à ces informations sur la page de tâche de traduction, afin d’avoir le contexte dans son ensemble lorsqu’il s’agit spécifiquement de clients en communication, assurant ainsi une meilleure qualité et un rendement plus rapide. 

Évaluation des relecteurs et outils d’édition

Portées par des collaborateurs de notre communauté et du milieu universitaire, nous effectuons desévaluations continues de notre communauté par le biais de retours linguistiques. Nous créons des tâches d’entraînement qui ressemblent à des tâches réelles dans le but d’évaluer et de comparer nos relecteurs avec précision,et de produire des directives linguistiques afin d’aider la communauté àéviter les erreurs les plus courantes. 
Avec l’aide de chercheurs dans le traitement automatique de la langue naturelle et d’autres spécialistes sur le terrain, nous sommes en mesure de développer des outils tels que Smartcheck, qui alerte notre communauté de relecteurs et leur offre des suggestions afin de les aider dans leur travail de relecture. (Pensez-y comme une version multilingue suralimentée de corrections orthographiques. 

La récompense d’Unbabel pour notre système d’estimation de qualité

L’un des éléments clés du circuit de traduction d’Unbabel est notre système d’estimation de la qualité, qui identifie les mots incorrects dans une phrase traduite dans le but de fournir un score de qualité automatique. Cela permet aux relecteurs humains d’accorder une attention particulière aux bouts de phrases qui ont besoin d’être changés. 
Imaginezune phrase source, telle que « Hey there, I am sorry about that! », (qui est un exemple réel de notre intégration Zendesk.). 
Maintenant, imaginez une traduction automatique de cette phrase dans une langue cible comme le français, cela donnerait : « Bonjour là, je suis désolé sur cela ! » (Malheureusement, et dans ce cas c’est également un véritable exemple, cette traduction en français très imprécise et trop littérale est extraite d’ un système populaire de MT.). 
Pour cet exemple, notre système marque tous les mots non ponctués comme incorrect et attribue un score très faible de 0,222. 

Pourquoi prêtons-nous autant d’importance à l’estimation de la qualité ? Tout d’abord, il apparaît que l’estimation de la qualité rend le travail de traduction des relecteurs beaucoup plus facile. Repérer les mots incorrects les aident à prêter une attention particulière à certaines parties de phrases qui ont probablement besoin d’être corrigées.
Ensuite, cela permet de détecter qu’une phrase n’est pas encore prête à être envoyée à nos clients, si le score de qualité automatique est inférieure à un certain seuil et qu’un relecteur humain a besoin de la corriger. Cela met Unbabel sur la bonne voie pour fournir

des traductions cohérentes et de très bonne qualité.
L’estimationde la qualité est l’une des tâches clés partagées à la Conférence/Atelier pour la campagne annuelle de laTraduction Automatique ((WMT). Chaque année, ces campagnes évaluent et comparent les meilleurs systèmes dans le monde entier, aussi bien du monde universitaire et de l’industrie. En 2016, nous avons réuni une équipe (comprenant Chris Hokamp, doctorant à l’université de Dublin, effectuant un stage avec nous dans le cadre du réseau EXPERT financé par l’UE, et qui a participé pour la première fois à la recherche de niveau des mots.
Notre système a gagné la compétition par une confortable avance (avec un score de F1 de 49,5 %, contre 41,1 % obtenus par le meilleur système non-Unbabel,, combinant un modèle linéaire fondé sur des traits syntaxiques, à trois systèmes de réseaux de neurones indépendants, le tout regroupé.
Ces résultats étaient très encourageants, mais le problème était encore loin d’être résolu. Si c’était le cas, la traduction automatique serait elle aussi presque résolue car on pourrait interroger un système d’estimation de la qualité pour évaluer une longue liste de traductions candidates et en récupérer les meilleures.

Notre propre record de mots battu avec la relecture automatique 

Alors, comment pouvons-nous aller encore plus loin ? Une autre technologie que nous utilisons au sein d’ Unbabel est la relecture automatique ((APE), dont l’objectif est non pas de détecter les erreurs ou d’évaluer la qualité du MT, mais de corriger automatiquement une traduction. 
Dans notre exemple ci-dessus, un bon résultat serait de modifier cette pauvre traduction « Bonjour là, je suis désolé sur cela ! » en quelque chose comme « Bonjour, veuillez nous excuser pour ce désagrément. »
Compte tenu de la similitude naturelle entre les tâches d’estimation de la qualité et les tâches de relecture automatique, nous avons décidé de joindre nos efforts pour voir où nous pourrions obtenir une meilleure estimation de la qualité en utilisant les résultats d’un système de relecture automatique comme fonctionnalité supplémentaire.
Pour mettre à l’essai cette hypothèse,nous avons collaboré avec Marcin Junczys-Dowmunt, de l’Université Adam Mickiewicz ((AMU), l’équipe qui a remporté la tâche de relecture automatique au WMT 2016, et qui a réussi à créer des données supplémentaires à l’aide de « traductions allers-retours » et à combiner des systèmes de traduction automatique neuronales monolingues et bilingues avec un modèle non-linéaire.
Les résultats ont dépassé toutes nos attentes ! Combiner le système AMU de relecture automatique à notre précédent système d’estimation de la qualité par une technique appelée « stacked ensembling » (assemblés empilés), les résultats sont frappants : nous avons amélioré notre précédent record de niveau de mots, qui était alors de 49,5 %, à un nouveau score de 57,5 %, (soit une amélioration absolue de 8 points de pourcentage. 
Nous avons également réussi à construire un système de notation de la qualité des phrases, pour lequel nous avons obtenu un score de corrélation par personne de 65,6 %, soit l’équivalent d’un gain absolu de plus de 13 % au-dessus du meilleur système précédent développé par Yandex.
Notre succès continu signifie que nous pouvons rendre une estimation de la qualité utile en pratique, en réduisant les temps de rédaction et en assurant des traductions rapides et de très bonne qualité pour des clients d’Unbabel.  


L’équipe de recherche AI d’Unbabel (André Martins, Ramon Astudillo et Fábio Kepler) a conduit les expériences d’estimation de qualité.
Vous pouvez trouver tous les détails complets dans notre document TACL (cliquez ici pour voir une ébauche), qui vient d’être accepté pour publication :
André F.T. Martins, Marcin Junczys-Dowmunt, Fabio N. Kepler, Ramon Astudillo, Chris Hokamp. « Repousser les limites de l’estimation de la qualité de traduction. »
Dans les Transactions de l’association pour la linguistique informatique, 2017 (à paraître prochainement)
Dr Helena Moniz dirige au quotidien l’équipe de qualité à Unbabel.

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon