L’une des principales missions d’Unbabel est de fournir des traductions de qualité irréprochable. Mais comment savoir si une traduction particulière est de qualité irréprochable ? Concernant la façon d’évaluer si une traduction est bonne ou mauvaise, les avis peuvent diverger d’une personne à l’autre. Une seule et même personne peut percevoir une même traduction de manière différente, si on lui demande de l’évaluer à quelques semaines d’intervalle. De nombreux facteurs peuvent contribuer à la nature subjective d’une traduction : le langage des gens dépend de l’endroit où ils ont grandi, du langage employé par leurs parents, des livres qu’ils ont lu… et tout simplement de leurs interactions quotidiennes avec les autres.

Même pour moi, en tant que traductrice professionnelle, lorsque je travaillais en tant que correctrice pour de grands projets de traduction, il n’était pas toujours facile de faire la distinction entre ce qui n’allait pas et ce qui avait été écrit d’une façon différente de ce que j’aurais écrit moi-même. D’ailleurs, ce qui me semble idiomatique peut ne pas sembler idiomatique à quelqu’un d’autre, même si nous sommes originaires du même pays. L’autre personne peut être issue d’une région, d’une génération ou d’une classe sociale différente.

J’ai pu constater que le fait d’avoir des instructions, avec des exemples concrets, sur le type de modifications qui n’étaient pas nécessaires lors des relectures m’a aidée à mieux comprendre la portée de mon travail. Tout comme le fait d’être pleinement consciente des spécifications du projet, en particulier le fait de comprendre à quel public s’adressait la traduction ; je ne perdais donc pas de temps inutile à apporter des modifications qui, objectivement, n’amélioraient pas la qualité de la traduction.

Cette subjectivité inhérente (après tout, il n’existe pas une traduction correcte unique d’un texte) représente un défi considérable lorsque l’objectif est d’améliorer la qualité des traductions produites par nos systèmes de traduction automatique et perfectionnées par notre communauté de relecteurs.

Multidimensional quality metrics : une méthode de mesure

Reconnaître une mauvaise traduction devrait être assez facile, non ? Nous avons tous ri des couacs de la traduction automatique, comme lorsque Google Traduction a confondu « Ooga Booga Wooga » avec « Somalie », ou qu’un hôtel dans la capitale du Kurdistan irakien a essayé de traduire le choix « boulettes de viande » de son buffet : n’ayant pas d’équivalent direct en arabe, il a traduit par « ميت بول, » avec à côté, cette inquiétante traduction en anglais : « Paul is dead » (Paul est mort).

Mais la technologie de la traduction automatique s’est considérablement améliorée ces dernières années, et il devient de plus en plus rare de trouver des erreurs aussi grossières. Souvent, elles sont beaucoup plus subtiles. Par exemple, lorsque vous tapez « Lo pillaron conduciendo a 120 km/h » dans l’interface d’un système de traduction automatique gratuit en ligne, la traduction en anglais donne : « Il a été pris en train de rouler à 70 mi/h ». C’est prometteur ! Le système convertit même les unités. Mais 120 km/h correspond plutôt à 75 mi/h ; il s’agit d’une erreur de traduction qui peut sérieusement affecter la qualité de la traduction finale.

Il n’est pas rare qu’une traduction automatique neuronale de pointe produise des textes qui se lisent très bien mais dont la signification est différente de celle du texte original. Mais nous ne sommes pas irréprochables ; l’erreur est (aussi) humaine, et même des traducteurs expérimentés font parfois des erreurs.

Ainsi, pour identifier les domaines qui doivent être améliorés, aussi bien dans nos systèmes de traduction automatique que dans notre communauté de relecteurs, afin que les deux atteignent l’excellence, nous avons besoin d’une méthode efficace et précise pour évaluer la qualité de la traduction. Pour nous, cette évaluation précise est fournie par la méthode MQM (Multidimensional Quality Metrics) (méthode de mesure multidimensionnelle) , développée dans le cadre du projet QTLaunchPad financé par l’UE, visant à réduire les barrières linguistiques dans le monde.

Le MQM fournit un système complet, hiérarchique, flexible et standardisé qui nous permet d’identifier et de résoudre les problèmes de qualité de traduction. Plus précisément, le MQM fournit une typologie étendue des problèmes, une classification par niveau de gravité et un mécanisme de notation pour quantifier la qualité de la traduction.

En fonction des exigences spécifiques d’un projet de traduction, telles que la finalité ou le public visé, le MQM nous permet de définir une mesure de qualité personnalisée, avec plus ou moins de précision. Ceci est utile dans les cas où certaines erreurs importent peu au client, par exemple celles liées à la ponctuation. Lorsqu’un tel cas se produit, nous pouvons régler le MQM afin qu’il ne prenne pas ces erreurs en compte. Le MQM nous permet de mesurer ce qui importe à nos clients et d’adapter la notion de qualité à la leur.

Notre approche

Avec une mesure de qualité définie, les experts linguistes effectuent des annotations d’erreur dans notre propre outil d’annotation. Le processus d’annotation implique, pour chaque erreur rencontrée, de mettre d’abord en évidence la portée de l’erreur ; puis, de la classifier en se basant sur la liste des erreurs d’une telle mesure personnalisée, et enfin, de lui attribuer un degré de gravité. Chez Unbabel, nous utilisons une mesure conforme au MQM, avec les catégories de niveau supérieur suivantes, chacune contenant ses propres sous-catégories :

Exactitude

Cette catégorie décrit les erreurs liées à la façon dont la traduction transmet le sens du texte source. Il y a eu de terribles erreurs d’exactitude qui ont entraîné confusion… ou fous rires. Par exemple, lorsque Steven Seymour, qui était le traducteur du président américain Carter lors d’une visite en Pologne en 1977, a traduit sa joie d’être là par l’expression « heureux de saisir les parties intimes de la Pologne », comme le rapporta le magazine Time. Dans ce cas, seule la réputation de Carter (et du traducteur) en souffrit, mais ces erreurs peuvent entraîner de graves fiascos de communication et selon certains, elles pourraient même avoir contribué à la rupture des relations politiques en temps de guerre.

Maîtrise de la langue

La maîtrise de la langue est l’élément clé pour que le texte semble naturel dans la langue cible. Des erreurs de maîtrise de la langue peuvent survenir pour n’importe quel contenu, pas seulement pour les traductions. Ces titres de films comportent un tas d’erreurs de maîtrise de la langue, et certaines sont sans aucun doute délibérées.

Style

Des erreurs de style se produisent lorsque la traduction n’est pas conforme aux exigences spécifiées concernant le registre ou la terminologie. Se tromper dans les formules de politesse en s’adressant à un client japonais est perçu comme très offensant. Les erreurs de terminologie entrent également dans cette catégorie : par exemple, utiliser le mot « poubelle » au lieu de « corbeille » dans un contexte MacOs peut entraîner des malentendus lorsqu’on fournit une assistance technique.

En plus de classer les problèmes selon les trois catégories et leurs sous-catégories ci-dessus, nos experts linguistes attribuent à chaque erreur l’un des trois niveaux de gravité suivants : mineur, majeur et critique.

Les erreurs mineures n’ont pas d’impact sur le but ou la compréhensibilité du contenu, mais elles peuvent le rendre moins intéressant. Par exemple, en espagnol, la façon recommandée de traduire un pourcentage depuis l’anglais, comme 20% , est 20 %, avec un espace entre le nombre et le symbole. Si une traduction ne respecte pas cela, elle répond quand même à ses objectifs et reste compréhensible.

Les erreurs majeures impactent le but ou la compréhensibilité du contenu. Par exemple, une erreur majeure pourrait être une erreur grammaticale qui rend une phrase difficile à comprendre, mais le but général du texte source est conservé dans la traduction. Pensez à une discussion de chat en direct où la dernière phrase serait : « Faites-moi savoir s’il y a autre chose que je puisse, à tout moment ! »

Les erreurs critiques diffèrent des erreurs majeures car elles entraînent des résultats négatifs. Elles rendent la traduction inutile et peuvent engendrer des incidences en matière de santé, de sécurité, juridiques ou financières, ou peuvent être considérées comme offensantes. Imaginez par exemple, que vous fournissiez des informations sur une garantie à un client, que l’original en anglais américain indique que la date d’expiration est 11/12/20 (12 novembre 2020). Si la traduction en espagnol indique 11/12/20 (11 décembre 2020), le client peut perdre ses droits de garantie car il croit avoir plus de temps qu’il n’en a réellement pour faire une réclamation.

Chacun des niveaux de gravité ci-dessus est associé à des points de pénalité, qui sont ensuite divisés par le nombre total de mots à traduire. Ensuite, une formule simple prend en compte le nombre et la gravité des erreurs, et la longueur du texte nous donne ensuite une mesure numérique de la qualité de la traduction en fonction des spécifications établies au début du projet.

Les progrès sont constants

Étant donné que le MQM est fortement normalisé, l’utilisation d’une mesure compatible MQM permet d’atténuer la subjectivité dans l’évaluation de la qualité de la traduction. Mais comme beaucoup dans les milieux universitaires et industriels le savent, aucune mesure ne permet de faire complètement disparaître la subjectivité.

Par exemple, si nous avons « J’aime Lisbonne » dans le texte source et qu’on lit « lisbonne » dans la traduction, sans L majuscule, quel genre d’erreur voyons-nous ? S’agit-il d’une erreur d’entité ou d’une erreur de majuscule ?

Nous travaillons en permanence à réduire cette subjectivité inévitable, guidant le processus d’annotation en fournissant aux linguistes des directives d’annotation détaillées et des documents de formation avec des exemples. Nous sommes en contact permanent avec eux pour les aider à dissiper les doutes le cas échéant ou à clarifier les problèmes, et ces interactions, en retour, nous aident à améliorer nos directives afin qu’elles soient au fil du temps toujours meilleures et plus claires.

Dans l’ensemble, le MQM s’est révélé être un système très utile pour évaluer la qualité de la traduction de manière systématique, en nous permettant d’identifier les problèmes linguistiques complexes et d’y remédier. Mais peu importe le nombre de formules et de directives que nous développons pour contrôler le processus, les façons singulières dont nous utilisons le langage, sa subjectivité, ses bizarreries, la traduction sera toujours moitié science, moitié art. Et cela nous convient parfaitement.