C’était en 1954, et l’avenir était certain : les traducteurs humains allaient être obsolètes dans quelques années.

C’est du moins ce que déclarèrent fièrement les chercheurs d’IBM lors de la première démonstration publique de leur système de traduction automatique.

Nous savons aujourd’hui à quel point cette affirmation était et est toujours éloignée de la vérité. Mais même au début de l’histoire de la traduction automatique, dans les années d’après-guerre, on n’était cependant pas débordant d’optimisme.

En effet, en 1947, le scientifique américain et pionnier de la traduction automatique, Warren Weaver, déclarait :

On peut naturellement se demander si le problème de la traduction pourrait éventuellement être traité comme un problème de cryptographie. Quand je vois un article en russe, je me dis : « Ceci est en réalité écrit en anglais, mais a été codé avec des symboles étranges. Je vais maintenant procéder au décodage. »

Quelques années plus tard, Weaver ajoutait : « Aucune personne sensée ne pense qu’une traduction automatique puisse jamais atteindre l’élégance et le style. »

Le fait est que la traduction nécessite plus qu’un anneau décodeur. Si vous avez déjà essayé de traduire de la poésie ou de la littérature via un service de traduction automatique, le résultat peut fort ressembler à un décodage de messages secrets.

Et c’est pourquoi les humains jouent un rôle clé. Notre connaissance unique du monde est essentielle pour la traduction. Nous, les humains, comprenons le contexte d’une conversation, le contexte culturel, les significations cachées. Les machines n’ont pas encore ce genre de connaissances. Comme le dit notre PDG Vasco Pedro : « Lessystèmes de traduction automatique sont formés pour lire des phrases parallèles, ce qui revient un peu à apprendre à parler à un perroquet ; le perroquet est peut-être capable de le faire, mais il ne comprendra jamais vraiment ce qu’il dit. »

Cela explique pourquoi les développements extraordinaires dans la traduction automatique au cours des dernières années n’ont pas encore atteint le niveau où les gens auraient suffisamment confiance pour laisser partir une traduction sans la faire vérifier par des humains. C’est là que l’ évaluation de la qualité entre en jeu.

Chez Unbabel, nous avons mené des recherches avancées en matière d’évaluation de la qualité pour aider à fournir des traductions rapides et précises, à grande échelle, à un grand nombre de nos clients, notamment des entreprises comme Booking.com, Microsoft, Skyscanner et Pinterest.

Parce que l’évaluation de la qualité joue un rôle prépondérant dans notre entreprise, j’ai décidé d’écrire cet article pour expliquer pourquoi je pense que l’évaluation de la qualité est vraiment le chaînon manquant de la traduction et comment OpenKiwi (notre toute nouvelle infrastructure logicielle open source pour l’évaluation de la qualité) contribuera à améliorer la traduction automatique assistée par les humains.

Qu’est-ce que l’évaluation de la qualité en traduction ?

Avant d’approfondir ce que l’évaluation de la qualité peut faire pour améliorer les traductions automatisées, il est important de comprendre exactement de quoi nous parlons.

L’évaluation de la qualité est ce que nous utilisons pour évaluer la qualité d’un système de traduction sans accès aux traductions de référence. En d’autres termes, l’objectif est de déterminer si une traduction est bonne ou mauvaise, sans intervention humaine.

Elle peut être utilisée à différentes fins :

  • Informer un utilisateur final de la fiabilité du contenu traduit ;
  • Décider si une traduction est prête à être publiée ou si elle nécessite une post-édition humaine ;
  • Souligner les mots qui doivent être changés.

Chez Unbabel, nous utilisons l’évaluation de la qualité pour garantir que, si une traduction n’est pas assez bonne pour être livrée, elle est examinée par notre communauté bilingue de plus de 100,000 éditeurs. Ils peuvent rapidement corriger les erreurs et fournir des traductions de haute qualité à nos clients. Plus nous traduisons, plus le système apprend et moins il commettra d’erreurs à l’avenir.

Par conséquent, une bonne évaluation de la qualité allège le fardeau des traducteurs humains. Avec un système automatisé qui met en évidence les erreurs avant même que le processus humain ne commence, les traducteurs peuvent se concentrer sur les zones d’un contenu qui a très probablement besoin d’attention.

Au cours des dernières années, nous avons assisté aux remarquables réalisations que la technologie et la communauté peuvent accomplir ensemble. Nous aimerions intégrer davantage la communauté dans notre technologie et nos processus, avec OpenKiwi, une infrastructure logicielle collaborative d’évaluation de la qualité.

Open Source Framework for Quality Estimation

OpenKiwi : une infrastructure logicielle open source pour la communauté de la traduction automatique.

Chez Unbabel, nos modèles de traduction automatique fonctionnent dans des systèmes de production pour 14 paires de langues. La couverture et les performances s’améliorent avec le temps, grâce à la quantité croissante de données produites quotidiennement par nos traducteurs. Cette combinaison d’IA et d’êtres humains rend notre flux de traduction meilleur et plus rapide.

Cependant, nos systèmes d’évaluation de la qualité primés n’étaient pas accessibles pour les chercheurs externes, ce qui imposait une limite à ce que nous pouvions accomplir ensemble. Chez Unbabel, nous croyons fermement en une recherche reproductible et collaborative. Nous voulons que tous les chercheurs en IA profitent de nos découvertes et nous voulons pouvoir construire, prospérer et expérimenter ensemble.

C’est ce qui nous a amenés à créer OpenKiwi.

OpenKiwi est une infrastructure logicielle open source qui implémente les meilleurs systèmes d’évaluation de la qualité, ce qui facilite grandement l’expérimentation et l’itération avec ces modèles dans la même infrastructure logicielle, ainsi que le développement de nouveaux modèles. En combinant ces modèles, nous pouvons obtenir les meilleurs résultats en matière d’évaluation de la qualité au niveau des mots.

Le pouvoir de l’open source

Beaucoup de gens vont peut-être se demander ce qui nous a amenés à créer une infrastructure logicielle open source au lieu de garder notre technologie d’évaluation de la qualité pour nous. S’il y a une chose en laquelle nous croyons, c’est la collaboration.

Il n’y a pas si longtemps, la « barrière à l’entrée », même pour des projets logiciels de base, était extrêmement haute. Cela pouvait prendre des mois pour reproduire les résultats d’un article de recherche, tout simplement parce que le code source sous-jacent utilisé dans le projet n’était pas facilement accessible.

Les logiciels open source apportent des avantages qui surpassent de loin les inconvénients. En permettant à d’autres d’accéder à ce que nous avons créé, cela nous donne la possibilité non seulement d’inciter une plus grande communauté d’experts à travailler avec nous, mais ensemble, nous pouvons également apporter des améliorations plus rapidement. Dans les solutions open source, même les plus petits problèmes sont remarqués, signalés et résolus plus rapidement.

Regardez la traduction automatique elle-même. En tant que domaine, la traduction automatique a énormément bénéficié des logiciels open source tels que Moses, OpenNMT et Marian, pour n’en citer que quelques-uns. Ces projets ont réussi à rassembler une vaste communauté de contributeurs, venant à la fois de l’industrie et du monde universitaire, qui font progresser la technologie de pointe en matière de traduction automatique. Nous contribuons également à certains de ces projets. C’est formidable !

Cependant, il n’existait rien d’équivalent dans l’évaluation de la qualité. Dans ce domaine, les initiatives open source existantes sont très peu nombreuses, utilisées seulement par quelques groupes du monde universitaire et elles n’ont jamais vraiment pris de l’ampleur. C’est ce vide que nous comblons maintenant avec OpenKiwi.

En mettant OpenKiwi à la disposition de la communauté, je suis convaincu que nous contribuerons tous à la réussite de la traduction et façonnerons son avenir.

Malgré toutes les avancées, la traduction automatique reste essentiellement mécanique, du moins pour le moment. Mais combinée à un déploiement intelligent de données et d’éditeurs humains qui maîtrisent parfaitement leur langue, la traduction automatique est sur le point d’augmenter l’accès, d’améliorer les relations entre les consommateurs et les entreprises et de promouvoir la compréhension dans le monde entier.