Quand j’étais petit, je pensais devenir mathématicien ou physicien. J’ai réalisé très tôt que je voulais étudier et faire de la recherche, ou même devenir enseignant dans l’un de ces domaines. Je ne savais pas ce qu’était l’IA. En fait, au cours de mes premières années d’études en informatique, j’ai souvent pensé à me tourner plutôt vers les mathématiques. Je suis content de ne pas l’avoir fait.

Ma grand-mère ne comprend pas vraiment en quoi consiste mon métier, car pour le pratiquer, il faut utiliser Internet. Si vous-même n’utilisez pas Internet, et que je vous dis que chez Unbabel, nous faisons en sorte que les ordinateurs exécutent automatiquement des actions humaines, vous seriez probablement assis là à me regarder fixement sans comprendre.

D’une certaine manière, l’endroit où je me retrouve aujourd’hui n’est pas très différent de celui que j’avais imaginé quand j’étais enfant. Je veux dire par là que l’histoire de la traduction automatique a commencé avec Warren Weaver après la Seconde guerre mondiale, après qu’Allen Turing, un mathématicien, ait décrypté le code de la machine Enigma.

L’idée est que nous pouvons traiter le langage comme un code. La différence est que les codes sont formels, sans ambiguïté ; et ce qui rend la traduction si difficile, c’est précisément l’ambiguïté.

Le statut de la traduction automatique

Certaines personnes ont une idée assez précise de ce que fait Unbabel : nous traduisons un texte d’une langue donnée dans une autre langue. Mais d’autres ne savent même pas ce qu’est l’intelligence artificielle. Certains pourraient penser que tout ce que fait l’IA, c’est « des trucs de robot », mais ce n’est pas ça. Ce que fait l’IA, c’est imiter en quelque sorte le comportement humain, et à certains égards, elle est même meilleure que les humains .

Commençons par les bases : que font les systèmes d’apprentissage automatique ? On leur présente un objet source, en l’occurrence une phrase, et on leur demande de prédire quelque chose, une phrase cible.

La difficulté avec la traduction c’est qu’il n’y a pas de référence absolue. Une référence absolue représente la réalité. Si l’on essaie de faire en sorte qu’une machine déchiffre des images en demandant « est-ce un chat ou un chien ? », il existe une vérité car une image spécifique serait soit l’un, soit l’autre. En traduction automatique, cela n’existe pas, car vous pouvez avoir 20 traductions différentes qui sont aussi valables les unes que les autres. C’est un problème beaucoup plus difficile pour commencer. Qu’est-ce qu’une bonne traduction et qu’est-ce qui ne l’est pas ? Il y a aussi le fait que la langue est très ambiguë. Les mots peuvent signifier des choses très différentes selon les contextes. Ainsi, le problème de la traduction reste en grande partie non résolu.

Si l’on étudie plus en profondeur la traduction automatique, on s’aperçoit que ce n’est guère mieux qu’il ya quelques années, malgré ce que la plupart des gens pensent. De précédents résultats de systèmes de traduction automatique statistiques semblaient très peu naturels ou robotisés. À l’heure actuelle, ils peuvent sembler plus fluides, mais ils sont moins corrects que les précédents, qui avaient en général le bon contenu même si celui-ci pouvait être plus difficile à comprendre. De nos jours, les traductions automatiques peuvent être catastrophiquement insuffisantes en termes de contenu, tout en demeurant fluides. Globalement, le système s’est amélioré.

La traduction automatique est arrivée à un point où on peut au moins comprendre l’essentiel du texte. Elle devient de plus en plus fluide, même si les modèles restent très basiques et n’ont que peu de connaissances linguistiques. Les modèles en sont encore à travailler principalement au niveau « phrase par phrase ». Donc, quiconque pense que la traduction automatique est résolue ne l’a clairement jamais utilisée.

Pour Unbabel, en tant qu’entreprise vendant ses solutions de support multilingue à de grandes entreprises qui interagissent avec des milliers, voire des millions de clients chaque jour, cela pose un problème, car la plupart du temps, lorsqu’on parle de traduction automatique, les gens pensent immédiatement aux erreurs qu’elle commet. On ne peut pas simplement inventer des histoires pour donner l’impression que la traduction automatique est parfaite, elle est ce qu’elle est actuellement. Elle a toujours besoin de l’intervention d’un humain dans le processus pour lui donner ce petit supplément de qualité.

Dans le chat en direct, par exemple, il y a une personne qui parle avec une autre personne, ce qui signifie que les erreurs sont corrigées beaucoup plus rapidement. Si vous dites quelque chose qui n’a pas de sens, la personne à l’autre bout pourrait dire « Comment ? Je n’ai pas compris », et vous essayez alors de retraduire.

Cela signifie essentiellement que vous êtes votre propre évaluateur qualité, car au bout du compte, ce que vous voulez, c’est un dialogue qui fonctionne.

L’importance de l’évaluation de la qualité

L’évaluation de la qualité (que nous utilisons pour évaluer la qualité d’un système de traduction sans avoir accès à des traductions de référence ni à une intervention humaine), est le secret de la traduction automatique. En fait, certaines personnes ont prétendu que cela pourrait résoudre la question « quelle traduction est la bonne ? », car nous disposons maintenant d’un système qui évalue la qualité d’une traduction. Cela ne signifie pas nécessairement qu’une traduction est la bonne, mais que c’est une traduction correcte.

Cependant, l’évaluation de la qualité souffre des mêmes difficultés que la traduction automatique, ce qui veut dire que vous pouvez en attendre le même niveau de précision. Le problème majeur de la traduction automatique est qu’elle fait toujours des erreurs car une langue est très difficile à cerner. Soit à cause de modèles trop simples en raison de la puissance de calcul, soit du fait que tout système d’apprentissage automatique commet des erreurs, le taux de fiabilité se situe autour de 90 %. Cela peut sembler beaucoup, mais si on y réfléchit, cela signifie qu’une phrase sur dix sera erronée.

L’évaluation de la qualité consiste à prédire ces phrases erronées, ou du moins à juger si une erreur est grave ou non. Cela permettra essentiellement d’utiliser la traduction automatique avec beaucoup plus de confiance.

Chez Unbabel, nous avons consacré beaucoup de temps à la résolution du problème de l’évaluation de la qualité. L’équipe spécialisée dans l’IA est celle qui s’y attelle principalement, à la découverte de nouveaux modèles. Les équipes de l’IA appliquée et de la production investissent beaucoup de travail également, pour répondre à des questions telles que :

  • Comment cela fonctionne-t-il pour le flux de traduction ?
  • Est-ce évolutif ? Avons-nous besoin de changer d’objectif ?
  • Comment cela marche-t-il avec nos données pratiques ?
  • Comment adapter ces modèles ?

Étant donné que l’intelligence artificielle fondamentale fonctionne principalement avec des données de domaine génériques, l’IA appliquée doit la reprendre et s’assurer qu’elle est adaptée à la réalité des discussions ou des tickets de support, qu’elle fonctionne avec des tons différenciés ou non. Puis il faut intégrer les résultats de l’équipe de recherche dans le produit.

Nous avons pleinement confiance dans nos systèmes d’évaluation de la qualité. Nous croyons également en la recherche reproductible et collaborative. C’est pourquoi, il ya quelques mois, nous avons créé Open Kiwi : une infrastructure logicielle open source qui implémente les meilleurs systèmes d’évaluation de la qualité, ce qui facilite grandement l’expérimentation et l’itération avec ces modèles dans la même infrastructure logicielle, ainsi que le développement de nouveaux modèles.

Nous avons probablement été l’une des premières entreprises à utiliser l’évaluation de la qualité en production et nous menons des recherches sur le sujet depuis très longtemps. Cela signifie que nous avons de meilleurs modèles et une meilleure compréhension du problème que d’autres entreprises ou chercheurs travaillant sur l’évaluation de la qualité.

Et le gagnant est …

C’est pourquoi j’ai été très heureux que nous retrouvions notre titre de Meilleur système global d’évaluation de la qualité de traduction automatique au Congrès mondial de traduction automatique plus tôt cette année. De plus, nous avons également remporté le concours concernant la post-édition de traduction automatique.

C’était très important pour nous pour deux raisons. La première est l’impact de l’évaluation de la qualité sur notre flux de production et le retour sur investissement que nous en tirons. Pour cela, peu importe que nous gagnions un concours ou un autre.

Cependant, remporter de tels prix prestigieux signifie la reconnaissance de la marque Unbabel, essentielle pour attirer l’attention des clients et des investisseurs. C’est également une reconnaissance importante pour l’équipe spécialisée dans l’IA, dont le travail est parfois difficile à comprendre et n’est pas toujours reconnu à sa juste valeur. L’IA est à la fois risquée et payante. On peut y travailler pendant un an et n’aboutir à rien. Par exemple, tout le travail que nous avons effectué sur notre évaluation de la qualité humaine n’a pas fonctionné, car nous n’avions tout simplement pas les bons outils pour cela.

Ces récompenses aident donc à asseoir notre notoriété, pour mieux faire connaître le nom d’Unbabel dans les affaires et dans le monde universitaire, mais elles sont également excellentes pour le moral. Unbabel est une entreprise entièrement centrée sur l’IA. Nous ne nous contentons pas d’utiliser l’IA ; en fait, nous créons et découvrons l’IA qui n’existe pas encore. Le fait que nous soyons reconnus à l’échelle internationale pour cela a pour moi la plus grande importance. Je pense que mon moi mathématicien en herbe de 9 ans serait fier.