m’a expliqué l’autre jour autour d’un café João Graça,co-fondateur et directeur de la technologie d’Unbabel. Pour être honnête, les machines n’y parviennent pas toujours bien et nous savons tous à quel point une mauvaise traduction peut être embarrassante.

Mais comment pouvons-nous savoir si une traduction automatique est mauvaise ? Est-il possible de savoir où se situent les problèmes ? Il existe en fait tout un champ d’étude à ce sujet. João Graça et André Martins, le directeur de la recherche chez Unbabel, sont tous les deux à la pointe de la recherche mondiale dans ce domaine.

J’ai pris le temps de discuter avec eux du système primé d’estimation de qualité développé par Unbabel afin de comprendre comment ce système fonctionne, ainsi que nos outils de post-édition automatique. Ces deux sujets vont être discutés lors de l’ATMA 2018 (Association pour la Traduction Automatique en Amérique) dans le cadre d’un atelier dirigé par l’équipe d’Unbabel qui se tiendra le 21 mars 2018.

Qu’est-ce que l’estimation de la qualité de traduction ?

L’objectif visé par l’estimation de la qualité est d’évaluer la qualité d’un système de traduction sans avoir accès à des traductions de référence. D’après André Martins, ce système d’estimation de la qualité peut être utilisé de différentes manières :

  • – Informer un utilisateur final de la fiabilité du contenu traduit
  • – Décider si une traduction est prête à être publiée ou si elle nécessite une post-édition par un traducteur humain
  • – Mettre en évidence les mots qui doivent être modifiés

“L’idée ici est de fournir une traduction rapide et de réduire son coût”.

Mais comment fonctionne notre système d’estimation de la qualité de la traduction ?

Le système primé d’estimation de la qualité de traduction d’Unbabel

Nous avons travaillé sur le développement d’outils d’estimation de la qualité de traduction et de post-édition automatique depuis la création même d’Unbabel il y a de cela près de 5 ans, ce qui nous permet maintenant d’obtenir des traductions de qualité comparable à celles obtenues via des traducteurs humains, et ce à l’échelle de la traduction automatique.

Ce que João Graça exprime en ces termes : “Chez Unbabel, nous avons un système primé d’estimation de la qualité de traduction automatique qui garantit que, si une traduction n’est pas satisfaisante, elle sera examinée par notre communauté de 55 000 éditeurs, qui vont alors corriger les erreurs très rapidement et fournir une traduction de haute qualité à nos clients. Et plus nous réalisons de traductions, plus le système apprend et moins il commet d’erreurs.

Cela fait que notre système d’estimation de la qualité est l’un des éléments-clés du pipeline de traduction d’Unbabel.

Alors, comment est-ce possible ?

Nous analysons tout d’abord les corrections apportées par les éditeurs sur le texte initial obtenu par traduction automatique. Grâce aux informations recueillies, nous pouvons repérer le type de corrections généralement effectuées par les éditeurs. Nous pouvons alors identifier des schémas qui nous permettent ensuite, pour des textes similaires, de savoir exactement les modifications à apporter automatiquement, avant d’impliquer des traducteurs humains dans le processus.» —André Martins.

Si la traduction obtient une bonne note, alors elle est directement envoyée au client, sans même avoir dû impliquer des traducteurs humains dans le processus. Au contraire, lorsque la note obtenue est faible, le système identifie les mots qui sont incorrects, ce qui permet aux post-éditeurs humains d’accorder une attention particulière aux parties des phrases qui doivent être modifiées.

Mais ce n’est pas tout. “Nous avons également développé un outil appelé Smartcheck qui recherche les erreurs grammaticales et les éléments qui ne respectent pas les directives que le client nous a fournies” m’a expliqué André.

Qu’en est-il de la post-édition automatique ?

Vous pouvez voir le système d’estimation de la qualité comme un moyen de détecter les erreurs dans la traduction automatique et voir la post-édition automatique comme un moyen de corriger ces erreurs” a déclaré André Martins.

Chez Unbabel, nous avons également combiné l’estimation de la qualité et la post-édition automatique et nous avons vu les énormes avantages qu’il y avait à associer ces deux technologies.

Compte tenu de la similitude entre l’estimation de la qualité et la post-édition automatique, nous avons décidé de conjuguer nos efforts pour voir comment nous pourrions obtenir de meilleurs résultats. Nous nous sommes donc associés à Marcin Junczys-Dowmunt, de l’Université Adam Mickiewicz, et avons combiné leur système de post-édition automatique avec notre système d’estimation de la qualité. Les résultats obtenus étaient assez impressionnants. Nous avons amélioré notre note record à l’échelle du mot de 49,5 % à 57,5 % et nous avons réussi à mettre en place un système de notation de qualité à l’échelle de la phrase” m’a expliqué João Graça.

Atelier Unbabel à l’AMTA 2018

L’estimation de la qualité est un sujet souvent discuté en recherche mais, d’après João Graça “ce n’est pas tellement le cas dans l’industrie“. Donc, l’idée de cet atelier est de “rassembler des personnes qui travaillent sur l’estimation de la qualité et de faire l’état des lieux de l’utilisation de ces méthodes dans de nombreux systèmes différents” m’a expliqué João.

Cela permettra à chacun de mieux comprendre quel est l’avenir de l’estimation de la qualité et de la rendre plus utile pour l’industrie.

Si vous souhaitez en savoir plus sur le système d’estimation de la qualité d’Unbabel, et que si vous vous rendez à Boston à la fin du mois de mars, rejoignez l’atelier AMTA 2018..