Construire les différents niveaux de traduction du monde est une mission fantastique. Pour nous, cela signifie devenir un service transversal et omniprésent qui peut éliminer les obstacles à la communication n’importe où, n’importe quand, en utilisant une combinaison des technologies de l’intelligence artificielle (traduction automatique, avec un assortiment de mécanismes d’apprentissage de la machine) et une communauté mondiale où se trouve de plus en plus de personnes bilingues. 

Cela signifie également l’ingestion, le traitement et la distribution d’une quantité massive de données par seconde, tout en garantissant que les normes de qualité et la rapidité de nos clients soient satisfaites. 

Si vous n’êtes pas familier avec la façon dont Unbabel fonctionne, vous pouvez lire ici un article détaillé, mais voici un résumé : 

translation pipeline

  1. Une requête de traduction est envoyée via notre API ou via des intégrations avec des plates-formes telles que Salesforce et Zendesk);
  2. Notre pipeline de traduction IA récupère la traduction, l’envoie à la traduction automatique grâce à un moteur qui a été ajusté aux types de contenu et parfois au client;
  3. Aussi tôt que le moteur de traduction automatique aura terminé le système d’estimation de la qualité (QE), il évaluera si la qualité de la production est bonne et s’il est livré et rapidement envoyé dans le système demandeur dont il provient;
  4. Lorsque le QE estime qu’un être humain est nécessaire pour les ajustements finaux, le texte est divisé en plusieurs morceaux et envoyé à notre communauté;
  5. Pendant que la communauté termine les derniers ajustements, le texte final est à nouveau reconstitué et expédié en conséquence.

Même simplifiée, ce sont beaucoup de données mobiles évoluant d’une extrémité à l’autre. Alors, comment pouvons-nous maintenir la qualité et la vitesse avec une telle configuration ? 

Barème de qualité

L’IA Unbabel évolue sans cesse, non seulement parce que nos équipes d’IA travaillent quotidiennement à l’amélioration de son noyau d’algorithmes, mais aussi parce qu’elle apprend constamment de ses propres résultats et des données propriétaires que nous récoltons.

Un type de données auquel nous avons accès sont les annotations linguistiques faites sur le travail que nous avons déjà établi. Une équipe mondiale de linguistes experts travaillent toute la journée afin d’annoter nos traductions avec des informations qualitatives et quantitatives qui nous permettent de définir ce qui fonctionne déjà et ce qui peut être amélioré, poussant encore la capacité du pipeline afin de produire des résultats de qualité supérieure, de manière cohérente. 

Nous pouvons également revoir les modèles d’apprentissage de notre logiciel d’origine et les mettre à jour sur une base régulière. Plus de données signifie de meilleurs modèles, ce qui signifie une meilleure traduction automatique de qualité. 

automatisation de formation AI 

La clé dans le fait d’avoir un canal de développement sûr est de faire de petits incréments et de se renouveler souvent. Il s’agit là d’une bonne pratique générale qui se trouve dans tous les livres DevOps. Nous élevons ce mantra à une étape supérieure et l’appliquons dans notre formation AI.

Nous avons automatisé le processus complet en ayant un canal de planification autonome qui :

  1. effectue une procédure ETL de stockage de données au repos;
  2. Piste des données par le biais d’un processus d’anonymisation de sorte que des informations personnellement identifiables ou des données sensibles peuvent par ailleurs être retirées ; nous n’avons pas besoin ou ne souhaitons pas conserver ces données, et nous retirons le risque de les voir être déplacées là où elles ne devraient pas;
  3. Transforme et charge les données sur le système de formation Unbabel, l’activation des systèmes de formation en parallèle GPU;
  4. Récupère et teste les résultats des modèles de formation basés sur un d’ensemble de tests de conformité à la suite;
  5. Mises à jour des serveurs IA avec les nouveaux modèles.

developers deploy systems

Puisque nous livrons catégorielles et client- adaptation de domaine, Ce processus est exécuté pour tous les modèles, en veillant à ce que nous gardons notre traduction automatique toujours à jour avec les données les plus récentes que nous pouvons fournir.

Livraison 

Notre logiciel est conçu sur pour varier sans effort, verticalement et horizontalement. Avec un modèle
microservices, nous pouvons renforcer et réduire des zones très spécifiques du pipeline de traduction, augmentant ainsi l’efficacité globale. 

Une majorité de nos serveurs sont basés sur des technologies récipients et en tant que tels la mise à jour d’un serveur d’IA est tout aussi simple que la mise à jour de toute autre partie du système. Les microservices et les conteneurs vont de pair avec le concept d’une architecture immuable où toutes les parties sont à usage unique, remplaçables et évolutifs en temps réel, avec les méthodes appropriées, sans temps d’arrêt.

Barème de vitesse

Avec toutes les données que nous avons jusqu’à présent couvert, notre temps de réponse est essentiellement en temps réel. Cependant, dès que ces sorties sont distribuées dans notre communauté de post-éditeurs bilingues, il reste encore une masse de travail considérable qui se doit d’être effectuée en ordre, afin de pouvoir atteindre la qualité que nos clients attendent et exigent de nous. 

Ce n’est pas que les êtres humains sont lents à traduire En effet, la plupart des recherches montrent qu’ils sont bien plus rapides en travail de post-édition à partir d’une traduction automatique plutôt qu’une traduction à partir de rien. mais pour la compréhension du contexte, des détails techniques potentiels, les ambiguïtés linguistiques et d’autres sensibilités culturelles, il y aura toujours besoin de temps afin de s’assurer d’un résultat acceptable. 

L’amélioration des interfaces Unbabel pour les éditeurs 

Que ce soit notre interface web ou nos applications mobiles sur les deux principales plates-formes, l’expérience de l’utilisateur que nous offrons à notre communauté mondiale composée de plus de 50.000 bilingues est l’une des pièces les plus importantes du puzzle. 

Si nous voulons poursuivre avec un barème de haute qualité et un travail rendu dans le meilleur temps possible, nous avons besoin d’améliorer sans relâche les outils afin que nos éditeurs puissent travailler sur des tâches de traduction à tout moment, en tout lieu. 

Nous sommes en contact permanent avec notre formidable communauté d’engagés, et nous sommes fiers d’écouter et de prendre en compte leurs évaluations dans nos actions. Pendant les tests utilisateurs sur nos interfaces actuelles et dans des tests que nous envisageons de déployer. Mesurant leurs interactions sur la plate-forme pour trouver de nouveaux moyens d’améliorer les choses encore plus. Tout ce qui élimine les frictions et permet à notre communauté de faire du meilleur travail, plus rapidement et avec une plus grande satisfaction est absolument crucial dans notre mission. 

AI +Humain = qualité et vitesse à l’échelle

La qualité et la vitesse peuvent parfois être perçues comme des choix contradictoires, et équilibrer les deux à la fois est en effet un immense défi technologique, mais c’est la clé de notre succès en tant qu’entreprise. 

On nous demande souvent, la traduction ne sera pas effectuée par l’intelligence artificielle uniquement ? » Des décennies et des milliards de dépenses dans la recherche ont montré qu’il y aura toujours un écart à saisir pleinement l’ambiguïté et les paradoxes du langage humain. 

Seulement en entretenant la relation symbiotique entre l’intelligence artificielle et humaine on peut construire un niveau de traduction mondiale.