Unbabel是如何提升翻译质量和速度的?

1 min read

为全世界建立一张翻译网络是一项激动人心的使命。这意味着我们要成为一项覆盖面深远的服务,我们可以结合利用多种人工智能技术(机器智能翻译和多种机器学习机制),以及不断增长的双语人才全球社区, (无论何时何地都能消除沟通的障碍。 

这也意味着我们每秒都要获取、处理和分发大量数据,同时要保证达到我们客户的质量和速度要求。 

如果你还不了解Unbabel的工作原理,你可以 在此处阅读更多的信息,不过我们在这里先给大家简单介绍一下: 

translation pipeline

  1. 我们的翻译任务会通过我们的API,或者 Salesforce Zendesk这样的平台来获取
  2. 我们的人工智能翻译流程将会接受任务,并将其发送至机器智能翻译引擎,这个引擎已经根据内容类型或者客户要求进行过定制化。
  3. 当机器智能翻译引擎完成处理后,质量评价系统 (QE)就会评估输出内容的质量。如果质量过关的话,任务会立刻被发送到来源的请求系统。
  4. 如果QE认定任务需要人工参与最终调整,那么任务的文本会被分成多个段落,然后发送到我们的社区。
  5. 当社区完成最终调整时,分散的段落会被重新组合成的最终文本,然后交付。

上面提到的是已经简化过的流程,实际上从输入到输出之间还有很多需要交接的地方。那么,我们如何在这种工作流下同时保持高质量和高速度呢? 

提升质量

Unbabel的AI之所以能持续改进,不仅是因为我们的AI团队在不懈地完善现有的核心算法,也因为它能够从自己的处理结果和我们收集的专有数据中不断学习。

例如,其中一种我们可以利用的数据是语言专家在已翻译任务中给出的标注。我们有一支由全球语言专家组成的团队,他们昼夜不停地为我们的翻译内容进行标注,让我们有足够的定性和定量信息来确定哪些做法是可行的,哪些做法还可以改进,从而进一步提高我们整个工作流持续产出高质量翻译结果的能力。 

我们也可以重新调整原有的机器学习模型,并定期对它们进行更新。更多的数据意味着更好的模型,从而带来更高的机器智能翻译质量。 

AI训练自动化 

要实现健康的开发流程,其关键是持续小幅改进和经常部署。这是我们常见的最佳实践方式,你可以在任何开发运营书籍中找到。我们进一步发挥了这项原则,并将其应用在我们的AI训练当中。

developers deploy systems

通过自动编排流程,我们实现了完整操作的自动化:

  1. 在闲置数据储存 进行 ETL操作
  2. 对数据进行匿名化处理 —— 这是为了移除任何可识别个人信息和其他敏感数据;我们不需要也不想要这些数据,这样做可以避免这些数据遭到泄露的风险。
  3. 转换数据,并将其载入到Unbabel的训练系统中,启用基于并行GPU的训练系统 
  4. 利用 健全性测试 套件检索并测试训练模型的结果
  5. 以新模型更新AI服务器

由于我们提供的是基于客户和类型的 值域适应,这个操作会在所有模型上执行,确保我们的机器智能翻译引擎始终保持最新状态,并利用我们可以提供的最新数据。

交付 

我们的软件工程架构是为了简便、垂直和水平的扩展而设的。利用 微服务(microservice) 模型,我们可以扩展或缩小翻译流程中的某个特定步骤,提高整体的效率。 

我们大部分的服务器都以 容器(container) 技术为基础,因此,AI服务器的更新将与系统任何其他部分的更新一样简单。微服务和容器体现了不变架构(immutable architecture)的概念,其中所有部件都是可以实时抛弃、替换和更新的,而且只要使用合适的方法就不会产生停机时间。

提升速度

我们前面提到的所有项目基本都能达到实时的反应时间。然而,在这些输出结果被分配给我们的双语后期编辑社区后,我们可能还需要完成许多工作才能达到客户要求的质量。 

这并不是说真人的翻译速度会更慢 确实,许多研究表明,后期编辑机器智能翻译的速度比从头开始翻译要快得多。 但是,语境的理解、可能包含的技术细节、语言歧义和其他文化相关的问题确实需要一些时间的处理,这样才能确保可接受的结果。 

改进Unbabel编辑的用户界面 

我们拥有一个由全球5万多名双语专家组成的社区,无论是我们的网页界面,还是两大移动平台上的应用,他们的用户体验是我们整个流程中最重要的一环。 

如果我们要持续在尽可能快的时间内提高翻译质量,那我们就需要不懈地改进我们的工具,让我们的编辑可以随时随地地完成翻译任务。 

我们一直在与这个优秀而投入的社区保持交流,而且我们会虚心听取他们的反馈。针对我们现有和即将部署的界面进行用户测试。监测他们在平台上的交互,并寻找新的方法来进一步提升用户体验。毫无疑问,减少摩擦,提升社区工作质量和速度,以及改善用户满意度是我们使命的核心部分。 

人工智能+真人=高质量 和高 速度

质量和速度有时可能会被认为是不可兼得的,同时提升这两个方面的确是一项巨大的技术挑战,但这是我们取得商业成功的关键。 
经常有人问我们, “翻译不能全部交给人工智能完成吗?”但是,这数十年来花费了大量经费的研究已经表明,人工智能在充分掌握人类语言的歧义、个人风格和矛盾方面始终存在差距。 

只有通过建立人工智能和人类智慧之间的共生关系,我们才能打造一张铺满全世界的翻译网络。 

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon