Unbabel 的语言管线化如何让所有译文具有人工翻译质量

1 min read
Unbabel Translation

在一年 380 亿美元的翻译与本地化服务市场,获益最大的公司是军事承包商,其一年收益达 7 亿 3 千万美元。其余排名前 10 位的公司每年则获益 8 千万到 4 亿 3 千万美元不等。

这是一个相当分散的市场,许多公司均以非常相似的商业模式运营,一方面市场应对客户需求,另一方面大量专业译员根据他们的技能、经验和价格竞标工作。一旦竞标胜出,每名译员发挥其技能每次翻译一段内容。若需要更多语言,则聘请更多译员。

这是该行业一直以来的运作模式。但近期历史表明,不具备扩展性的市场将无法持续经营。一旦发现新的经营方式,就会有尚未开发的巨大新市场等待各方角逐。

Translation Market

对 Unbabel 而言,目前的翻译现状就存在问题。

如何翻译所有内容?

如果希望将世界上所有信息都翻译成每一种语言,且同步做到,那将会如何?不仅仅是法律文件、条款和条件以及产品目录,还有每封电子邮件、每个聊天会话、每段字幕、每一份可以想到的内容。

为了应对这一挑战,需要从根本上重新思考翻译的运作原理。这不仅仅是“投入更多人力”的问题,还有软件本身,翻译过程在软件中可被定义,并不断完善以产生更高质量的成果。

一些科技公司已然了解该行业的发展趋势,但却没有看到大多数企业和组织在最先进的机器翻译与听起来似乎“老式”的方式(如真正人工翻译)之间弥合巨大差距的需求。

要切实解决这个差距,现代企业需要一种解决方案,既可以了解上下文语境的语气和风格以及潜在文意,又能指出快速全自动翻译所忽略的错误。

鞋匠与制鞋

要了解 Unbabel 的翻译方式,可以想象 18 世纪的制鞋业。

对整个人类历史而言,鞋子都由手工一只只做出来。在这样的个人化规模下,每一双鞋都以时间和精力为代价而制作,因此只有少部分人可以享受这个服务。

但到了十八世纪中叶,制鞋业开始以前所未见的规模商业化。

工业化世界的人们随即带来家庭工业的爆炸性成长,成千上万的鞋匠全天候努力工作以迎合市场的需求(如前面所提到的大量翻译机构一般)。

拿破仑战争推动了生产过程的机械化,著名英国工程师马克·布鲁内尔(Marc Brunel)为英国军队开发了大批量生产士兵靴子的机器。

一名参观他位于 Battersea 工厂的访客写道:

“工厂的每一个步骤均由最优质和精密的机械生产……所有细节都通过机械力量的巧妙应用而进行;所有零部件均体现精密、一致和准确性。由于每个人在制鞋过程只执行一个步骤,这意味在他之前或之后的人并不了解整个生产程序,所以被雇用的人不是鞋匠,而是受伤的士兵,他们能够在几个小时内就了解各自的工作职责。”

如果希望完全消除语言障碍,如果希望每个人无论使用什么语言,无论通过什么媒介都能理解别人并被别人理解,那么就需要将翻译问题规划到更高水平,而不只是“更多的人”。

需要将过程分解成一系列步骤,由机器进行精密、一致和准确的工作,使用人力在关键步骤间亲自指导,而并不一定需要曾经独立完成这项工作的专家来进行。

这个原理与布鲁内尔的鞋厂有些类似。

Unbabel 的语言管线化

保证 Unbabel 翻译质量的不是译员本身的素质,而是管线化以精密、一致和准确的步骤产生的品质,即使专业译员水平也会参差不齐,并且容易出现人为错误(毕竟是人类)。

人力工作仍然需要,但用在关键时刻,他们校正和编辑机器的工作,而不是负责完成整项工作。它消除了人的依赖性,但却大大提高了整体质量校正的价值,并使内容产出量呈指数级增长。

Unbabel 高层级的一端以源语言获取文本内容,并以其中一种或全部 27 种其他目标语言将其发送给客户。

仔细检视这个过程,A 和 B 之间还会有一些其他步骤。

Translation Pipeline

订单

订单是指需要翻译的文字。它可以是像 Salesforce、Zendesk 或 Freshdesk 这类平台中的客户服务电子邮件,也可以是全球电子商务平台上的数百万个产品说明之一,或者是数百小时视频素材的字幕。

每个内容类型将具有各自的待处理自定义流程,将不同的优先级权重置于质量和速度方面,但整体流程对所有文本均为相同。

准备

在这个阶段,Unbabel 分析源文本,检测和确定将会影响整个管线化流程的一系列因素。

首先,根据 Unbabel 客户发来的文字采取一些步骤。自定义词汇表和风格指南是载入管线流程的一部分,它们会被自动标记在订单中,而敏感信息(如信用卡号)则被散列和匿名化。

对源语言还要进行复杂的分析,检测难以翻译的元素,如位置、名称和地址,并根据使用的词汇、句子长度和其他语法模式评估文本的整体难度。

将这些数据和其他有关文档语气(正式与非正式)等见解相结合建模,并检测文本主题,根据特定编辑人员表明的兴趣(旅游、体育、医疗、娱乐等)将内容智能分配。

Unbabel 的适配机器翻译

Adapted Machine Translation

一旦准备工作开始,翻译的第一项任务全部由机器完成。

开始时,Unbabel 会检查它的翻译记忆库,这是一个巨大的动态数据存储库,确保如果完整句子已经为同一客户或在相同领域翻译过,则该句子将被检索并再次使用,这样会提高完成速度和翻译的一致性(如果语境不对,后面仍然可以由人工编辑进行修改)。

下一步是通过机器翻译路由器,根据内容、领域和客户(客户电子邮件与手工制作的奢华手表的产品描述有不同要求),选择最好的专业机器翻译引擎。

机器翻译的内容然后送往自动译后编辑器,Unbabel 会学习人类网络过去已经完成的任务来自动改进这些翻译。这将产生一个新的內容版本,以评估质量(使用我们屡获殊荣的质量估算系统)并分发给 Unbabel 社区的适当人工翻译校订员。

校订员选择

Editor Selection

Unbabel 的全球社区拥有 50000人,他们的任务是审查这个适配机器智能翻译的成果。但如何知道谁接下了什么样的任务?

校订员的选择有多个标准,但主要在于:谁有时间、他们在某些类型内容方面的评分如何以及任务需要完成的急迫程度。

任务优先级由客户服务水平协议和其他因素来判断,并以绿色和红色队列排序。所有任务从绿色队列开始,理想情况下没有红色队列,但这是为了备份和重复校验,确保可以在期限前完成。

Smart editor selection

此外,我们一直运行测试,显示与编辑员所配对的是他们有兴趣并可以表现更好的任务。

智能检查

Smartcheck

一旦适当人员获得适当任务,Unbabel 会帮助他们在尽可能少的时间内做出最好的工作。

Unbabel 的 Smartcheck 就像普通文档编辑器中语法校正的增强版。它检查一系列潜在错误,方法是使用一触式更正的有用建议,包括拼写、音调、词汇一致性(主题和动词一致;代词匹配,性别等)以及与客户要求相关的更具体的规则。

让每位校订员阅读每个客户的风格指南效率较低,因此 Smartcheck 会自动覆盖整个文本进行提示,可以快捷纠正非语法错误,如主格和宾格的调整或将号码写成文字而不是数字 。

Unbabel 的自学网络

Network

整个流程的神奇之处在于,Unbabel 翻译得越多,该系统产生的结果就会越好。机器智能翻译引擎可以不断反复训练,翻译记忆库可以不断扩大,自动译后编辑随着每次处理的新文本而不断改善。

赋予它的翻译越多,获得的质量就会更好。

国际化企业如 Pinterest、Skyscanner、Under Armour、Trello 和 Oculus VR 都相信 Unbabel 的企业平台会为它们开启和发展更广阔的新市场。

要安排演示,请即刻联系我们

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon