细看 Unbabel屡获殊荣的翻译质量评估系统

1 min read

我们对于 Unbabel有一个宏大的愿景, 就是在机器智能翻译的程度上提供人类质量的翻译。但是,我们如何知道我们做得好不好呢? 

对于我们来说,质量是拥有良好的初始文本从而进行翻译的融合,提供资料给我们的域名编译的机器智能翻译,然后智能分发这些资料输出到组织化的社区编辑员,我们提供他们工具和辅助,让他们检查丶译后编辑并以最快的速度批准内容。

首先,这里是我们在语言管线化里测量丶控制和优化质量的多种方式。

质量审核和注解

我们实施客户定期质量审核,每周采样数据注解,测试假设和运行深度分析,而我们从中发现我们的语言管线化有高于标准的误差。我们在这里使用行业标准指标 MQM,或稱為多维质量度量来客观地与第三方和开源翻译库比较我们的翻译表现。 

我们的注解过程是由一群具有翻译研究和语言学背景的专家所处理,他们能够在我们的平台建造深度的知识储存库丶提升整体质量丶减少交付的周转时间。 

客户定制

我们在 Unbabel为每一个客户创建和维护术语表,确保特定指示丶品牌指引和表达的语气有遵从这些术语。当与特定的客户沟通时,我们社区的编辑员都能够访问这些翻译任务旁的信息以获得更良好的语境,进而确保更高的质量丶更快的周转时间。 

编辑员评价和编辑工具

通过我们的社区和学术界的合作者的支持,我们对我们社区的语言反馈执行持续评估。我们创造类似真正任务的练习任务以准确地衡量我们的编辑员,并产生语言指引来训练社区以避免常见错误。 
有了自然语言处理的研究员和其他领域专家的帮助,我们能够开发如 Smartcheck的工具,它提供提醒和建议给我们社区的编辑员以帮助校对 ((可以把这当作一个更有效的多语言拼写检查版本)。 

Unbabel屡获殊荣的质量评估系统

Unbabel的翻译管线化 的其中一个关键部分 是我们的质量评估系统,其作用是标识不正确的语句,以为翻译的语句提供自动化的质量分数,使人工译后编辑员对 需要修正的句子部分 更加注意。 
让我们想象一个源句,如 “您好,我对此感到遗憾!(Hey there, I am sorry about that!)” ((这是一个我们 Zendesk整合的真实例子)). 
现在,想象一下自动翻译成目标语言为葡萄牙语的这句话 “您好,我很抱歉关于那!(Hey lá, eu sou pesaroso sobre aquele!)” ((不幸的是,這也是一个真实的例子, 在这情况下,翻译结果非常不准确并且是葡萄牙语的直译, 而这还是通过 流行的机器翻译系统检索的)). 
在这个例子中,我们的系统把所有无标点符号的词标记为不正确的,并给了0.222这个非常低的分数。 

我们为什么要那么注重质量评估? 首先,有 证据 显示质量评估让人工译后编辑员的工作变得方便很多。精确定位不正确的语句可以帮助他们特别注意那些可能需要修正的某些句子部分。
其次,它能检测还没准备好交付给客户的句子,若自动质量分数低于阈值,就得寻求人工修正。这使的Unbabel在交付 一致的丶 高质量的翻译上走向正确的方向。
质量评估 是机器智能翻译会议/研讨会(WMT)的年度活动中, 重要的共同任务之一 (。每年,这些活动会评估和比较来自全球学术界和业界的最好系统。2016年,我们聚集一个团队 ((包含 都柏林城市大学的博士生Chris Hokamp,他在欧盟资助的专家网络范围 下跟我们实习)並首次参与词级的评测。
我们的系统压倒性地获得胜利 ((F1分数为49.5%,而最好的非Unbabel系统获得了41.1%),, 方法是使用集结的三个独立神经网络系统来结合句法特征, 与基于特征的线性模型。
这些结果是非常鼓舞人心的,但问题还远未解决。如果 它可以被解决, 那么机器智能翻译将也几乎可以被解决,因为机器可以查询质量评估系统来评估一长条的候选翻译清单和检索最好的翻译。

使用自动译后编辑打破我们自己的世界纪录, 

那么我们要如何进一步改善呢? 另一种我们在 Unbabel 使用的科技为自动译后编辑 ((APE),其中的目标不是 检测 错误或评估机器翻译的质量,而是 自动地 修正 翻译。 
在我们上述的例子中,一个好的译后编辑结果会把錯誤的 “您好,我很抱歉关于那!(Hey lá, eu sou pesaroso sobre aquele!)” 转变成类似 “您好,我对所发生的事情感到抱歉。(Olá, peço desculpa pelo sucedido)”
鉴于质量评估和自动译 后编辑任务之间的自然相似性,我们决定努力看看使用自动译 后编辑系统的输出作为附加功能可以达到多好的质量评估。
为了测试这一假设,我们來自亚当密茨凯维奇大学(AMU)的Marcin Junczys-Dowmunt的团队合作 (,该团队赢得了 WMT 2016的 自动译后编辑任务,并且在使用”双向翻译” 和运用对数线性模型结合单语和双语神经机器智能翻译 以创建额外数据一直非常成功。
结果超出了我们最好的预期:通过名为”层叠集合”的技术,我们结合AMU自动译后期编辑系统和我们以前的质量评估系统 ,而结果非常惊人: 我们把以前最好的词级分数从49.5%提升到最目前最顶尖的57.5% ((进步了8个绝对百分点)。 
我们还成功地建立句子质量评分系统,获得 65.6%的 Pearson相关分数,这比先由Yandex开发 的最佳系統 进步了13个绝对百分点
我们在质量评估所获得的持续成功意味着我们可以使它实际上可行,从而减少译后编辑的时间,确保快速丶高质量的翻译给 Unbabel公司的客户。 


完整的详细内容都可在我们的TACL论文中找到 ((请查阅 这里 获得草稿),该论文刚刚接受出版:
2017年计算语言学协会学报 “推动翻译质量评估的极限。”
– André F. T. Martins,Marcin Junczys-Dowmunt,Fabio N. Kepler,Ramon Astudillo,Chris Hokamp. ((即将出版)。

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon