Um olhar mais atento sobre os premiados sistemas de estimativa da qualidade da tradução da Unbabel.

7 min read

Temos uma visão enorme para Unbabel para fornecer traduções de qualidade humana na escala de tradução automática. Mas como sabemos que estamos a fazer um bom trabalho? 

Para nós, a qualidade é uma mistura de ter um bom texto inicial com o qual podemos trabalhar, alimentando-o através do nosso domínio adaptado de tradução automática, e, em seguida, distribuir inteligentemente estas saídas para uma comunidade de editores tutelada, que apoiamos com ferramentas e ajudas que lhes permitem rever, pós-editar e aprovar o conteúdo o mais rapidamente possível.

Primeiro, aqui estão as várias maneiras com que medimos, controlamos e otimizamos a qualidade em toda a nossa pipeline de idioma. 

Auditorias de Qualidade e Anotações

Realizamos periodicamente Auditorias de Qualidade aos nossos clientes e anotações semanais de dados amostrados, testando hipóteses e executando análises profundas, onde encontramos mais erros do que é normal na nossa pipeline. Nós aqui usamos a métrica padrão da indústria, MMQ ou Métrica Multidimensional de Qualidade, para poder objetivamente comparar a nossa performance com terceiros e bibliotecas de tradução de fonte aberta. 

O nosso processo de anotação é conduzido por um grupo de especialistas com experiência em Estudos de Tradução e Linguística, que são capazes de criar uma reserva profunda de conhecimentos dentro da nossa plataforma que, por sua vez, aumenta a qualidade geral e diminui o tempo de resposta da entrega. 

Personalização de Cliente

Na Unbabel criamos e mantemos glossários para cada cliente e certificamo-nos de que as instruções específicas, linhas de orientação da marca e tons de voz são respeitados. Os editores na nossa comunidade são capazes de aceder a essas informações juntamente com as tarefas de tradução para terem noção do contexto quando trabalham com comunicações específicas do cliente, garantindo uma ainda maior qualidade e mais rápida resposta. 

Avaliação de Editores e Ferramentas do Editor

Apoiado por colaboradores da nossa comunidade e academia, realizamos avaliações contínuas à nossa comunidade com feedback linguístico. Criamos Tarefas de Treino que se assemelham a tarefas reais para definirmos com precisão os nossos editorese produzimos linhas de orientação linguística para ajudar a educar a comunidade a evitar erros comuns. 
Com a ajuda de investigadores no Processamento Natural de Idiomas e outros especialistas, somos capazes de desenvolver ferramentas como o SmartCheck, que fornece alertas e sugestões à nossa comunidade de editores para ajudar na revisão (imagine uma versão super potente e multilingue da verificação ortográfica). 

O Sistema Premiado da Unbabel de Estimativa de Qualidade 

Um dos componentes chave do conjunto de conteúdos Unbabel é o nosso Sistema Estimativo de Qualidade, que identifica as palavras que estão incorretas, de modo a fornecer uma pontuação automática de qualidade dada a uma frase traduzida, permitindo aos editores humanos prestarem especial atenção às partes das frases que precisam de ser alteradas. 
Vamos imaginar uma frase de origem como Hey there I am sorry about that!” (um verdadeiro exemplo da nossa integração Zendesk). 
Agora, imagine uma tradução automática desta frase para um idioma de destino como português, tal como Hey lá, eu sou pesaroso sobre aquele! ” (infelizmente, também é um exemplo real neste caso, uma tradução para português muito imprecisa e excessivamente literal obtida por um sistema de TA popular). 
Neste exemplo, o nosso sistema marca todas as palavras não pontuadas como incorretas e atribui uma pontuação muito baixa de 0,222. 

Por que nos importamos de todo sobre a estimativa de qualidade? Primeiro, há a evidência de que a estimativa de qualidade faz com que o trabalho dos editores humanos seja muito mais fácil. Ao identificarmos palavras incorretas ajudamo-los a prestar atenção especial a certos segmentos das frases que provavelmente precisam de ser corrigidos. 

Em segundo lugar, permite detetar se uma frase ainda não está pronta para ser entregue aos nossos clientes, se a pontuação automática de qualidade estiver abaixo de um determinado limiar e precisar de um ser humano para melhorá-la. Isso coloca a Unbabel no caminho certo da entrega consistente de traduções de alta qualidade. 

A estimativa de qualidade é uma das principais tarefas partilhadas na campanha anual de Conferências/Workshops sobre Tradução Automática (WTA). Todos os anos, estas campanhas avaliam e compararam os melhores sistemas a nível mundial, tanto do meio académico como da indústria. Em 2016, reunimos uma equipa (incluindo Chris Hokamp, um estudante de doutoramento da Universidade da Cidade de Dublin, que estagiou connosco no âmbito da rede EXPERT financiada pela UE ) e participámos pela primeira vez na referenciação ao nível das palavras. 

O nosso sistema ganhou a competição por uma grande margem (uma pontuação F1 de 49,5%, contra os 41,1% obtidos pelo melhor sistema não pertencente à Unbabel), combinando um modelo linear baseado em recursos com características sintáticas, com três sistemas de redes neurais independentes, a trabalhar em conjunto.

Estes resultados foram muito encorajadores, mas o problema ainda estava longe de ser resolvido. Se estivesse , então a tradução automática também estaria quase resolvida, já que se poderia consultar um sistema de estimativa de qualidade para avaliar uma longa lista de traduções propostas e selecionar a melhor.

Bater o nosso próprio recorde mundial com a Pós-Edição Automática 

Então, como poderíamos melhorar ainda mais? Outra tecnologia que usamos na Unbabel é a Pós-edição Automática (PEA), cujo objetivo não é detetar erros ou avaliar a qualidade da Tradução Automática, mas sim corrigir automaticamente uma tradução. 

No nosso exemplo acima, um bom resultado seria transformar o grave Hey lá, eu sou pesaroso sobre aquele!” em algo como Olá, peço desculpa pelo sucedido.”

Dada a semelhança natural entre as tarefas de Qualidade de Estimativa e as de Pós-Edição Automática, decidimos unir esforços para ver como poderíamos conseguir uma Qualidade de Estimativa melhor usando o resultado de um sistema de Pós-Edição Automática como um recurso adicional.

Para testar a hipótese, juntámo-nos a Marcin Junczys-Dowmunt, da Universidade Adam Mickiewicz (AMU), a equipa que ganhou a tarefa de Pós-Edição Automática no WMT 2016, e que tem sido extremamente bem sucedida através da criação de dados adicionais usando traduções de ida e volta” e combinando sistemas neurais monolinguais e bilinguais de tradução automática com um modelo linear.

Os resultados superaram as nossas melhores expectativas: combinando o sistema de pós-edição automática AMU e o nosso anterior sistema de Estimativa de Qualidade através de uma técnica chamada combinação empilhada”, os resultados foram surpreendentes: melhorámos a nossa anterior melhor pontuação ao nível de palavra de 49,5% para uma nova pontuação de última geração de 57,5% (uma melhoria absoluta de 8 pontos percentuais). 

Conseguimos também construir um sistema de pontuação de qualidade para frases, obtendo uma contagem de correlação de Pearson de 65,6%, um ganho absoluto de mais de 13% sobre o melhor sistema anteriormente desenvolvido pela Yandex.

O nosso sucesso continuado aqui significa que nós podemos fazer uma estimativa de qualidade útil na prática, reduzindo os tempos de pós-edição e garantindo aos clientes da Unbabel traduções rápidas e de alta qualidade. 

 


 

Os detalhes completos estão no nosso artigo da TACL (ver aqui um rascunho), recentemente aceite para publicação:

André F. T. Martins, Marcin Junczys-Dowmunt, Fabio N. Kepler, Ramon Astudillo, Chris Hokamp. “Pushing the Limits of Translation Quality Estimation.”(Empurrando os Limites da Estimativa da Qualidade de Tradução.)

Em Transactions of the Association for Computational Linguistics, 2017 (publicado em breve).

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon