“A estimativa de qualidade é tudo o que falta na Tradução Automática”.

5 min read

Disse-me no noutro dia João Graça,co-fundador e diretor de tecnologia da Unbabel, enquanto estávamos a tomar café. A verdade é que as máquinas nem sempre conseguem fazer tudo correctamente e todos sabemos como uma má tradução pode ser embaraçosa.

Mas como é que sabemos que uma tradução automática é má? É possível perceber onde é que as coisas correram mal? Acontece que há todo uma área que estuda esta questão e o João e o André Martins, chefe de investigação da Unbabel, são dois dos principais investigadores mundiais.

Sentei-me com os dois para discutir o premiado sistema de Estimativa de Qualidade da Unbabel e como funciona, assim como as nossas ferramentas de pós-edição automáticas. Dois tópicos que serão discutidos no AMTA 2018 (Associação para Tradução Automática nas Américas) numa formação liderada pela equipa da Unbabel a 21 de março 2018.

O que é a Estimativa de Qualidade da Tradução?

O objetivo da Estimativa de Qualidade é avaliar a qualidade de um sistema de tradução sem acesso a traduções de referência. De acordo com André Martins, pode ser usado de muitas maneiras diferentes:

  • Informar um utilizador final sobre a fiabilidade do conteúdo traduzido
  • Decidir se uma tradução está pronta para ser publicada ou se requer edição humana
  • Destacar as palavras que precisam de ser alteradas

“A ideia é fornecer uma tradução rápida e reduzir os seus custos”.

Mas como funciona o nosso sistema de Estimativa de Qualidade da Tradução?

Estimativa de Qualidade da Tradução, um sistema premiado da Unbabel

Temos trabalhado com a Estimativa de Qualidade da Tradução e as ferramentas automáticas de pós-edição desde que a Unbabel foi fundada há quase 5 anos. Ambos nos permitem fornecer traduções de qualidade humana à escala da tradução automática.

Nas palavras de João Graça, “temos, na Unbabel, um sistema de estimativa de qualidade premiado que garante que, se uma tradução não estiver suficientemente boa para ser entregue, esta seja revista pela nossa comunidade de 55.000 editores, que podem corrigir os erros rapidamente e fornecer uma tradução de alta qualidade aos nossos clientes. E quanto mais traduzimos, mais o sistema aprende e menos erros comete.

Isto faz com que o sistema de Estimativa de Qualidade seja um dos componentes principais da linha de tradução da Unbabel.

Mas, como é que isto é possível?

Verificamos as correções feitas pelos editores à tradução automática, recolhendo dados que nos permitem entender o tipo de correções que os editores costumam fazer. Isto permite-nos detetar padrões, que nos ajudam, quando temos textos semelhantes, a saber exatamente o que precisa de ser editado antes de envolver humanos no processo.” — André Martins.

Se a tradução tiver uma boa pontuação, é enviada para o cliente sem nunca envolver humanos no processo. No entanto, quando a pontuação é baixa, o sistema identifica as palavras que estão incorretas, permitindo que os pós-editores humanos prestem especial atenção às partes das frases que precisam de ser alteradas.

Mas isso não é tudo. “Também desenvolvemos uma ferramenta chamada Smartcheck [Verificação Inteligente] que identifica erros de gramática ou opções em desacordo com as instruções do cliente, explicou André.

E a pós-edição automática?

Podemos pensar na estimativa de qualidade como uma maneira de detetar erros na tradução e na pós-edição automática como uma forma de corrigir esses erros“, disse André Martins.

Na Unbabel, também combinamos a Estimativa de Qualidade com a pós-edição automática e temos visto grandes benefícios ao utilizar estas duas tecnologias em conjunto.

Dada a semelhança entre a Estimativa da Qualidade e a Pós-edição Automática, decidimos juntar os nossos esforços para ver como conseguir melhores resultados. Por essa razão, juntamos forças com Marcin Junczys-Dowmunt, da Universidade Adam Mickiewicz e combinamos o seu sistema automático de pós-edição com nosso sistema de Estimativa de Qualidade. Os resultados foram bastante impressionantes. Melhoramos o nosso melhor índice a nível da palavra de 49,5% para uns impressionantes 57,5%, e fomos capazes de construir um sistema de pontuação de qualidade para as frases.” – explicou João Graça.

Workshop da Unbabel no AMTA 2018

A Estimativa de Qualidade é um tópico que é frequentemente discutido em investigação, mas, de acordo com João Graça, “não tanto na indústria“. Então, a ideia para este workshop é “reunir pessoas que trabalhem em Estimativa de Qualidade e ver como esta foi usada em vários sistemas diferentes“, como me explicou o João.

Isto permitirá uma melhor compreensão global do sistema de Estimativa de Qualidade, tornando-o mais útil para o setor.

Se tiveres interesse em saber mais sobre o sistema de Estimativa de Qualidade da Unbabeldá uma vista de olhos, e se estiveres em Boston no final de março, junta-te ao workshop AMTA 2018,.

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon