Muitas grandes empresas como a Google, a Microsoft, a Yahoo, a Yandex, a eBay e a Amazon criam e testaram sistemas de Tradução Automática (MT) de uso genérico, que recorrem a milhões e milhões de dados (como, toda a rede de Internet), para ajudar a compreender conteúdos on-line escritos noutras línguas.

Se for um observador atento do mundo da MT, poderá ter lido que todas as empresas mencionadas acima, recentemente, modernizaram-se e passaram para a “MT Neural”. No entanto, MT Geral ≠ MT Empresarial.

A qualidade melhorou, sem dúvida. No entanto, um sistema MT de propósito generalista é como um peixe fora da água quando usado num domínio diferente daquele onde foi testado (normalmente notícias, procedimentos do Parlamento, etc). Ligue um desses sistemas MT ao seu email e tenha conversas com clientes internacionais ou comunique informações de negócios decisivas, como descrições de produtos, e as coisas começam a soar estranhas muito rapidamente.

Tons formais e informais misturam-se, nomes de entidades são mal traduzidos, termos de marca que deveriam permanecer os mesmos tornam-se confusos e muitos outros erros são feitos automaticamente. Tudo isto, faz com que o conteúdo seja inapropriado para o efeito num ambiente empresarial.

Não há dúvida de que as tecnologias de redes neurais estão a melhorar consideravelmente a MT (sobretudo em termos de fluência), mas ainda há uma enorme distância entre essas tecnologias e a qualidade esperada pelas empresas multinacionais hoje em dia.

Desempenho da MT adaptada ao domínio da Unbabel

De modo a satisfazer os seus exigentes padrões, começamos por aceitar as limitações da Tradução Automática, adaptando-a ao nosso fluxo de trabalho de MT + editores humanos. Vários dados demonstram que uma MT melhor resulta em menos pós-edição, o que acaba por se refletir numa tradução mais rápida e de melhor qualidade.

Maria at Unbabel

Realizámos, recentemente, uma série de experiências para comparar a tradução automática adaptada ao domínio da Unbabel com sistemas de MT gerais (com e sem MT neural) em 5 pares de línguas populares (inglês para espanhol, francês, português, italiano, e alemão, respetivamente).

Utilizámos pedidos de assistência ao cliente da Unbabel para a Zendesk e da Unbabel para Salesforce e aplicámos a métrica automática padrão, para avaliação da MT e valores BLEU, para traçar o nosso desempenho:

As tradução automática adaptada ao domínio da Unbabel atinge, consistentemente, pontuações mais elevadas, por vezes, de forma bastante substancial, confirmando a nossa conjetura de que testar as máquinas utilizando dados dos clientes é um procedimento altamente precioso. Isto não é novidade para a comunidade científica, mas pode muito bem ser para muitos no mundo dos negócios.

Também omitimos a nossa funcionalidade Configuração de Glossários, onde ajustamos os nossos sistemas para cada um dos nossos clientes, individualmente, assegurando assim que códigos de redação, terminologia da marca e outros metadados sejam tidos em consideração. Por exemplo, o Pinterest não quer a maioria das referências à palavra “Pin” traduzidas como “Alfiler” em espanhol.

Dito isto, vale a pena reforçar o seguinte: este é apenas o começo da entrega do que os nossos clientes precisam. Nós, na Unbabel, acreditamos que só se pode “resolver” traduções através junção da inteligência artificial e do esforço humano.

André and Ramon at Unbabel

Com o trabalho das máquinas quase concluído, o passo seguinte é distribuir estes resultados a grupos dos nossos 45.000 linguistas móveis selecionados de forma inteligente. Em seguida, estes farão a pós-edição do conteúdo para a qualidade humana que os nossos clientes esperam.


Agradecimentos:

Investigador Principal da Unbabel, André Martins, Doutoramento, conduziu as experiências com a ajuda de Maria Braga e Catarina Cruz Silva.

Notas:

  • Tomámos algumas medidas básicas para evitar armadilhas comuns, e certificámo-nos que nenhum par de frases neste conjunto de dados se sobrepõe ao conjunto de teste relativamente ao nosso sistema de MT
  • A nossa comparação favorece um pouco o sistema da Google, uma vez que, para estas experiências, as traduções de referência foram obtidas por pós-edição humana do Google Translate (daí o asterisco nas parcelas)
  • Nós não reportamos a Google Neural MT para italiano, uma vez que, atualmente, esta não é suportada no seu API premium.