Estávamos em 1954 e o futuro era claro: os tradutores humanos ficariam obsoletos dentro de alguns anos.

Pelo menos foi o que os pesquisadores da IBM declararam orgulhosamente, na primeira demonstração pública do seu sistema de tradução automática.

Agora sabemos quão longe da verdade essa afirmação estava e continua a estar. Mas mesmo no início da história da tradução automática, durante os anos do pós-guerra, não foi só otimismo desenfreado.

De facto, em 1947, o cientista americano e pioneiro da tradução automática Warren Weaver disse:

Temos de nos perguntar se o problema da tradução pode ser tratado como um problema de criptografia. Quando olho para um artigo em russo, digo: ‘Isto está escrito em inglês, mas foi codificado com alguns símbolos estranhos. Agora vou começar a descodificar.

Alguns anos mais tarde, Weaver disse o seguinte: “Nenhuma pessoa razoável acha que uma tradução automática pode alcançar elegância e estilo”.

O problema é que a tradução requer mais do que um anel descodificador. Se já tentaram traduzir poesia ou literatura com um serviço de tradução automática, o resultado pode ser muito parecido com a descodificação de mensagens secretas.

E é por isso que os humanos desempenham um papel fundamental. O nosso conhecimento sobre o mundo é crucial para a tradução. Nós humanos entendemos o contexto de uma conversa, o contexto cultural, os significados ocultos. As máquinas ainda não têm esse tipo de conhecimento. Como diz o nosso CEO, Vasco Pedro: “Ossistemas de tradução automática são treinados para ler frases paralelas, o que é um pouco como ensinar um papagaio a falar; o papagaio pode ser capaz de o fazer, mas nunca entenderá verdadeiramente o que está a dizer.”

Isto explica o motivo pelo qual os desenvolvimentos extraordinários em tradução automática nos últimos anos ainda não atingiram um nível em que as pessoas se sintam suficientemente confiantes para permitir que continue sem controlo humano. É aqui que a estimativa de qualidade (EQ) entra em jogo.

Na Unbabel, temos impulsionado o que é o topo de gama da estimativa de qualidade para ajudar a fornecer traduções rápidas e precisas, em grande escala, para muitos dos nossos clientes, incluindo empresas como a Booking.com, a Microsoft, a Skyscanner e o Pinterest.

Como a EQ desempenha um papel tão importante nos nossos negócios, decidi escrever este artigo para explicar por que acredito que a EQ é realmente o elo perdido na tradução e como o OpenKiwi (a nossa nova estrutura de código aberto para a estimativa de qualidade) contribuirá para o avanço da tradução automática com a ajuda humana.

O que é a estimativa de qualidade da tradução?

Antes de falarmos sobre o que a EQ pode fazer para melhorar as traduções automáticas, é importante entender exatamente aquilo de que estamos a falar.

A Estimativa de Qualidade é a ferramenta que utilizamos para avaliar a qualidade de um sistema de tradução sem acesso a traduções de referência. Por outras palavras, o objetivo é descobrir o quão boa ou má é uma tradução, sem intervenção humana.

Pode ser utilizada para muitos propósitos diferentes:

  • Informar um utilizador sobre a fiabilidade do conteúdo traduzido;
  • Decidir se uma tradução está pronta para publicação ou se requer pós-edição humana;
  • Destacar as palavras que precisam de ser alteradas.

Na Unbabel, utilizamos a EQ para garantir que, se uma tradução não for boa o suficiente para ser entregue, será reavaliada pela nossa comunidade bilingue de mais de 100,000 tradutores. Eles podem corrigir rapidamente os erros e fornecer traduções de alta qualidade para os nossos clientes. Quanto mais traduzimos, mais o sistema aprende e menos erros serão cometidos no futuro.

Portanto, uma boa EQ facilita o trabalho dos tradutores humanos. Com um sistema automatizado que destaca os erros antes mesmo do processo humano começar, os tradutores podem concentrar-se nas áreas de conteúdo que provavelmente precisam de atenção.

Nos últimos anos, testemunhámos as coisas extraordinárias que a tecnologia e a comunidade podem realizar juntas. Gostaríamos de incorporar a comunidade ainda mais na nossa tecnologia e processos, com o OpenKiwi, uma estrutura colaborativa para a Estimativa de Qualidade.

Open Source Framework for Quality Estimation

OpenKiwi: uma estrutura de código aberto para a comunidade de tradução automática

Na Unbabel, os nossos modelos de tradução automática estão a ser executados em sistemas de produção para 14 pares de idiomas, com a cobertura e desempenho a melhorar ao longo do tempo, graças à quantidade crescente de dados produzidos diariamente pelos nossos tradutores humanos. Esta combinação de IA e seres humanos é o que torna a nossa cadeia de tradução melhor e mais rápida.

No entanto, os nossos sistemas de estimativa de qualidade premiados não estavam disponíveis para investigadores externos, e isso impôs um limite ao que poderíamos alcançar juntos. Na Unbabel, acreditamos veementemente na pesquisa reproduzível e colaborativa. Queremos que toda a comunidade de pesquisa em IA beneficie das nossas descobertas e queremos que construamos, prosperemos e experimentemos juntos.

Isto inspirou-nos a construir o OpenKiwi.

O OpenKiwi é uma estrutura de código aberto que implementa os melhores sistemas de estimativa de qualidade, o que facilita as tarefas de testar e interagir com estes modelos sob a mesma estrutura, bem como o desenvolvimento de novos modelos. Ao combinar estes modelos, podemos alcançar os melhores resultados na Estimativa de Qualidade ao nível da palavra.

O poder do open-sourcing

Muitas pessoas podem estar a perguntar-se o que nos fez construir uma estrutura de código aberto, em vez de manter a nossa tecnologia de EQ só para nós. Se há algo em que acreditamos, é na colaboração.

Há não muito tempo atrás, a “barreira de entrada” para projetos de software básicos era extremamente alta. Podia levar meses para reproduzir os resultados de um trabalho de pesquisa, simplesmente porque o código utilizada no projeto não estava prontamente disponível.

O software de código aberto traz um conjunto de benefícios que supera em muito os inconvenientes. Permitir que outras pessoas acedam ao que construímos permite não só obter uma maior comunidade de especialistas a trabalhar connosco, mas permite também fazer melhorias adicionais e mais rápidas em conjunto. Em soluções de código aberto, até mesmo os menores problemas são percebidos, sinalizados e corrigidos mais rapidamente.

Saiba mais sobre a tradução automática. Como campo, a tradução automática tem beneficiado muito com os softwares de código aberto, como, por exemplo, oMoses , o OpenNMT e o Marian, entre muitos outros. Estes projetos conseguiram agregar uma grande comunidade de colaboradores (que fazem tanto parte da indústria como do meio académico) que estão a avançar na vanguarda da tradução automática. Também contribuímos para alguns destes projetos. Isso é ótimo!

No entanto, nada equivalente existia em Estimativa de Qualidade. Nesse campo, as iniciativas existentes de código aberto são muito poucas, utilizadas apenas por alguns grupos no meio académico, e nunca ganharam realmente a mesma notoriedade. Esta é a lacuna que estamos a preencher agora com o OpenKiwi.

Ao disponibilizar o OpenKiwi para a comunidade, acredito que todos vamos contribuir para um panorama maior e moldar o futuro da tradução.

Apesar de todos os avanços, a tradução automática permanece altamente mecânica – pelo menos por enquanto. Mas, juntamente com dados cuidadosamente elaborados e editores humanos que conhecem a sua linguagem por dentro e por fora, a tradução automática está pronta para aumentar o acesso, melhorar as relações entre consumidores e negócios e criar compreensão em todo o mundo.