No outro dia estava ao telefone com a minha avó, quando ela me disse: “Não sei o que fazes na vida, mas aceito o que for desde que sejas feliz”.

Nos dias de hoje, não é fácil explicares à tua avó qual é o teu trabalho. Há trabalhos que ainda são fáceis de definir: se és um arquiteto, projetas casas; se és um engenheiro, constróis casas. Mas existem vários papéis relacionados com a tecnologia que são difíceis de entender para alguém que não cresceu no meio deles. Para a minha avó, é fácil perceber que o meu trabalho envolve alguma escrita, mas ela não percebe a vertente da internet, e muito menos qual é a área de negócios da Unbabel.

Quando perguntei a Yoav Goldberg, Professor Assistente do Departamento de Ciência da Computação da Universidade Bar Ilan, como explicaria o seu trabalho à sua avó, estava à esperava que ele tivesse dificuldade em encontrar uma explicação que fosse facilmente percetível para uma pessoa comum. No entanto, ele explicou de forma bastante simples que o seu trabalho consiste em “fazer com que os computadores façam algo semi-inteligente com a linguagem, o que sugere que houve alguma compreensão”.

Mas o que é que um Professor Assistente de Ciência da Computação faz exatamente no dia-a-dia?

Yoav Goldberg tem dividido o seu tempo entre duas linhas de trabalho diferentes. O primeiro é tentar entender como os modelos de aprendizagem profunda aprendem coisas e o que eles podem ou não aprender, o que para ele é uma questão importante, já que “ninguém entende o que está a acontecer”. A segunda linha de trabalho é descobrir como criar componentes de Processamento Natural de Linguagem ou ferramentas que serão úteis para pessoas e empresas cujo negócio principal não é a PNL e que não são especialistas na área, mas que ainda assim precisam destas ferramentas para, de alguma forma, processar a linguagem.

Mesmo que estejas interessado na aplicação da PNL nos negócios, sentes que, geralmente, há uma desconexão entre a vertente académica e a industrial. A primeira tende a concentrar-se em identificar e resolver novos problemas, enquanto a segunda quer pôr esses resultados em prática. Nalguns casos, é possível pegar na investigação académica e aplicá-la a diferentes indústrias, mas Yoav Goldberg explica que muito pouca desta investigação é transformada num produto.

Acho que, do ponto de vista académico, não nos focamos o suficiente nas coisas que realmente interessam, como valores ou outros parâmetros fáceis de otimizar, mas que pouco têm a ver com aquilo que as pessoas realmente querem.

Apesar de não ser o seu campo de investigação direto, Goldberg acredita que a tradução automática é provavelmente a melhor tecnologia relacionada com as suas investigações em PNL que está disponível de momento. É a que funciona melhor e que mais frequentemente vemos aplicada às empresas. A razão para isso é, na sua opinião, que é possível fazer muito com a linguagem sem a compreender em toda a sua extensão. É simplesmente uma questão de transformar uma entrada com um idioma numa saída noutro idioma diferente. Não precisas de entender o que está no meio.

Isso facilita a execução da tradução automática de forma a que seja útil o suficiente. Mas é quando falha, que é necessário intervir para entender o porquê. Num artigo que escreveu em 2017, Yoav Goldberg afirmou ter muito respeito pela linguagem, em oposição a “pessoas de aprendizagem profunda que parecem não ter”. Na perspetiva dele, investigadores neste campo alegaram ter resolvido problemas de linguagem que claramente não tinham resolvido.

Eles davam a impressão de que não se importavam com a aparência dos dados. Só tinhas de carregar nalguns números, sem realmente apreciar as subtilezas da linguagem.

Uma dessas subtilezas é o contexto. Por exemplo, se leres num jornal algo como “se os preços subirem, algo vai acontecer”, não são os preços em geral que vão subir, mas sim os preços de alguma coisa que talvez seja referida no título ou em algum outro lugar do texto. Nesta frase específica, não está claro, mas todos que a lêem entendem o que é. Máquinas não.

Yoav Goldberg está atualmente a liderar investigações para resolver este problema. É muito desafiador porque há muitas maneiras pelas quais as pessoas omitem informações enquanto falam ou escrevem. Outro exemplo é dizer: “Não, obrigado, eu já tive cinco.” São cinco de algo que o orador teve antes, mas o substantivo está a faltar após o número. A maneira como os investigadores lidam com isso é isolando diferentes contextos e trabalhando em cada um deles separadamente. A equipa de Goldberg desenvolveu um sistema que já consegue inferir esse tipo de contexto relativamente bem, mas há muitos outros contextos a serem considerados e trabalhados.

Ao refletir sobre o futuro da investigação e da aplicação da PNL, Yoav Goldberg diz que provavelmente ainda estaremos a usar redes neurais daqui a cinco ou mesmo dez anos. Elas funcionam bem e não há melhor tecnologia disponível de momento. Contudo, há um problema recorrente em relação às redes neurais: elas funcionam quando tens dados suficientes e não funcionam quando não tens esses dados.

Para os domínios para os quais simplesmente não há dados suficientes disponíveis, estamos num ponto em que se trata de fazê-los trabalhar com menos informação e muito poucos exemplos, mas a tentar ainda generalizá-los para que os sistemas tenham um bom desempenho. Esta é uma tendência que os investigadores irão provavelmente seguir nos próximos anos.

Quanto à tradução automática, Yoav Goldberg não acha que os humanos ficarão completamente postos de lado, principalmente porque os sistemas neurais ainda não sabem se estão a cometer erros. Eles simplesmente não entendem a linguagem como os humanos.

Mas Yoav Goldberg também não está interessado em fazê-los entender.

Eu não sou movido pela busca da inteligência, mas sim por questões como: “Como é estruturada a linguagem e como podemos fazer coisas úteis com ela?”

Estas são as perguntas que o guiaram ao longo da sua carreira de 20 anos – questões que ele não viu chegar enquanto criança, que queria crescer para ser um feiticeiro ou um super-herói. Ele jogou muitos videojogos e sempre sentiu curiosidade em saber como digitava um comando para fazer as coisas acontecerem. Ele também diz que sempre viveu preocupado com a linguagem, até certo ponto.

Talvez feiticeiro, super-herói ou mesmo estrela de um reality show (há alguns anos ele teve a possibilidade de participar da versão israelita de “Beauty and the Geek”, mas recusou o convite), fosse mais fácil de explicar a um parente mais velho, mas Professor Assistente em Ciência da Computação de alguma forma faz mais sentido.