Seríamos capazes de confiar as nossas vidas a uma IA?

Há uma história famosa nos círculos de pesquisa de IA sobre um modelo de rede neural que foi treinado para distinguir entre lobos e huskies. O modelo aprendeu a identificá-los com sucesso, alcançando alta precisão quando recebia imagens que não tinham sido utilizadas durante o treino.

No entanto, rapidamente ficou claro que algo não estava bem – algumas imagens bastante óbvias estavam a ser classificadas incorretamente. Quando analisaram a razão por que a rede neural estava a cometer erros tão óbvios, os investigadores descobriram que o modelo tinha aprendido a classificar uma imagem com base em se havia neve nela ou não – todas as imagens de lobos utilizadas durante o treino tinham neve, enquanto que as de huskies não. Sem surpresa, o modelo começou a falhar.

Agora, imaginemos que queremos ajudar a apanhar huskies perdidos na natureza, por isso, arranjamos uma forma de corrigir o modelo e ensinamo-lo a distinguir corretamente entre lobos e huskies, independentemente da cor de fundo. Colocamos este modelo em dispositivos com câmaras, que depois partilhamos entre voluntários e amigos. Confiamos no nosso modelo para não dizer que é um huskie quando na verdade é um lobo, mas quão confiantes estamos de que não vai haver outra coisa que faça o modelo falhar? O que acontecerá se o modelo vir um coiote? Irá classificá-lo como um lobo, baseado no tamanho? E se for uma raposa? Um urso? Arriscamos dizer aos nossos amigos que se aproximem, esperando que eles percebam que o cão vadio é realmente um urso antes de saírem do carro com um bom bife suculento?

Máquinas a aprender o quê?

As técnicas de aprendizagem automática, principalmente as redes neurais, alcançaram um tremendo sucesso com uma infinidade de problemas, incluindo os notoriamente difíceis, como a tradução e o reconhecimento de fala. A sua utilidade é inegável e, como tal, tornaram-se omnipresentes numa variedade de aplicações.

Apesar de uma série de avanços nos últimos 12 anos, a prática atual na comunidade de pesquisa em IA é conduzir investigações incrementais. Melhorias nos sistemas de IA estão a ser alcançadas utilizando modelos maiores e mais dados, como a minha colega Catarina expôs num artigo anterior. Os ganhos de desempenho são fracionários e a existência de painéis de avaliação incentivou a prática.

Esses painéis utilizam conjuntos de dados públicos para várias tarefas de Processamento de linguagem natural (PNL), como resposta a perguntas, análise de sentimentos, semelhança semântica, etc. Esta é realmente uma grande iniciativa, pois convida os investigadores a construir sistemas comparáveis. No entanto, também faz com que os investigadores personalizem demais os seus sistemas para esses conjuntos de dados. Não que isto não tenha acontecido antes, mas no meio de todo o entusiasmo em torno da IA, a situação ficou fora de controlo.

Como no enigma lobo vs. husky, o problema é que mais e mais modelos estão a alcançar um desempenho mais alto por aprenderem idiossincrasias nos dados. Os modelos neurais são como caixas pretas, o que dificulta a confirmação se o modelo está a resolver os dados em vez da tarefa. Parece que poucas pessoas se preocupam com isto; portanto, estes modelos são aplicados prematuramente aos casos de uso da vida real e, quando alguém percebe que a neve é um fator, o dano está feito.

Existem duas causas principais para estes problemas de super otimização.

1. Otimizar para a coisa errada

Os modelos são otimizados para uma métrica fácil e rápida de calcular, e que se correlaciona, até certo ponto, com a meta desejada (ou “medida” de sucesso). O problema de mapear uma meta desejada para uma quantidade facilmente mensurável é reconhecido há décadas em várias disciplinas, principalmente em 1975, quando o economista Charles Goodhart publicou um artigo sobre regulamentação económica que popularizou o que ficou conhecido como Lei de Goodhart:

“Quando uma medida se torna numa métrica, deixa de ser uma boa medida.”

De forma menos cativante: “Qualquer regularidade estatística observada tenderá a entrar em colapso assim que sobre ela for exercida pressão para fins de controlo.” Independentemente da formulação, o que a lei implica é que, sempre que o nosso desempenho é medido em termos numéricos, estamos a otimizar em função desse número. Por outras palavras, estamos a viciar a métrica.

Lei de Goodhart, EXPLICAÇÕES

Os modelos de redes neurais acabam a fazer a mesma coisa. A métrica para a qual são otimizados é apenas um proxy para a real medida de desempenho. Não há como garantir que o modelo seja mapeado para o desempenho esperado no mundo real.

Os modelos de tradução automática neuronal, por exemplo, são otimizados para BLEU, que é uma métrica que compara a saída do modelo a uma tradução de referência, palavra por palavra. No mundo real, o que importa é uma tradução fluente e precisa, mesmo que seja redigida de maneira diferente da frase original.

2. Otimizar com dados não representativos

Como na história da deteção de neve, modelos poderosos podem alcançar um desempenho mais alto (métrico) simplesmente por terem aprendido idiossincrasias através dos dados de treino. Mas os dados reais podem ser um pouco diferentes e não conter as mesmas idiossincrasias ou frequências gerais de termos, classes, antecedentes, etc. Quando implantados em cenários do mundo real, estes modelos serão inevitavelmente influenciados pela representação que aprenderam com os dados de treino. Um lobo numa paisagem verde facilmente se torna num husky.

Quando se utiliza dados não representativos para o treino, por vezes sem levar em conta como ou onde foram recolhidos, pode ser muito problemático aplicar um modelo a situações diferentes daquelas que ele conhece. O modelo torna-se tendencioso. E embora este preconceito implicitamente aprendido possa não parecer tão problemático nesta situação específica (a menos que alguém seja atacado), quando isto acontece com aplicações de empréstimos, créditos à habitação e até entrevistas de emprego, é assustador pensar nas implicações.

No ano passado, o tribunal estadual da Califórnia decidiu que havia demasiado preconceito humano na decisão sobre os valores a pagar por fianças. Procurando eliminar esta situação, o tribunal aprovou uma lei que exige a utilização de um algoritmo para avaliar o risco de uma pessoa não comparecer em tribunal – o que, presumiu o tribunal, proporcionaria uma visão objetiva. Mas de onde vêm os dados de treino para esse algoritmo? Provavelmente de registos históricos, que contêm o mesmo preconceito que o algoritmo deve evitar.

Funcionar sozinho

As redes neurais têm confiança nas suas previsões, mesmo quando não fazem nenhum sentido.

Mesmo depois de corrigir o modelo lobo vs. husky, ainda tínhamos um problema. O que irá o modelo prever quando encontrar a imagem de um coiote, ou de uma raposa, ou mesmo de um urso?

Sabemos que o nosso modelo lobo vs. husky não reconhece um urso quando o vê. Tentará classificá-lo como um lobo ou um husky. Mas o problema com os modelos neurais em geral é que a probabilidade que atribuem a uma determinada saída não reflete a confiança que eles têm nessa previsão. As probabilidades não podem ser tomadas como estimativas de confiança. As redes neurais confiam nas suas previsões, mesmo quando isso não faz sentido, e mesmo quando a entrada é substancialmente diferente de qualquer coisa que o modelo viu durante o treino. Quando o modelo encontra a imagem de um urso, a saída pode variar de 100% lobo a 100% husky. Não seria um alívio se o nosso modelo produzisse 50%/50%? Poderíamos então tomar todas as medidas de precaução necessárias para evitar a aproximação.

O que nós queríamos é que os nossos modelos refletissem níveis elevados de incerteza ao lidar com dados em regiões que nunca tenham visto. “Queremos que eles ‘falhem graciosamente’ quando utilizados na produção,” como Anant Jain escreveu na sua publicação no Medium. Isto iria permitir confiar nas previsões do nosso modelo.

Infelizmente, a prática atual é confiar num modelo com base no desempenho alcançado numa única métrica num conjunto de dados não representativo.

Existe esperança?

Nenhum destes problemas pode ser facilmente resolvido. Exigem o esforço e o tempo de investigadores, engenheiros, reguladores e pessoas que tomam decisões e escrevem políticas. Mas há esperança.

Para evitar um ajuste excessivo a uma única métrica proxy que não se reflita na medida real desejada, podemos treinar modelos através de métricas complementares. O melhor modelo será aquele cujo desempenho for igualmente bom em todas as métricas. Além disso, devemos fazer um esforço considerável na medição periódica do desempenho no mundo real, mesmo que seja apenas para um conjunto parcial de exemplos (já que isto geralmente requer trabalho humano manual).

Para reduzir o preconceito implícito, tanto quanto possível, utilizar dados de treino mais representativos ajuda. No entanto, não é fácil saber que dados são mais representativos. Realmente útil seria ter modelos explicáveis ou capazes de produzir uma explicação acerca da respetiva previsão. Isto é precisamente o que nos permitiria identificar imediatamente o preconceito da neve e dos lobos.

Finalmente, poder confiar no que os modelos preveem permitiria aplicações muito mais seguras de IA. Os seres humanos podiam intervir sempre que um determinado limite de confiança não fosse atingido, permitindo que os modelos realizassem o seu ótimo trabalho ao lidar com os dados para os quais foram realmente criados.

Na Unbabel, encontramos constantemente huskies, lobos e ursos. Mas, com humanos a ajudar, a corrigir os erros dos nossos modelos e a avaliar a verdadeira qualidade do que entregamos, podemos continuar a melhorar os nossos modelos e também como os avaliamos automaticamente.

Parafraseando o nosso vice-presidente de tecnologias linguísticas, Alon Lavie:

O facto prático mais importante para nós é que os resultados experimentais que obtemos não generalizem o que assumimos e, na verdade, não sejam representativos do nosso cenário de tradução na prática. Isso acontece com frequência.

A IA chegou para ficar e já nos deu muito. Mas estamos a chegar a um ponto em que as redes neurais são utilizadas de forma tão ampla que é necessário ser mais responsável na forma como as treinamos. Estamos a ver mais e mais lobos, a neve está a derreter e os nossos amigos estão lá fora. Talvez nos devêssemos concentrar em arranjar o que não está a funcionar antes que seja tarde demais.