Maior, mais forte, mais rápido – muitas vezes, na corrida pela supremacia da IA, é difícil não ficar com a sensação de que estamos a favorecer vitórias rápidas.

Não somos estranhos à IA, e muitas das tecnologias que utilizamos diariamente fazem uso dela para nos proporcionar boas experiências – desde os sistemas de recomendações básicos que orientam as nossas compras até ao reconhecimento facial mais complexo em todas as fotos que publicamos online. Nos últimos anos, vimos surgirem redes neurais e de “deep learning” (aprendizagem profunda), que melhoraram o desempenho a um ritmo espantoso. O processamento de linguagem natural não foi uma exceção e, há cerca de três anos, os investigadores aplicaram com sucesso esses modelos à tradução automática. A notícia espalhou-se rapidamente quando o Google e a Microsoft alegaram ter alcançado a paridade humana.

O problema? Estes modelos requerem informação. Muita informação. Já para não falar de recursos de computação excecionalmente grandes, que ocorrem em unidades especializadas chamadas GPUs, e consomem muito mais energia do que as CPUs tradicionais. Estima-se que os data centers foram a razão para 1% da necessidade global de eletricidade em 2017, consumindo cerca de 195TWh, de acordo com um relatório da Agência Internacional de Energia. E embora o mesmo relatório preveja que a necessidade de mais computação e o aumento da carga de trabalho dos data centers terá um menor impacto devido a melhorias de eficiência em vários componentes dessas unidades, não devemos ignorar a pegada energética das atuais técnicas de aprendizagem profunda.

Poderá existir uma IA responsável?

A pegada de carbono da IA

Por um lado, a IA está a esforçar-se por ser mais eficiente do que nunca. Pensem no DeepMind e na Huawei, pioneira em tecnologias de refrigeração de data center, ou no Google, que criou o TPU, um dispositivo que permite que as empresas treinem os seus modelos com mais rapidez e eficiência.

Mas a indústria também faz parte do problema. Num estudo comparativo, a OpenAI apontou uma tendência em que a quantidade de computação utilizada para treino foi aumentando com um tempo de duplicação de 3,5 meses (para se ter uma ideia da escala, a Lei de Moore teve um período de duplicação de 18 meses). E estes números estão a começar a levantar algumas dúvidas. Em agosto passado, na ACL 2019, em Florença, a investigadora Emma Strubell apresentou um artigo com o título ” Considerações sobre energia e políticas para a aprendizagem profunda em PNL,” que foi recebido com um pouco de controvérsia.

No estudo, apresentou os custos de consumo com o treino de diferentes modelos de ponta e comparou-os com, digamos, a pegada de um passageiro que viaja de avião de Nova York a São Francisco, a vida útil média de um carro, ou mesmo a vida humana média. Strubell ressalta, em particular, o impacto do ajustamento maciço de hiperparâmetros e da pesquisa na arquitetura, técnicas de exploração que, no limite, podem ser consideradas uma abordagem de força bruta para encontrar o melhor modelo para uma tarefa específica. Esses valores superam todos os outros em várias ordens de magnitude.

Mesmo se considerarmos que poderíamos simplesmente mudar para hubs alimentados principalmente ou totalmente por energias renováveis – o que sabemos que não é o caso no momento – estes números são definitivamente uma chamada de atenção.

Como chegámos aqui?

A maioria das tarefas de PNL começou a beneficiar com as Redes Neurais Recorrentes clássicas ao longo da última década. O “recorrente” vem da maneira como estes modelos funcionam: eles consomem uma palavra de cada vez, gerando o estado ou a saída necessária para a tarefa e devolvem-na novamente ao modelo para ajudar a gerar a próxima. Este é um mecanismo caro, que, quando comparado com modelos típicos utilizados noutros campos, pode ser mais lento em relação ao tempo de treino – especialmente se permitirmos sequências muito longas.

Depois, na tradução automática, surgiu um novo mecanismo – “atenção“. Este novo método forneceu aos investigadores uma ferramenta para entender melhor os resultados, informando-os relativamente a que palavras-fonte um modelo estava a utilizar para gerar cada uma das palavras-alvo. Em particular, a atenção não precisou de consumir a entrada sequencialmente e, por isso, rapidamente foi transportada para vários métodos e aplicações. Não demorou muito para que a comunidade decidisse que isto era tudo o que precisava e foi por isso que vimos surgirem Transformers, que, em vez de dependerem da recorrência, construíram sobre esse mecanismo e combinaram-no com uma rede neural não recorrente mais simples. Estes modelos, embora fossem maiores, conseguiam obter melhores resultados em várias tarefas com um número significativamente reduzido de FLOPs (operações de ponto flutuante por segundo, uma medida comum de eficiência ao utilizar GPUs), o que, em termos de recursos, era algo positivo.

Por fim, os investigadores viraram a atenção para o pré-treino de alguns dos componentes básicos dos modelos de PNL. Fizeram isso reunindo grandes quantidades de texto escrito, que, em vez de exigirem rótulos ou frases paralelas em outros idiomas, poderiam ser utilizados diretamente por métodos não supervisionados. Apenas com o texto e a forma natural de criar frases e, também, a forma como palavras aparecerem juntas, foram capazes de treinar melhores representações de palavras. Em vez de resolver uma tarefa diretamente e permitir que aprenda tudo o que é necessário, estas representações podem ser ligadas diretamente a outros modelos, utilizados para tarefas posteriores. A isto chama-se pré-treino de modelos de linguagem e, com nomes extravagantes como ELMo, BERT, Ernie2.0 e RoBERTa (e os menos divertidos GPT e XLNet) , começaram a dominar tarefas de modelagem e geração de idiomas, exigindo grandes quantidades de dados e, nalguns casos, grande número de recursos.

Com estes novos modelos, a necessidade de mostrar melhorias rapidamente e reivindicar o título de tecnologia de ponta, o número de trabalhos nas últimas duas conferências em que os resultados são alcançados com uma enorme quantidade de recursos começou a aumentar.

Observando a maioria dos documentos (excluindo os que não tomam nota dos recursos utilizados), está a tornar-se cada vez mais comum ver treinos realizados em dezenas de GPUs em vários dias ou mesmo semanas. Com a GPT, por exemplo, o modelo exigia que oito GPUs fossem treinados durante um mês inteiro. O GPT-2, o seu sucessor, possui 10 vezes mais parâmetros e foi treinado com 10 vezes mais dados. E esta investigação, que realizou várias experiências para obter uma melhoria moderada, com um treino total de mais de três meses em 512 GPUs.

Muitos investigadores estão a debater a relevância da tecnologia de ponta quando esta é alcançada apenas através da força bruta e começaram a discutir as implicações das tabelas de classificação que apenas analisam a métrica que está a ser otimizada. Está a tornar-se cada vez menos claro se estas melhorias são alcançadas devido aos métodos ou apenas ao grande número de recursos e poder de computação. E se não podemos dizer de onde vêm as melhorias, é justo questionar o processo pelo qual estes documentos estão a ser escolhidos para as principais conferências.

Uma crise de reprodutibilidade

Mesmo deixando de lado os custos de energia e a pegada, estes modelos apresentam outros problemas. Recursos maciços não são apenas caros do ponto de vista energético. São mesmo caros. E, tipicamente, apenas grandes grupos ou empresas de investigação têm capital para realizar este tipo de experiência.

Existem outras barreiras além da quantidade de recursos, e os investigadores criticaram esta crise de reprodutibilidade, apontando uma série de tendências preocupantes, entre elas o fracasso em distinguir entre melhorias provenientes da arquitetura e melhorias provenientes de ajustes. Alguns investigadores defenderam melhores relatórios, com a proposta de relatórios orçamentais e listas de verificação de reprodutibilidade para aumentar a transparência. O NeurIPS, por exemplo, começou a pedir aos investigadores que enviassem as suas próprias listas de verificação.

O que estes grupos afirmam é que estes modelos são reutilizáveis. O que estes grupos afirmam é que estes modelos são reutilizáveis. Que, quando de código aberto, como muitas empresas agora fazem, poderiam ser ligados a experiências ou tarefas posteriores e utilizados como são, e as empresas menores não precisariam de reproduzi-los. Mas as coisas nunca são assim tão simples. Estes modelos não são à prova de falhas e todos conhecemos as deficiências da IA, principalmente quando se trata de preconceitos. Como escreveu recentemente a minha colega Christine, precisamos de pensar nos dados com que estamos a alimentar os nossos modelos, que podem reforçar os nossos preconceitos, “levar à discriminação nos processos de contratação, pedidos de empréstimo e até no sistema de justiça criminal.”Portanto, é bastante ousado supor que estes modelos nunca precisarão de ser revisitados.

Rumo à IA responsável

Quando falamos de IA, a maioria das pessoas imagina uma utopia ou um cenário apocalíptico. Normalmente, o último. Mas, considerando que a Inteligência Artificial real ainda está longe de nós, temos de ter preocupações mais prementes. Como investigadores da IA, precisamos de conduzir essa discussão e pensar no impacto do nosso trabalho agora. Precisamos de pensar na pegada de carbono dos modelos que estamos a treinar, especialmente numa época em que milhões de jovens estão a fazer greve e a pressionar os nossos governos a combater o aquecimento global.

Para Strubell, podemos tornar-nos mais responsáveis e melhorar a equidade na pesquisa em PNL por meio de uma série de esforços, dando prioridade a hardware e algoritmos computacionalmente eficientes – inclusive privilegiando melhores técnicas de ajuste de hiperparâmetros; e relatando o orçamento imposto, uma parte essencial para desembaraçar essas reivindicações de tecnologia de ponta.

Mas há outras coisas que poderíamos fazer. Poderíamos focar-nos mais nas orientações de investigação onde a eficiência é naturalmente privilegiada, como campos de seleção e limpeza de dados, cenários de baixo recurso, entre outros. E talvez as principais conferências devam assumir a liderança na imposição destes valores, por exemplo, pesando a pegada de um modelo nas tabelas de classificação.

Não há solução rápida, mas muitas destas pequenas alterações podem ajudar. E apenas o simples facto destes tópicos estarem a receber cada vez mais atenção é um indicador positivo de que nós, enquanto comunidade, queremos avançar em direção a melhores soluções.