Plus puissante, plus forte, plus rapide : souvent, dans la course à la suprématie de l’IA, il est difficile de se débarrasser de cette impression que nous privilégions les gains rapides par rapport à tout le reste.

Nous n’ignorons pas ce qu’est l’IA et de nombreuses technologies que nous utilisons quotidiennement s’appuient sur celle-ci pour nous offrir de bonnes expériences ; des systèmes de recommandation de base pour guider nos achats jusqu’à la reconnaissance faciale plus complexe de chaque photo que nous publions en ligne. Et ces dernières années, nous avons assisté à la montée en puissance de l’apprentissage profond et des réseaux neuronaux, améliorant les performances à un rythme effarant. Le traitement automatique du langage naturel (TALN) n’a pas fait exception et, il y a environ trois ans, des chercheurs ont appliqué ces modèles à la traduction automatique. La nouvelle s’est vite répandue lorsque Google et Microsoft prétendirent avoir réussi à égaler l’humain.

Le problème ? Ces modèles nécessitent des données. Des tas et des tas de données. Et aussi des ressources de calcul exceptionnellement volumineuses, fournies par des unités spécialisées appelées GPU (processeurs graphiques) qui consomment beaucoup plus d’énergie que les GPU traditionnels. Selon un rapport de l’Agence internationale de l’énergie, les centres de données représentaient à eux seuls 1% de la consommation mondiale d’électricité en 2017, consommant environ 195 TWh. Bien que le même rapport prédit que la demande pour plus de calculs et d’augmentation de la charge de travail des centres de données sera compensée par des améliorations d’efficacité pour un certain nombre de composants de ces unités, nous ne devrions pas ignorer l’empreinte énergétique des techniques d’apprentissage profond actuelles.

Peut-il exister une IA responsable ?

L’empreinte carbone de l’IA

D’un côté, l’IA devient plus efficace que jamais. Prenez DeepMind et Huawei, les technologies pionnières de refroidissement des centres de données, ou Google, qui a créé le TPU, un circuit intégré qui permet aux entreprises d’entraîner leurs modèles plus rapidement et plus efficacement.

Mais l’industrie fait aussi partie du problème. Dans une étude comparative, OpenAI a souligné une tendance selon laquelle la puissance informatique pour entraîner les systèmes d’IA double tous les 3,5 mois (en comparaison, la loi de Moore prévoit un doublement tous les 18 mois). Et ces chiffres commencent à faire tiquer. En août dernier, à la conférence 2019 de l’ACL à Florence, la chercheuse Emma Strubell a présenté un rapport intitulé « Energy and Policy Considerations for Deep Learning in NLP », qui a suscité une certaine controverse.

Dans son étude, elle a présenté les coûts de consommation liés à l’entraînement de différents modèles de pointe et les a comparés à, disons, l’empreinte d’un passager voyageant de New York à San Francisco en avion, la durée de vie moyenne d’une voiture, ou même à la vie moyenne d’un humain. Strubell souligne en particulier l’impact des réglages massifs d’hyperparamètres et de l’architecture de recherche, ainsi que des techniques d’exploration qui, au maximum, peut être considéré comme une approche par force brute pour trouver le meilleur modèle pour une tâche donnée. Ces valeurs dépassent de très loin toutes les autres.

Même si nous considérons que nous pourrions nous contenter de nous tourner vers des centres alimentés principalement ou entièrement par des énergies renouvelables (et nous savons que ce n’est pas le cas pour le moment), ces chiffres sont sans aucun doute révélateurs.

Comment en sommes-nous arrivés là ?

Au cours de la dernière décennie, la plupart des tâches du TALN ont commencé à bénéficier des réseaux de neurones récurrents classiques. La « récurrence » provient du mode de fonctionnement de ces modèles : ils consomment un mot à la fois, générant un état ou une sortie nécessaire à la tâche, puis ces derniers réalimentent le modèle pour générer le suivant. Il s’agit d’un mécanisme coûteux qui, comparé aux modèles classiques utilisés dans d’autres domaines, peut être plus lent en ce qui concerne la durée d’entraînement, en particulier si nous autorisons de très longues séquences.

Puis est apparu, en traduction automatique, un nouveau mécanisme : « le mécanisme d’attention ». Cette nouvelle méthode a fourni aux chercheurs un outil leur permettant de mieux comprendre les résultats, en leur indiquant quels mots sources étaient examinés par un modèle pour générer chacun des mots cibles. En particulier, le mécanisme d’ attention n’avait pas besoin de consommer les entrées de manière séquentielle, et il a rapidement conduit à un certain nombre de méthodes et d’applications. Il n’a pas fallu longtemps avant que la communauté ne décide que cela lui suffisait et nous avons donc assisté à la montée en puissance de Transformers qui, au lieu de s’appuyer sur la récurrence, s’appuient sur ce mécanisme et le combinent avec un réseau de neurones non récurrents plus simple. Ces modèles, même s’ils étaient plus volumineux, permettaient d’obtenir de meilleurs résultats pour un certain nombre de tâches avec un nombre considérablement réduit de FLOPS (opérations en virgule flottante par seconde, mesure courante de la performance d’un système informatique lors de l’utilisation de GPU), ce qui était réellement positif en termes de ressources.

Enfin, les chercheurs ont commencé à pré-entraîner certains des éléments de base des modèles de TALN. Pour ce faire, ils ont rassemblé de grands volumes de textes écrits qui, au lieu d’exiger des étiquettes ou des phrases parallèles dans d’autres langues, pouvaient être utilisés directement par des méthodes non supervisées. En observant simplement le texte et la manière naturelle dont les phrases sont construites et les mots s’assemblent, ils ont pu former de meilleures représentations des mots. Au lieu de résoudre une tâche directement et de la laisser apprendre ce qui est nécessaire, ces représentations pourraient être directement intégrées à d’autres modèles, utilisés pour les tâches en aval. C’est ce qu’on appelle le pré-entraînement des modèles de langage, et avec des noms fantaisistes tels qu’ ELMo, BERT, Ernie2.0 et RoBERTa (et les moins rigolosGPT etXLNet) , ces derniers ont commencé à dominer les tâches de modélisation et de génération de langage, nécessitant de grandes quantités de données et, dans certains cas, un grand nombre de ressources.

Avec ces nouveaux modèles, la nécessité de montrer rapidement les progrès réalisés et de revendiquer le titre de technologie de pointe, ainsi que le nombre de rapports des deux dernières conférences, soulignant que les résultats étaient atteints grâce à une quantité considérable de ressources, ont commencé à augmenter.

En examinant la plupart des rapports (à l’exception de ceux qui ne mentionnent pas les ressources utilisées), on constate qu’il est de plus en plus courant que des entraînements sont effectués sur des dizaines de GPU pendant plusieurs jours, voire plusieurs semaines. Avec GPT, par exemple, le modèle nécessitait l’ entraînement de huit GPU pendant un mois entier. GPT-2, son successeur, dispose de 10 fois plus de paramètres et a été entraîné avec 10 fois plus de données. Et il y a cette recherche, qui a mené plusieurs expériences pour parvenir à une amélioration modérée, avec un entraînement total pendant plus de trois mois sur 512 GPU.

De nombreux chercheurs débattent de la pertinence des techniques de pointe lorsqu’elles sont réalisées uniquement par la force brute, ainsi que des conséquences d’un classement qui ne prend en compte qu’un seul indicateur optimisé. On en arrive de plus en plus à se demander si ces améliorations sont réalisées grâce aux méthodes ou simplement grâce aux considérables capacités et ressources informatiques. Et si nous sommes incapables de dire d’où viennent les améliorations, il est juste de se demander comment sont sélectionnés ces rapports pour les grandes conférences.

La crise de la reproductibilité

Même en mettant de côté les coûts et l’empreinte énergétiques, ces modèles posent d’autres problèmes. Les ressources massives ne sont pas seulement coûteuses du point de vue énergétique. Elles sont réellement chères. Généralement, seuls les grands groupes ou sociétés de recherche disposent du capital nécessaire pour mener ce type d’expériences.

Il y a d’autres obstacles que la quantité de ressources, et les chercheurs ont critiqué cette crise de la reproductibilité, soulignant une série de tendances inquiétantes, notamment le fait de ne pas savoir faire la distinction entre les améliorations liées à l’architecture et celles liées au paramétrage. Certains chercheurs ont préconisé qu’il fallait de meilleurs rapports, en proposant notamment des rapports budgétaires et des checklists de la reproductibilité afin d’accroître la transparence. NeurIPS, par exemple, a commencé à demander aux chercheurs de soumettre leurs propres checklists.

Ces groupes affirment que ces modèles sont réutilisables. Ces groupes affirment que ces modèles sont réutilisables. Que lorsque les modèles sont en open source, comme il est courant de nos jours, ils pourraient être simplement intégrés à des expériences ou tâches en aval et utilisés tels quels, et ainsi les petites entreprises n’auraient pas à les reproduire de leur côté. Mais les choses ne sont jamais aussi simples. Ces modèles ne sont pas infaillibles, et nous connaissons tous les faiblesses de l’IA, en particulier en ce qui concerne les préjugés. Comme ma collègue Christine l’a récemment écrit, nous devons réfléchir aux données avec lesquelles nous alimentons nos modèles et qui pourraient renforcer nos préjugés, «conduisant à des discriminations dans les processus de recrutement, les demandes de prêt et même dans le système de justice pénale.» Il est donc assez téméraire de supposer que ces modèles n’auront jamais besoin d’être revus.

Vers une IA responsable

Lorsqu’on parle d’IA, la plupart des gens imaginent une utopie ou un scénario apocalyptique. En général, ils pensent plutôt à ce dernier. Mais étant donné que l’on est encore loin d’être venu à bout de l’intelligence artificielle actuelle, nous pourrions avoir des préoccupations plus pressantes. En tant que chercheurs en IA, nous devons piloter ce débat et réfléchir à l’impact de nos travaux dès aujourd’hui. Nous devons réfléchir à l’empreinte carbone des modèles que nous entraînons, surtout à une époque où des millions de jeunes gens manifestent et font pression sur nos gouvernements pour qu’ils agissent contre le réchauffement de la planète.

Selon Strubell, nous pouvons devenir plus responsables et améliorer l’équité dans la recherche en matière de TALN grâce à une série d’efforts, en donnant la priorité au matériel et aux algorithmes informatiquement efficaces, voire en privilégiant de meilleures techniques de réglage d’hyperparamètres, et en établissant des rapports concernant la discipline budgétaire, une partie essentielle pour différencier ces revendications de technologies de pointe.

Mais il y a d’autres choses que nous pourrions faire. Nous pourrions mettre davantage l’accent sur les orientations de la recherche où l’efficacité est naturellement privilégiée, comme la sélection et le nettoyage des données et les scénarios de ressources faibles, entre autres. Peut-être qu’il est temps que les grandes conférences prennent l’initiative de faire respecter ces valeurs, par exemple en pesant sur l’empreinte d’un modèle dans les classements.

Il n’y a pas de solution miracle, mais plusieurs de ces petits changements pourraient être utiles. Et le simple fait que ces sujets retiennent de plus en plus l’attention est un indicateur positif que nous, en tant que communauté, voulons progresser vers de meilleures solutions.