Auriez-vous une confiance absolue en l’IA ?

Dans le cercle des chercheurs en IA, une histoire assez célèbre raconte qu’un modèle de réseau de neurones fut entraîné pour distinguer les loups des huskies. Le modèle apprit à les identifier avec succès, et avec une grande précision, lorsqu’on lui présenta des photos qui n’avaient pas été utilisées pour son entraînement.

Cependant, il devint vite évident que quelque chose n’allait pas : certaines images très nettes étaient classifiées de façon erronée. Quand ils cherchèrent à comprendre pourquoi le réseau neuronal commettait des erreurs aussi grossières, les chercheurs comprirent que le modèle avait appris à classer une image en fonction de la présence éventuelle de neige ; toutes les photos de loups utilisées pour l’entraînement avaient de la neige en arrière-plan, alors que celles des huskies n’en avaient pas. Sans surprise, le modèle échouait.

Maintenant, imaginons que nous voulions pouvoir aider à attraper des huskies errants dans la nature, nous corrigerions donc le modèle pour lui apprendre à distinguer correctement les loups des huskies, quelle que soit la couleur de fond. Nous l’intégrerions dans des appareils dotés de caméras, que nous distribuerions ensuite à des bénévoles et amis. Nous ferions confiance à notre modèle pour qu’il ne réponde pas husky au lieu de loup, mais à quel point serions-nous sûrs que rien d’autre n’induirait en erreur le modèle ? Que se passerait-t-il si le modèle voyait un coyote ? Le classerait-t-il en tant que loup, en fonction de sa taille ? Pourquoi pas un renard ? Un ours ? Devrions-nous risquer de dire à nos amis de s’approcher, en espérant qu’ils réalisent que l’animal errant est en fait un ours, avant qu’ils sortent de la voiture avec un steak bien saignant ?

Apprentissage automatique de quoi ?

Les techniques d’apprentissage automatique, notamment les réseaux de neurones, ont réussi à résoudre une multitude de problèmes, notamment des problèmes notoirement difficiles tels que la traduction et la reconnaissance vocale. Leur utilité est indéniable et, à ce titre, elles sont devenues omniprésentes dans de nombreuses applications.

En dépit de nombreuses percées au cours des 12 dernières années, la pratique en vigueur dans la communauté de chercheurs en IA est d’effectuer des recherches incrémentales. Les systèmes d’IA sont améliorés grâce à l’utilisation de modèles plus grands et de davantage de données, comme l’a expliqué ma collègue Catarina dans un article précédent. Les gains de performance sont infimes et l’existence de tableaux de bord a favorisé la pratique.

Ces tableaux de bord proposent des ensembles de données publics pour de nombreuses tâches de traitement du langage naturel (TALN), telles que répondre aux questions, l’analyse de sentiments, la similarité sémantique, etc. Il s’agit en fait d’une excellente initiative car elle encourage les chercheurs à créer des systèmes comparables. Cependant, cela oblige également les chercheurs à trop adapter leurs systèmes à ces ensembles de données. Non pas que cela ne se soit pas produit auparavant, mais au milieu de tout le battage médiatique au sujet de l’IA, la situation est devenue incontrôlable.

Comme dans le cas du casse-tête loup/husky, le problème est que de plus en plus de modèles obtiennent de meilleures performances en apprenant des idiosyncrasies des données. Les modèles neuronaux sont semblables à des boîtes noires, c’est pourquoi il est difficile de savoir si le modèle traite les données plutôt que la tâche. Trop peu de personnes s’inquiètent de cela, et donc ces modèles sont trop vite appliqués à des cas d’utilisation réels et, avant que quelqu’un remarque que la neige est un facteur, le mal est fait.

Ces problèmes de suroptimisation ont deux causes principales.

1. Optimiser pour la mauvaise raison

Les modèles sont optimisés pour une mesure qui peut être facilement et rapidement calculée, ce qui correspond d’une certaine manière au but recherché (ou « mesure » de réussite). Faire correspondre un objectif souhaité et une quantité facilement mesurable est un problème qui a été reconnu depuis des décennies dans plusieurs disciplines ; notamment en 1975, lorsque l’économiste Charles Goodhart publia un article sur la régulation économique qui popularisa ce que l’on appelle désormais la loi de Goodhart :

« Lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure. »

Formulé de façon moins accrocheuse : « Toute régularité statistique observée tend à s’effondrer dès lors qu’une pression lui est appliquée pour la contrôler. » Quelle que soit la formulation, la loi laisse entendre que chaque fois que notre performance est mesurée en chiffres, nous optimisons pour atteindre ces chiffres. En d’autres termes, nous « bidouillons » les mesures.

Loi de Goodhart, EXPLICATIONS EN DESSINS

Les modèles de réseau de neurones finissent par faire la même chose. L’objectif pour lequel ils sont optimisés n’est qu’un indicateur pour la réelle mesure de performance. Il n’y a aucun moyen de garantir que le modèle fera en sorte que les performances correspondent à celles attendues en réalité.

Les modèles de traduction automatique neuronale, par exemple, sont optimisés pour BLEU, un algorithme d’évaluation comparant la production du modèle à une traduction de référence, mot à mot. Dans la réalité, ce qui compte est que la traduction soit fidèle et précise, même si sa formulation est différente de celle de la phrase d’origine.

2. Optimiser avec des données non représentatives

Comme dans le cas de la détection de neige, des modèles puissants peuvent atteindre des performances (mesures) supérieures simplement en apprenant les idiosyncrasies des données d’entraînement. Mais les données réelles peuvent être quelque peu différentes et ne pas contenir les mêmes idiosyncrasies ou fréquences globales de termes, catégories, arrière-plans, etc. Lorsqu’ils sont utilisés dans des scénarios réels, ces modèles sont inévitablement biaisés en faveur de la représentation qu’ils ont apprise à partir des données d’entraînement. Un loup dans un paysage verdoyant deviendra facilement un husky.

Lorsqu’on utilise des données non représentatives pour l’entraînement, parfois sans se soucier de la manière dont ces données d’entraînement ont été collectées ou de leur origine, il peut être très problématique d’appliquer un modèle à des situations différentes de celles qu’il connaît. Le modèle devient biaisé. Et bien que ce biais appris de manière implicite puisse ne pas sembler trop problématique dans cette situation particulière (à moins que, bien sûr, quelqu’un ne soit attaqué et déchiqueté), quand cela se produit avec des demandes de prêt, des crédits d’impôt pour le logement, voire des entretiens d’embauche, il est effrayant de penser à ce que cela pourrait impliquer.

L’année dernière, le tribunal de l’État de Californie a décidé qu’il y avait trop de parti pris humain concernant la détermination des montants des cautions. Argumentant que cela supprimerait ce parti pris, l’État de Californie a adopté une loi rendant obligatoire l’utilisation d’un algorithme pour évaluer le risque qu’une personne ne se présente pas devant le tribunal, ce qui, selon lui, fournirait une opinion plus objective. Mais d’où viennent les données d’apprentissage pour cet algorithme ? Très probablement à partir d’archives historiques, qui contiennent le biais même que l’algorithme est censé éviter.

Dans la nature

Les réseaux de neurones ont confiance dans leurs prédictions, même si elles n’ont aucun sens.

Même après avoir corrigé le modèle loup/husky, il subsistait toujours un problème. Que prédirait-il lorsqu’on l’alimenterait d’une image de coyote, de renard ou même d’ours ?

Nous savons que notre modèle loup contre husky ne reconnaît pas un ours quand il en voit un. Il essaiera de le classifier en tant que loup ou husky. Mais en général, le problème avec les modèles neuronaux est que la probabilité qu’ils assignent à une production donnée ne reflète pas la confiance qu’ils ont en cette prédiction. Les probabilités ne peuvent pas être considérées comme des estimations de confiance. Les réseaux de neurones sont confiants dans leurs prédictions, même lorsqu’elles n’ont aucun sens, et même lorsque les données d’entrée sont très différentes de tout ce que le modèle a vu lors de son entraînement. Lorsque le modèle tombe sur l’image d’un ours, le résultat peut aller de 100 % loup à 100 % husky. Ne serait-ce pas un soulagement si notre modèle donnait un résultat de 50 % / 50 % ? Nous pourrions alors prendre toutes les mesures de précaution pour éviter de nous rapprocher.

Ce que nous souhaiterions, c’est que nos modèles fassent preuve d’une grande incertitude lorsqu’ils traitent des données dans des domaines qu’ils n’ont jamais vus auparavant. «Nous voulons qu’ils “échouent gracieusement” lorsqu’ils sont utilisés en production », a écrit Anant Jain dans son article sur Medium. Cela nous permettrait de faire confiance aux prédictions de notre modèle.

Malheureusement, la pratique actuelle consiste à faire confiance à un modèle d’après les performances qu’il a obtenues d’un indicateur unique sur un ensemble de données non représentatif.

Y a-t-il de l’espoir ?

Aucun de ces problèmes ne peut être résolu facilement. Ils exigent des efforts et du temps de la part des chercheurs, ingénieurs, organismes de réglementation, décideurs et responsables politiques. Mais il y a de l’espoir.

Pour éviter le surapprentissage en utilisant une mesure approximative unique qui ne reflétera pas la mesure réelle souhaitée, nous pouvons entraîner des modèles à l’aide de mesures complémentaires. Le meilleur modèle devrait être celui qui fonctionne bien pour toutes. En outre, nous devrions déployer des efforts considérables à mesurer périodiquement les performances dans la réalité, ne serait-ce que pour quelques exemples partiels (car cela nécessite généralement une intervention humaine).

Pour réduire autant que possible les biais implicites, davantage de données d’entraînement représentatives seront à l’évidence utiles. Cependant, savoir quelles données sont plus représentatives est en soi un défi. Ce qui serait vraiment utile, c’est de disposer de modèles qui peuvent être expliqués ou qui sont capables de fournir une explication de ce qu’ils prédisent. C’est exactement ce qui nous permettrait d’identifier immédiatement le biais loup-neige.

Enfin, le fait de pouvoir faire confiance aux prédictions des modèles permettrait d’appliquer plus sûrement l’IA. Les humains pourraient intervenir chaque fois qu’une certaine limite de confiance ne serait pas atteinte, permettant ainsi aux modèles de faire un travail remarquable en traitant les données auxquelles ils sont réellement adaptés.

Chez Unbabel, nous rencontrons régulièrement des huskies, des loups et des ours. Mais en incluant des humains pour corriger les erreurs de nos modèles et évaluer la véritable qualité de ce que nous fournissons, nous sommes en mesure d’améliorer en permanence nos modèles et la manière dont nous les évaluons automatiquement.

Pour paraphraser notre vice-président des technologies linguistiques, Alon Lavie :

Le [fait] pratique le plus important pour nous est que les résultats expérimentaux que nous obtenons ne se généralisent pas comme nous le supposons et ne sont en réalité pas représentatifs de notre scénario de traduction. Ça arrive tout le temps.

L’IA est là pour durer, et nous en avons déjà récolté les fruits. Mais nous arrivons à un point critique où les réseaux de neurones sont utilisés à si grande échelle que nous devons nous montrer plus responsables dans la manière dont nous les entraînons. Nous voyons de plus en plus de loups, la neige fond et nos amis sont quelque part là-dehors. Peut-être devrions-nous nous efforcer de réparer ce qui ne fonctionne pas avant qu’il ne soit trop tard.