L’autre jour, j’étais au téléphone avec ma grand-mère quand elle m’a dit : « Je ne sais pas ce que tu fais dans la vie, mais peu importe ce que c’est, ça me va si tu es heureuse. »

De nos jours, expliquer à votre grand-mère ce que vous faites pour gagner votre vie peut être compliqué. Il y a des métiers qui sont encore assez simples à définir : si vous êtes architecte, vous concevez des maisons ; si vous êtes ingénieur, vous les construisez. Mais il existe également un certain nombre de métiers liés à la technologie qui sont difficiles à comprendre pour quelqu’un qui a grandi à une autre époque. Ma grand-mère arrive à comprendre qu’une partie de mon travail consiste à écrire, mais elle ne comprend pas le côté Internet des choses, sans parler du secteur d’activité d’Unbabel.

Lorsque j’ai demandé à Yoav Goldberg, maître de conférences au département d’informatique de l’université Bar Ilan, comment il expliquerait son métier à sa grand-mère, je m’attendais à ce qu’il ait du mal à trouver une explication qui soit assez facile à comprendre pour le commun des mortels. Pourtant, il a dit tout simplement que son métier consistait à « faire en sorte que les ordinateurs fassent quelque chose d’assez malin avec le langage pour laisser à penser qu’ils sont plus ou moins capables de comprendre ».

Mais que fait au quotidien un maître de conférences en informatique ?

Yoav Goldberg partage son temps entre deux activités différentes. La première consiste à comprendre comment les modèles d’apprentissage profond apprennent et ce qu’ils peuvent ou ne peuvent pas apprendre, ce qui pour lui est un problème important car « personne ne comprend vraiment ce qui se passe ». Sa deuxième activité consiste à déterminer comment créer des composants ou des outils de Traitement Automatique du Langage Naturel qui seront utiles aux personnes et aux entreprises dont l’activité principale n’est pas le TALN et qui ne sont pas expertes en la matière, mais qui ont quand même besoin de ces outils pour, d’une certaine manière, traiter le langage.

Même s’il s’intéresse à l’application du TALN aux entreprises, il estime qu’il existe en général un décalage entre le monde universitaire et celui des entreprises. Le premier tend à identifier et à résoudre de nouveaux problèmes, tandis que le second souhaite mettre ces résultats en pratique. Dans certains cas, il est possible d’appliquer des recherches universitaires à différents secteurs d’industries, mais Yoav Goldberg explique que très peu de ces recherches sont développées en produits.

Je pense d’un point de vue universitaire, que nous ne nous concentrons pas suffisamment sur les éléments sur lesquels il faudrait réellement axer les efforts, tels que des valeurs ou d’autres paramètres qu’il est facile d’optimiser, mais qui sont en fait éloignés de ce que l’on veut en réalité.

Bien que ce ne soit pas directement son domaine de recherche, Goldberg estime que la traduction automatique est probablement la meilleure technologie disponible actuellement qui soit liée à ses recherches concernant le TALN. C’est celle qui fonctionne le mieux et qui est le plus souvent appliquée aux entreprises. La raison en est, à son avis, qu’il est possible de faire beaucoup de choses avec le langage, même si l’on ne le saisit pas dans toute son étendue. Il s’agit simplement de transformer une entrée dans une langue en une sortie dans une autre langue. On n’a pas besoin de comprendre ce qu’il y a au milieu.

Ainsi, on arrive sans difficulté à faire en sorte que la traduction automatique soit assez performante pour être utile. Mais c’est en cas d’échec qu’il faut intervenir pour comprendre le pourquoi de l’échec. Dans un article qu’il a écrit en 2017, Yoav Goldberg affirmait avoir beaucoup de respect pour le langage, par opposition aux « personnes de l’apprentissage profond qui n’en ont pas ». Selon lui, les chercheurs dans ce domaine affirmaient avoir résolu des problèmes qu’ils n’avaient à l’évidence pas résolu du tout.

Ils donnaient l’impression qu’ils se moquaient bien de savoir à quoi pouvaient ressembler les données. Il suffisait de manipuler des chiffres sans vraiment mesurer les subtilités du langage.

L’une de ces subtilités est le contexte. Par exemple, si vous lisez dans un journal : « si les prix augmentent, il va se produire quelque chose », ce ne sont pas les prix en général qui vont augmenter, mais plutôt les prix de quelque chose qui est peut-être mentionné dans le titre ou ailleurs dans l’article. Dans cette phrase spécifique, ce n’est pas clair, mais tous ceux qui la lisent comprennent de quoi on parle. Pas les machines.

Yoav Goldberg mène actuellement des recherches pour résoudre ce problème. C’est très difficile, car les gens peuvent omettre des informations de nombreuses manières en parlant ou en écrivant. Un autre exemple est la phrase suivante : « Non merci, j’en ai déjà eu cinq. » Ce sont cinq choses que l’orateur a déjà obtenu, mais dont le nom manque après le nombre. Les chercheurs traitent cette question en isolant différents contextes et en travaillant sur chacun d’eux séparément. L’équipe de Goldberg a mis au point un système capable de déduire ce type de contexte de façon relativement juste, mais il existe de nombreux autres contextes à prendre en compte et sur lesquels il faut travailler.

Lorsqu’il réfléchit sur l’avenir des recherches et applications du TALN, Yoav Goldberg pense que nous en serons probablement encore à utiliser les réseaux neuronaux dans cinq, voire même dans dix ans. Ils fonctionnent bien et il n’y a pas de meilleure technologie disponible pour le moment. Les réseaux neuronaux posent cependant un problème fréquent : ils fonctionnent lorsque vous avez assez de données et ne fonctionnent pas lorsque vous n’avez pas assez de données.

Dans les domaines pour lesquels il n’y a tout simplement pas assez de données disponibles, nous en sommes au point où on les fait fonctionner avec moins de données et très peu d’exemples, tout en essayant de les généraliser pour que les systèmes fonctionnent correctement. C’est une tendance que les chercheurs continueront probablement de suivre au cours des prochaines années.

Quant à la traduction automatique, Yoav Goldberg ne pense pas que les humains seront un jour exclus, principalement parce que les systèmes neuronaux ne savent toujours pas s’ils commettent des erreurs. Ils ne comprennent tout simplement pas le langage comme le font les humains.

Mais les aider à comprendre n’est pas non plus la priorité de Yoav Goldberg.

Je ne suis pas motivé par la recherche de l’intelligence, mais plutôt par des questions telles que « Comment le langage est-il structuré et comment pouvons-nous faire des choses utiles avec celui-ci ? »

Telles sont les questions qui l’ont guidé tout au long de ses 20 ans de carrière ; des questions qu’il n’avait pas vraiment vues venir lorsqu’il était enfant et qu’il rêvait de devenir magicien ou super-héros. Il jouait beaucoup à des jeux vidéo et était toujours curieux de savoir comment entrer une commande pour faire avancer les choses. Il dit aussi qu’il s’est toujours soucié de la langue jusqu’à un certain point.

Peut-être que magicien, super-héros ou même star de télé-réalité (il y a quelques années, on lui a offert l’opportunité de participer à la version israélienne de « Beauty and the Geek », mais il a décliné l’invitation), serait plus facile à expliquer à un parent âgé, mais maître de conférences en informatique est d’une certaine manière plus logique.