Comment les « robots conversationnels » peuvent-ils dialoguer avec les Humains ?

Les « robots bavards », nous commençons à être habitués ! Ils sont de plus en plus présents sur le web. Ils nous interpellent dès lors que nous nous connectons à nombre de sites. Ils peuvent nous renseigner sur les produits proposés par des sites e-commerce ou encore nous guider sur des sites institutionnels. Mais le plus souvent, ils sont chargés de répondre, à toute heure, à nos questions quand nous avons des soucis de service après-vente. Ils sont également de plus en plus présents à la maison sous forme de « boxes connectées », prêtes à répondre à toutes nos interrogations de la vie quotidienne (ou presque).

Alors, en tant que « chatbot virtuel », c’est tout naturellement que cKiou a voulu nous faire mieux comprendre comment ses congénères Assistants Conversationnels réussissent (plus ou moins) à dialoguer avec les Humains. Et qui dit « dialogue » dit compréhension du langage de l’interlocuteur et capacité à lui apporter de bonnes réponses.

Pour comprendre ces mécanismes, cKiou a interrogé sa nouvelle marraine, Carole Lailler, Dr en sciences du langage, spécialiste de morphosyntaxe.

– Hi, cKiou est super contente de faire ta connaissance Carole ! Et tout autant d’échanger avec toi sur la science du langage appliquée aux Intelligences Artificielles bavardes. Tu peux nous expliquer le lien entre la science du langage et la façon dont on fait parler les Intelligences Artificielles ?

– Bien sûr, cKiou ! Tu parles d’une « IA bavarde », quel joli trigramme ! Les linguistes vont parler de syntagmes, les enseignants de groupe nominal et les passionnés d’IA conversationnelle de trigramme (ensemble de 3 mots), ce qui décrit finalement bien l’ensemble de mes activités !

cKiou nous fait découvrir comment les Sciences du Langage font parler les Intelligences Artificielles

Carole Lailler, Dr en sciences du langage, spécialiste de morphosyntaxe et consultante en IA au sein de Scribe Conseil

Sans données, les systèmes d’Intelligences Artificielles ne « parlent » pas, ils ne comprennent rien !

Les sciences du langage aident à la préparation des données en amont de l’apprentissage des systèmes d’Intelligences Artificielles et à l’analyse en sortie des erreurs

Comment les Intelligences Artificielles peuvent-elles modéliser le langage humain ?

Aujourd’hui, pour réussir à apprendre à un système d’intelligence artificielle à modéliser une langue, il faut la lui apprendre par corpus interposés. Nous ne construisons plus beaucoup (même si cela arrive encore parfois) de règles sous la surveillance d’experts linguistes, mais nous injectons des données préparées, lissées (on les appelle normalisées) pour permettre aux systèmes d’apprendre la langue en se fondant sur des statistiques et de la logique.

Chaque mot est appris en contexte : le système avale des heures et des heures de fichiers audio et textuels pour ensuite calculer et maximiser les correspondances entre les phonèmes (les sons) et les graphèmes (suites de mots) possibles (cf. Le théorème de Bayes pour les connaisseurs !).

Ainsi, ils sont capables de capturer les usages en fonction des fréquences d’apparition en contexte. Les systèmes d’Intelligences Artificielles ne « parlent » pas, ils ne comprennent rien. Ils renvoient la meilleure probabilité en fonction de ce à quoi ils ont déjà été confrontés.

Les sciences du langage n’interviennent pas pour modéliser le langage à la place des systèmes, mais pour aider à la préparation des données en amont de l’apprentissage et pour regarder en sortie quelles erreurs sont commises. Dans le cas d’un système de transcription par exemple, il faut préparer les corpus d’apprentissage en fonction de la langue cible que l’on veut transcrire : degré de spontanéité, types de vocabulaire, conditions d’enregistrement (dehors sous la pluie, en studio) et d’interactions (conversations à bâtons rompus avec un membre de sa famille ou échange tendu avec un supérieur hiérarchique), plusieurs niveaux d’analyse interviennent pour circonscrire le domaine et le type de conversationnel auquel on est confronté.

Les arcanes du dialogue entre Assistants personnels et Humains

Siri comme Alexa sont des assistants personnels qui ont pour entrée un système de reconnaissance vocale. L’un est déclenché par une commande sur son téléphone, l’autre par un wake-up word1 qui permet de déterminer la frontière de début du message, ce qui est malin puisque c’est la première difficulté d’un système : savoir quand le son de la voix commence…

Même si je ne suis pas intime avec eux, il y a fort à penser qu’ils fonctionnent tous deux sur le même principe : un système de reconnaissance en entrée transforme le signal audio en suites de mots, puis une brique de compréhension travaille : avec des outils de Natural Language Processing, fondé eux aussi sur un apprentissage. On détecte le domaine, la demande et les concepts présents (ce peut être par de simples interrogations dans des dictionnaires, comme être le fruit de distances et autres calculs plus poussés).

Ensuite, c’est au tour de la gestion du dialogue : les problèmes de coréference (exemple : Monsieur Macron a visité le salon de l’Agriculture. Il en est reparti bien tard. Plus tard, le Président a déclaré que…), ainsi que l’évolution du dialogue sont analysés pour trouver le meilleur schéma de génération de réponse.

Enfin, c’est au tour de la génération de réponse d’intervenir. Que ce soit en allumant la lumière ou en donnant l’adresse du café du coin, ces assistants doivent reprendre des éléments de la requête et s’adresser à leur utilisateur avec respect et politesse. Lorsque, comme SIRI, ils sont dotés d’une voix de synthèse, les sons doivent être travaillés pour respecter la prosodie2 de la langue choisie. C’est un joli travail d’adaptation qui se fait lui aussi sur apprentissage (des séries de 2 ou 3 phonèmes, nommées alors diphones ou triphones, permettent de « recomposer » une voix selon une suite de mots.

Assistants personnels et reconnaissance vocale

La première difficulté : savoir quand le son de la voix commence…

Analyser l’évolution du dialogue pour trouver le meilleur schéma de génération de réponse

Nourrir les systèmes d’Intelligences Artificielles avec les meilleures données

Il est nécessaire de donner au système des données qui reproduisent la réalité de ce que l’on aura à transcrire. Il sera ainsi plus aguerri et ne fera que peu d’erreurs. Lorsqu’il se trompe, la solution proposée (il y en a toujours une, une machine n’a pas de pudeur) peut l’être pour plusieurs raisons :
– en identifiant tous les rouages du système (ce qui est beaucoup plus délicat pour les systèmes fondés sur des Réseaux de Neurones Profonds qui fonctionnent sans modélisation a priori, mais la construisent eux-mêmes au fur et à mesure des couches de neurones artificiels) ;
– en analysant les phrases à transcrire, l’objectif est de retrouver le ou les coupables : un mot inconnu, alors dit Hors-Vocabulaire, un locuteur défaillant, une suite de mots agrammaticale ou rarissime…

Les contraintes de l’apprentissage du langage pour les Intelligences Artificielles bavardes

Le Français est une langue morphosyntaxique : elle se comprend au fur et à mesure de la construction de l’énoncé grâce au contexte. En outre, elle est très homophonique (vair, vers, ver, verre… les poules du couvent couvent). Elle est donc délicate à apprendre car source d’ambiguïté qu’il faut lever : un œil sur la phonétique et la phonologie (les sons pour eux-mêmes et entre eux) et l’autre sur la morphosyntaxe (la forme et la place des mots dans un énoncé) permettent de traquer les subtilités de la langue pour mieux les faire apprendre.

Pour les bots, c’est la même chose : en leur donnant en entrée le maximum de variations possibles, ils deviennent plus robustes au fur et à mesure des itérations. Certes, on peut un peu « scénariser » le dialogue, mais il ne faut pas aller trop loin : le but n’est pas de réduire l’Humain dans son discours ou de lui imposer un schéma conversationnel, mais au contraire de lui donner une réponse en langue naturelle selon ses besoins. C’est d’autant plus vrai qu’il est rare qu’un Humain ait conscience de ses tics de langage ou des hésitations qu’il produit…

Chatbots, voicebots, callbots et autres bots conversationnels, quelles différences ?

 

– Hi, cKiou aimerait en savoir plus sur les différents types de « robots bavards » ! Quelle différence entre Siri et Alexa par exemple ? Les Humains interrogent les deux, mais j’ai cru comprendre que cela ne fonctionne pas de la même façon, même si les deux doivent pouvoir reconnaitre la parole humaine…

– Les bots et autres chatbots, voicebots : bots avec une entrée voix, callbots : bots avec une entrée téléphone, ou assistants virtuels (vive les synonymes), relèvent de deux types :

– ceux qui sont orientés tâches et donc l’objectif est de réaliser une tâche ou prendre une décision. Ils évoluent dans un monde circonscrit dont tous les éléments ou presque ont été identifiés.
– Les bots dits conversationnels qui fonctionnent en « domaine ouvert », c’est-à-dire sans périmètre défini.

Les deuxièmes sont bien plus délicats à architecturer que les premiers. Les bases de connaissances ne sont plus finies, elles sont le monde…

Les Assistants conversationnels répondent à une grande diversité de questions grâce à un long travail d’apprentissage

Un chatbot, c’est avant tout un travail autour de la gestion des connaissances…

Toutefois, on l’aura compris, ces bots ne peuvent être efficaces qu’à la condition d’un apprentissage sur corpus plus ou moins étiquetés. La tâche de classification permet en quelque sorte de catégoriser et de modéliser le monde : il faut entraîner ces modèles avec les labels correspondants. Il s’agit alors d’associer aux concepts (les mentions détectées dans les énoncés), les attributs de la tâche et du domaine ; c’est ce que l’on appelle le slot filling3.

Systèmes à bases de règles, algorithmes de classification avec des techniques différentes voire réseaux de neurones profonds entraînés sur des corpus dédiés, les techniques sont nombreuses et dépendent des données à disposition. Toutefois, les algo qui se cachent derrière sont avant tout des « recettes » mathématiques qui calculent, probabilisent, maximisent, rassemblent…

Nul doute que les 2 cités (Siri et Alexa) ont ce qu’il faut en magasin ! Ce qu’il faut retenir, c’est qu’ils fonctionnent d’autant mieux que les interactions sont courantes, ancrées dans un pragmatisme et un utilitarisme de bon ton. Certes, quelques petits plaisantins s’amusent parfois à demander Alexa ou Siri en épousailles, mais ce type d’interactions est lui aussi modélisé et appris. C’est un concept auquel le bot répond puisqu’il a été entrainé à reconnaître cette intention. C’est ce qu’on appelle des small talks, ils offrent une coloration naturelle et dynamique aux échanges, mais sont le fruit d’un long travail d’apprentissage et de gestion des erreurs pour les concepteurs. Tu vois, cKiou, un chatbot, c’est avant tout un travail autour de la gestion des connaissances…

– Hi, cKiou sait qu’il n’y a pas que les « robots bavards » qui sont naturellement concernés par une bonne maitrise du langage humain. Il y a aussi des Intelligences Artificielles capables de rédiger des articles de presse par exemple. Or, il parait qu’elles sont de plus en plus performantes. Là encore, la « recette miracle » ce sont les données ?

Carole Lailler– Oui ! Tu as tout compris. Ces outils (car ce ne sont que des outils) sont entraînés sur des centaines et des centaines de textes et parviennent donc à capturer les éléments les plus coalescents, c’est-à-dire logiques, des textes appris. Ils détectent les Entités Nommées (ces éléments qui renvoient à un référent unique comme les noms de personne, les dates, les lieux, les organisations), étiquettent les mots pour mieux en calculer/révéler les structures, identifient les thématiques et le vocabulaire racine. Bref, ils ne conservent que les éléments les plus saillants respectant la logique du document initial pour mieux en restituer la substantifique moelle. C’est formidable et très impressionnant, mais c’est surtout un effort qui repose sur le comptage des mots et une bonne (très bonne) classification.

 

Quelles perspectives pour les Assistants Conversationnels ?

 

– Hi, cKiou se demande si on peut dès à présent s’attendre à de grandes avancées permettant des usages encore plus élaborés, une relation plus étroite entre les robots bavards et les Humains…

– Disons qu’il ne faut pas oublier que tous ces « robots bavards » sont des outils d’assistance… Il faut donc cesser les fantasmes et même si Wall-E est adorable, je ne suis pas sûre que l’anthropomorphisme soit une solution bienvenue. En revanche, en gérant mieux les historiques de conversations, en multipliant les bases de connaissances idoines et en ayant des reconnaissances de la parole en entrées encore meilleures, on peut s’attendre à des interactions plus centrées sur les besoins de l’humain avec des accompagnements personnalisés : accompagnement dans un traitement médical, accompagnement à la lecture pour les petits apprenants, etc. Bref, de jolies voies à explorer du bout des lèvres !

Carole Lailler, Dr en sciences du langage, spécialiste de morphosyntaxe et consultante en IA au sein de Scribe Conseil

_____________________

1 Le « mot réveil » est un très court signal vocal qui indique à l’algorithme (toujours à l’écoute) que l’on s’adresse à lui, quelle que soit la voix qui le prononce (homme, femme, enfant), avec ou sans accent
2 L’inflexion de la voix, la tonalité, l’accent, la modulation que nous donnons à notre expression orale
3 Permet de concevoir un flux de conversation, collecte de valeurs, de paramètres dans une intention donnée

Merci Carole de nous avoir entrainés dans les arcanes du dialogue entre Assistants personnels et Humains à travers les sciences du langage ! On note l’importance des données langagières destinées à l’apprentissage des systèmes d’Intelligences Artificielles bavardes. On comprend à quel point la modélisation du langage humain requiert un travail colossal et très exigeant pour nourrir en amont leurs corpus d’apprentissage. D’autant que ces petits robots bavards doivent savoir tenir compte de nos tics de langage et autres imperfections de l’expression humaine !

C’est précisément d’une telle richesse de données dont j’ai voulu doter le corpus d’apprentissage de ma petite cKiou à travers ses marraines et parrains humains ! Leur expertise, leur personnalité, leur convivialité… apportent à cKiou (et du même coup à ses lectrices et lecteurs) une meilleure compréhension du monde digital, de ses évolutions, de ses enjeux.

Pour ne pas manquer les prochains apprentissages de cKiou :

INSCRIPTION

(les adresses e-mails ne sont ni affichées ni cédées à des tiers)