Digital Society Forum Digital Society Forum
Entretien 24/12/2018

Machines parlantes "intelligentes" : la réalité est bien en-deçà des discours marketing

Spoon, robot conversant (photo : Claire Richard)
Des assistants vocaux "intelligents", capables de nous comprendre et de répondre rapidement à nos désirs : telle est la promesse marketing des machines parlantes. Mais, explique la chercheuse Julia Velkovska , sociologue au laboratoire SENSE à Orange Labs, qui les a étudiés en situation, la réalité est bien différente. L'écart qu'elle pointe entre la réalité des pratiques et le discours promotionnel en dit long sur les fantasmes qui accompagnent les "machines intelligentes", et ce qu'elles peuvent réellement accomplir.

À quand remonte le désir de « parler avec les machines » ?

La conversation humaine comme étalon de l’intelligence de la machine représente en effet un des grands mythes fondateurs de l’intelligence artificielle, en particulier dans le domaine des technologies de la parole dites de « dialogue naturel ». En effet depuis le test de Turing en 1950, c’est par la capacité des machines à converser, à être des partenaires conversationnels « acceptables » qu’est éprouvée et mesurée leur « l’intelligence ». Turing se pose la question de savoir si les machines peuvent penser (et c’est le titre de son célèbre article de 1950 « Can machines think ? »). Et pour y répondre, il imagine un jeu d’imitation organisé sous forme de dialogue entre une personne et une machine qui a pour objectif de tromper son partenaire humain sur son identité de genre.

Plus largement, la question de la conversation soulève celle de l’humanité de la machine. Doter les machines informatiques de capacités typiquement humaines constitue non seulement un rêve des chercheurs en IA, mais aussi une philosophie de conception qui ne cesse de se développer : on peut parler d’un mouvement d’anthropomorphisation progressif, comme nous le soulignons dans notre rapport de recherche « Personnalité, émotions et anthropomorphisme dans la conception et les usages des agents ‘intelligents’ » [lire le rapport ici]. Dans un premier temps il s’agissait de reproduire les capacités cognitives puis perceptives humaines. Cette philosophie a été étendue à d’autres aspects qui caractérisent l’être humain comme son apparence physique dans la robotique humanoïde (travaux de Hiroshi Ishiguro sur les Géménoïdes ) Une deuxième « vague d’anthropomorphisation » apparaît avec l’émergence récente de courants de recherche comme la robotique sociale et l’informatique affective qui cherche à doter les machines d’émotions et de personnalités, de compétences sociales afin d’occuper des rôles sociaux comme celui de l’assistant, du compagnon ou de l’agent d’accueil.
Cela pose de nouvelles questions. Faut-il construire des machines de plus en plus semblables aux humains, anthropomorphes ? Et si oui, qu’est-ce que ça veut dire : qu’elles peuvent uniquement raisonner et résoudre des problèmes logiques, ou bien qu’elles sont aussi capables de converser, de reconnaître et de manifester des émotions, des personnalités, voire de ressembler physiquement à des humains ?
Il n’y a pas de consensus là-dessus. Dès les années 1960, la question de la copie de l’action humaine, de la conversation, des émotions… a divisé le milieu de l’intelligence artificielle et ses critiques du côté de la philosophie et des sciences sociales.
D’un côté, il y avait les tenants d’une intelligence artificielle forte, partisans de l’idée que l’on peut imiter toutes les capacités humaines, qu’il s’agit juste d’une question de progrès technique. Par exemple, les pionniers de l’intelligence artificielle, Simon et A. Newel, annoncent en 1958 l’effacement des différences entre les humains et les machines informatiques : « L’intuition, l’inspiration, la perspicacité, la faculté d’apprendre ne sont désormais plus l’apanage des humains : n’importe quel gros ordinateur puissant et rapide peut également en faire preuve lui aussi. ».
De l’autre, les tenants d’une intelligence artificielle faible qui soutenaient que ces systèmes pouvaient avoir des applications dans certains domaines et tâches où ils pouvaient arriver à simuler efficacement certaines capacités humaines, mais qu’il était impossible d’aller vers une copie de l’humain dans sa généralité. De façon schématique, ces deux tendances se retrouvent à toutes les époques de l’intelligence artificielle.

On a quand même l’impression que c’est la première qui domine dans le débat contemporain, non ?

Il faut distinguer plusieurs dimensions du discours sur l’IA. Il y a le discours marketing, tenu par les entreprises ou certains médias, qui vous dit que votre système vocal pourra être votre ami, un membre de votre famille, que vous pourrez lui parler naturellement… Dans les communautés scientifiques, certains défendent aussi cette tendance ambitieuse de copier l’humain en général.
Mais depuis les années 1970, des travaux en philosophie, puis en sciences sociales, soutiennent que cette copie intégrale est impossible, et critiquent notamment la façon dont l’intelligence artificielle modélise l’intelligence humaine. Le philosophe Hubert Dreyfus , par exemple, soutient que pour faire sens et agir dans le monde les êtres humains sont capables d’une compréhension globale d’une situation. Cette intelligence pratique – qui manquera toujours aux ordinateurs - est une compétence des humains intimement liée au fait qu’ils sont dotés de corps, toujours situés, qu’ils sont socialisés dans une culture donnée et qu’ils sont capables ainsi de saisir un contexte global. Être socialisé dans une culture, c’est avoir intégré une série de savoirs, de règles, de routines, qui permettent de comprendre et d’interpréter les actions et les énoncés dans un contexte.
Cette notion de contexte est centrale dans la critique de « l’intelligence » artificielle : l’idée, c’est qu’une règle est toujours énoncée dans un contexte et qu’il est impossible d’encoder tout ce qui pourrait composer ce contexte. Dreyfus souligne que quand les informaticiens disent qu’une machine est très intelligente, ils se basent toujours sur des situations qui mobilisent des règles abstraites, comme le jeu d’échec ou des problèmes mathématiques. Or, dans les situations sociales ordinaires, nous pouvons agir de façon ouverte et créative tout en suivant des règles plus ou moins explicites. Dreyfus écrit au sujet de l’intelligence des machines : « De même que le terme « artificielle », celui d’« intelligence » peut faire naître un malentendu. Nul n’espère du robot ainsi attendu qu’il soit capable de reproduire la totalité de ce qui est tenu pour conduite intelligente chez l’être humain. Il n’aura pas besoin par exemple, de se trouver une épouse qui lui convienne, ni de traverser une avenue encombrée. Il n’est question pour lui que de rivaliser avec l’esprit humain dans les domaines les plus abstraits et les plus platoniques, comme par exemple de triompher du test de Turing. »
Aujourd'hui, il y a beaucoup de discours pour dire que ces machines vont nous ressembler, qu'on va vivre avec elles. Dans la réalité des pratiques, on est loin d'en être là.

À quoi est du le bond qualitatif des assistants vocaux ?

Il y a eu récemment des avancées en ce qui concerne la reconnaissance vocale et la synthèse vocale, mais surtout dans l’apprentissage machine, l’apprentissage profond et la capacité des ordinateurs de traiter de grandes bases de données. Les premiers systèmes conversationnels étaient des « automates à état », avec des arborescences où tout devait être paramétré. Aujourd'hui, l’apprentissage machine permet d’avoir des systèmes capables d’apprendre de leur contexte d’usage et de faire autre chose que l'application de règles strictes — même si ce n’est que le début. Leur développement est spectaculaire dans le domaine de la maison (avec des produits comme Echo, Google Home etc.), mais aussi dans la relation client (par exemple Spoon chez Orange, ou encore Pepper chez Uniqlo, Carrefour, Darty, Renault), l’espace public, le diagnostic médical… Cela pose la question de la place de ces systèmes dans chacune de ces situations et de l'accompagnement qu'il est pertinent d'avoir.
Ceci dit, il faut se méfier de certains termes très larges : « intelligences artificielles », « machines conversantes », qui peuvent recouvrir des réalités très différentes. Il n'y a pas grand-chose de commun entre un robot conversant développé par la chercheuse Justine Cassel pour aider les enfants autistes et un chatbot de relation client qu’on contacte pour payer une facture. Quand on utilise des catégories trop vastes, il est difficile de savoir de quoi on parle.

Les GAFAM investissent tout particulièrement sur la reconnaissance vocale et la reconnaissance du langage naturel. Pourquoi ?

C'est une nouvelle interface, permettant de se passer du clavier et du tactile, qui ouvre un champ d’action et un marché énorme, qui peut avoir des applications très intéressantes dans des situations de handicap ou encore d'illettrisme... L'interface vocale est vue comme une interface « démocratique » parce qu’elle lève les barrières de l'écrit, du tactile...
Or nos études montrent que la dimension démocratique n'est pas si évidente que ça. Avec les assistants vocaux, par exemple, présentés comme des objets familiaux et partagés, on observe que tous les membres du foyer ne sont pas sur un pied d'égalité. Les jeunes enfants, par exemple, ont beaucoup de mal à se faire comprendre, comme les personnes qui auront un débit de parole particulier ou des accents. L’assistant est cadré pour des personnes plutôt adultes, sans accent, avec un débit de parole normal... On constate qu'il y a un modèle de famille incorporé : un modèle « horizontal », où tous les membres se trouveraient à niveau égal dans leur pratique, leur compétence, leur motivation, leur rapport à l’objet… alors que dans la réalité l’organisation des rôles et des relations familiales est plus compliquée.

Qu'avez-vous observé dans vos études sur les interactions avec les agents intelligents ?

Je travaille depuis une dizaine d’années sur les interactions avec les agents intelligents dans le cadre la relation client et dans la sphère familiale. Ces recherches souvent réalisées en collaboration ont porté sur une variété de systèmes : system vocal intelligent de type serveur vocal interactif pour la relation client téléphonique (avec Valérie Beaudouin), un robot social d’accueil (Spoon), des assistants vocaux domestiques (avec Moustafa Zouinar et Clair-Antoine Veyrier).
Ce qui m'intéresse, c'est de comprendre comment la machine et les personnes coopèrent pour arriver à faire quelque chose ensemble, qu'il s'agisse d'accomplir une tâche, de converser, de consulter un service ou de piloter des équipements dans une maison. À partir de là j’explore le type d’interaction et de relations que nous développons avec les agents intelligents.

Il est frappant que de constater la persistance de certaines questions : nous retrouvons dans nos études sur les assistants vocaux ou le robot Spoon des questions que nous avions déjà identifiées dans nos travaux en 2006-2007 sur les serveurs vocaux intelligents. Je pense notamment au travail de l’utilisateur nécessaire au fonctionnement des agents intelligents: travail d’ajustement et de résolution de problème, travail émotionnel .
Les travaux sur les assistants vocaux domestiques que nous avons lancées en 2015 nous permettent aujourd’hui de décrire plus précisément ce travail de l’utilisateur et le type d’interaction et de relation que les personnes nouent avec ses systèmes au quotidien . Notre corpus d’enregistrements vidéo d’interactions avec les assistants est une ressource précieuse pour explorer la réalité des usages, par exemple l’intégration des assistants vocaux dans des routines quotidiennes, le régime de familiarité dans lequel ils s’inscrivent, la place qu’ils peuvent occuper dans l’espace familial.

Mais peut-on alors réellement parler de coopération ? N’est-ce pas plutôt une adaptation de l'agent humain à la machine ?

C’est vrai : dans les faits, il s'agit bien plus d'un travail d'adaptation et d'ajustement aux capacités de la machine. Il y a beaucoup de cas d'échec, où la personne doit répéter, reformuler ou mener un travail d'enquête pour comprendre ce qui ne fonctionne pas... Sans ce « le travail de l'utilisateur », l’assistant intelligent ne fonctionne pas. Tout ce travail d'ajustement incombe à l'humain, parce que la machine ne s'adapte pas, elle ne fait que ce qui est dans ses capacités. C'est à la personne de savoir quoi dire, à quel moment parler, comment interpréter ses incompréhensions... On observe en situation un réel écart entre le discours promotionnel et la réalité des pratiques, qu’il s’agisse des assistants domestiques ou des robots sociaux dans les services. Il ne faut pas négliger la dimension politique de ce phénomène dans le contexte de généralisation des interfaces vocales dans la société. Le travail de l’utilisateur devient travail du consommateur, de l’usager ou du citoyen lorsqu’il conditionne respectivement l’accès (ou le non-accès) aux services marchands, aux services administratifs ou à la sphère d’action citoyenne et politique.

Comment les personnes se figurent-elles ces objets ? Quel type de relation entretiennent les gens avec ces entités ?

Pour moi, tout le discours sur la confusion entre agents intelligents et les humains, le brouillage des frontières etc. est largement un fantasme. L’ensemble des travaux sur l’interaction homme-machine font le même constat. Dans les situations que nous avons observées ou dans les entretiens, il n’y a jamais de confusion, les personnes savent tout de suite qu'elles parlent à une machine.
La vraie question serait plutôt : quelle est la place de ce genre d'êtres artificiels, qui ne sont pas ni des compagnons ni des objets comme les autres, parce qu’ils nous imitent, ils peuvent prendre des décisions, ils nous parlent etc.… ? Quelles relations pouvons-nous avoir avec eux ?
Quand l'usage des assistants vocaux se stabilise, on observe des usages très opérationnels, utilitaires (consulter la météo, les titres de presse). On n'est pas du tout dans la recherche d'une relation. Cela n’empêche pas des formes d’attachement, de familiarité, d’habitude… Comme on peut être attaché à son téléphone ou à sa voiture. Même si avec la spécificité de la conversation, on est sur des régimes de familiarité différents, qui n'est pour autant pas assimilable à celui qu'on peut avoir pour une personne.

Les assistants vocaux ont beaucoup de mal à comprendre à quoi renvoient les pronoms, par exemple, alors qu’ils sont très courants dans la langue naturelle, ce qui montre combien un contexte même simple pose problème aux machines dites "intelligentes". Pensez-vous que ce problème puisse être résolu ?

Avec les progrès des techniques d'apprentissage, les systèmes apprendront de plus en plus de la situation dans laquelle ils sont. Mais un système s’entraîne sur des bases de données décontextualisées. L'action humaine est contingente, située, elle s'adapte à un contexte. Pour l'instant, on ne voit pas quels capteurs pourraient équiper un système pour qu'ils puissent avoir la même saisie et la même compréhension du contexte qu'un être humain. Ce point rejoint les critiques de l’IA formulées par des auteurs comme Dreyfus, Collins, Woolgar.
On peut aussi se poser une question beaucoup plus simple : a-t-on vraiment besoin de telles machines ? et pour quoi faire ? Est-ce qu'on ne peut pas faire des choses intéressantes avec les agents tels qu'ils existent aujourd'hui, avec ce qu'ils savent faire aujourd'hui ?

Comme quoi par exemple ?

Je pense au handicap, aux situations de violence faites aux femmes, ou de danger pour des personnes vulnérables comme les personnes âgées. Pour ça, il faudrait que l'assistant vocal fonctionne bien mieux qu'aujourd'hui. Développer des applications en fonction de situations et des personnes est peut-être plus intéressant que de chercher cette IA maximaliste pour des buts finalement mal définis. Car au fond, on ne sait pas bien pourquoi il faudrait des machines anthropomorphes.

Ces systèmes collectent énormément de données pour pouvoir être performants. Cela pose des questions très importantes relativement à la protection de la vie privée. Est-ce qu'il semble possible de développer des systèmes qui ne collecteraient pas autant de données ?

Ces systèmes sont des boîtes noires, alors qu’ils peuvent être au cœur de l’intimité. Pour être efficaces, y compris dans les situations de danger que j'évoquais, ces systèmes doivent être à l'écoute de ce qui se passe. La question de leur intelligibilité, explicabilité et transparence est cruciale. Pour l’instant, on ne sait pas s'ils écoutent tout, ce qui est enregistré et pourquoi... ça pose des questions de protection des données.
Il est urgent d’ouvrir un peu la boîte noire, d’expliciter pour les utilisateurs ce que fait le système et quel contrôle on peut avoir. Il faut aussi que le cadre juridique, moral et éthique de la conservation et de l’utilisation de ces données soit clairement défini. C'est une question qui se pose et qui va se poser de plus en plus, à mesure que ces données sont collectées par des multinationales.

> Tout savoir sur le collectif ImpactAi


Les commentaires

Pour réagir à cet article, je me connecte Je m’inscris

Soyez le premier à réagir !

Les sources de cet article


S’inscrire et participer

Inscrivez vous sur le Digital Society Forum pour commenter et réagir sur les articles et être informé des événements à venir

DSF