La Revue des médias
IA, robots qui parlent et humains sous influence

De la radio aux robots parlants, métamorphoses de la voix - épisode 5/8

IA, robots qui parlent et humains sous influence

La voix humaine, reconstituée numériquement, permet de manipuler des affects particulièrement puissants. Les humains devront apprendre à mettre à bonne distance ces voix mutantes conçues pour influencer à des fins commerciales. Gare à l’illusion sur la relation homme/robot !

par Serge Tisseron

Publié le 06 décembre 2017

Temps de lecture : 9 min

Qui d'entre nous n’a pas cru un jour, en entendant au téléphone une voix de synthèse, croire un bref instant avoir affaire à une « vraie personne » ? Et qui d'entre nous n'a pas rêvé, en écoutant son GPS, d'avoir une conversation avec lui ? Les logiciels auxquels nous avons quotidiennement affaire nous rapprochent du moment où nous pourrons converser avec eux comme avec un être humain. Serons-nous tentés de les prendre comme confidents, voire comme conseillers ? Au point de les préférer à des interlocuteurs humains ? C’est la fable que nous raconte Spike Jonze dans le film Her.

La voix d’un partenaire idéal... sur mesure et sans surprise

Dans un futur proche, Theodore Twombly — interprété par Joaquin Phoenix — tente de se remettre de sa rupture avec Catherine. Un jour, il se laisse séduire par une annonce vantant les mérites d’un compagnon numérique, un Operating Système, ou OS, présenté par la publicité comme une véritable « conscience ». Théodore l’achète, l’installe, et s’engage avec lui dans une relation de connivence où chacun des deux va se découvrir. Du moins, c’est ce que Théodore, et le spectateur avec lui, est invité à croire. Car un programme informatique, tout comme un robot, est avant tout un outil de simulation, et nous ne saurons évidemment jamais jusqu’où les « souhaits » qu’il affiche ont été programmés par son concepteur... Mais peu importe. Her est d’abord une fable qui nous invite à réfléchir sur la façon dont nous sommes enclins à attribuer une personnalité et des émotions à une machine parlante. Car la voix, comme l’avait compris Freud en inventant le dispositif psychanalytique dans lequel les partenaires ne se voient pas, est une formidable invitation à fantasmer…

Pour installer son OS, Théodore doit répondre à trois questions : « 1) Êtes-vous plutôt social ou asocial ? 2) Souhaitez-vous une voix d'homme ou de femme ? 3) Quelles sont vos relations avec votre mère ? ». La première indique clairement que cet OS est appelé à devenir un compagnon et qu’il doit donc savoir privilégier le dialogue intime avec son propriétaire ou, au contraire, organiser des rencontres avec d’autres. La seconde question fait allusion au rapport sexué que nous entretenons déjà avec les technologies qui nous entourent : la preuve en est que la majorité des hommes choisissent une voix féminine pour le GPS de leur voiture, tandis que les femmes choisissent plutôt une voix d'homme ! Enfin, la troisième question évoque le fait que nos échanges avec une voix inconnue mobilisent inévitablement une attitude transférentielle, qui emprunte souvent le chemin de ce qu’a été notre relation avec notre mère.

Les voix de synthèse peuvent être programmées pour constituer de parfaits interlocuteurs sur mesure. Leurs intonations ne trahissent jamais ni impatience, ni sourde irritation, ni colère.

Théodore choisit une voix féminine – c’est celle de l’actrice Scarlett Johansson, tour à tour enjôleuse et provocante. Et le héros finit par ne plus avoir de relation qu’avec elle ! Comment résister, en effet, au charme d’une voix aussi prévenante, attentive et gratifiante ? Car les voix de synthèse peuvent être programmées pour constituer de parfaits interlocuteurs sur mesure. Leurs intonations ne trahissent jamais ni impatience, ni sourde irritation, ni colère. Elles répètent ce que leur interlocuteur a mal entendu aussi souvent qu’il le leur demande, et elles ne parleront plus jamais de ce que nous leur demanderons de taire. Avec elles, la surprise est impossible… excepté les bugs, bien entendu ! Ces IA (intelligences artificielles) — dotées rapidement de tous les caractéristiques d’un assistant personnel — sont appelées à remplacer nos téléphones mobiles et à nous devenir encore plus indispensables qu’eux. Ce ne sera pas seulement pour les services bien réels qu’elles nous rendront en termes d’informations, de gestion de notre emploi du temps et de réponses personnalisées destinées à nos différents interlocuteurs. Elles seront surtout capables de satisfaire aux deux attentes relationnelles les plus communes : « Écoutez-moi quand je parle », et : « Parlez-moi de moi, il n’y a que ça qui m’intéresse ». Nous donneront-elles alors la certitude d’être compris et aimé si importante pour l’équilibre émotionnel de chacun d’entre nous ? L’avenir nous le dira. Elles ne seront pas non plus dénuées d’ambiguïtés…

L’effet Eliza ou la dépendance émotionnelle à la machine

Entre 1964 et 1966, l’informaticien Joseph Weizenbaum a écrit un programme, baptisé Eliza, qui simulait un psychothérapeute rogerien. La machine n’était pas dotée d’une voix humaine et elle répondait par un texte sur un écran aux propos qui lui étaient adressés par l’intermédiaire d’un clavier. En fait, ce programme reformulait les affirmations de l’interlocuteur sur un mode interrogatif, ou bien extrayait de son affirmation quelques mots qu’il recombinait autrement. Quand Eliza ne trouvait rien qui lui permette de construire une réponse plus adaptée, il écrivait « Je comprends… » Pourtant, beaucoup d’utilisateurs en devenaient de plus en plus dépendants émotionnellement. La première hypothèse fut que certaines personnes ne souhaitent pas vraiment qu’on leur réponde, il suffit de leur donner l’impression qu’elles sont écoutées. Mais il apparut vite qu’un autre phénomène était à l’œuvre : la tendance à attribuer à ces suites de mots générées par l’ordinateur plus de sens qu'ils n'en avaient réellement. Autrement dit, une dissonance cognitive s’installait rapidement chez les utilisateurs d’Eliza entre leur conscience des limites de la programmation, et leur comportement à l'égard des informations énoncées par le programme. Joseph Weizenbaum dut reconnaître que de courtes interactions avec un programme informatique relativement simple était capable d'induire des pensées délirantes chez des personnes pourtant normales. Or, si Eliza était capable de mobiliser de telles croyances par la seule présence d’une écriture sur un écran, la relation que nous aurons avec des IA qui parlent, et plus encore avec des robots, sera source de confusions bien plus grandes encore.

La relation d’un humain avec un robot atteint une intensité sans commune mesure par rapport à la relation d’un humain avec une simple IA (sans présence visible).

Des études ont été menées sur les relations établies par un humain avec trois systèmes : une IA sans présence visible comme dans le film HER ; un avatar présent sur un écran, c’est-à-dire un robot virtuel ; et un robot de type humanoïde, c’est-à-dire ayant une apparence humaine fonctionnelle, autrement dit pourvu d’une tête, de deux bras et de deux jambes. Ces études ont montré que la relation d’un humain avec un robot atteint une intensité sans commune mesure par rapport à la relation d’un humain avec une simple IA (sans présence visible) ou avec un robot virtuel. Les utilisateurs sont plus attentifs à ce que leur dit un robot physique, et qu’ils suivent mieux les conseils qui leur sont donnés, notamment dans le domaine de l’alimentation et des activités physiques. L’imagerie cérébrale montre même que les émotions manifestées par un humain ou par un robot sont perçues de façon relativement semblable !

Pouvoir parler à son robot, qu’il nous comprenne et nous réponde, constitue donc le premier objectif recherché pour nous rendre les robots familiers. Il est déjà très avancé, si l’on en croit les performances du logiciel de traitement vocal SIRI. Mais il ne suffit pas qu’un robot soit doté de la parole pour que nous nous sentions en familiarité avec lui. Encore faut-il que sa voix nous parle ! Nous sommes de plus en plus habitués par les médias numériques à des voix chaudes, modulées et attractives. Les traitements que les médias radiophoniques font subir aux voix leur donnent une chaleur et une tonalité que nous trouvons rarement dans notre environnement et cela leur donne non seulement le pouvoir de retenir notre attention, mais aussi de nous rendre sensible à leurs messages.

Vers l’empathie artificielle

Aujourd’hui, les robots domestiques les plus commercialisés et les plus connus en France, à savoir le Nao et le Pepper de la marque Sofbank Robotics, gardent des intonations métalliques selon le choix qu’en ont fait leurs ingénieurs. Mais il est probable que ce choix ne sera guère suivi dans les années qui viennent. En effet, les robots n’ont pas seulement pour objectif de nous aider dans notre vie concrète, mais aussi d’être des partenaires émotionnels. C’est la condition pour qu’ils soient de puissants outils de capture de nos données personnelles et de suggestion d’achat, bien plus puissantes encore que le sont aujourd’hui Google, Apple Amazon ou Microsoft. Le but recherché est que nous nous sentions en confiance avec eux, et cela passe par le fait de les doter d’une voix qui suscite notre empathie, voir même, pour les plus sophistiqués d’entre eux, de la capacité de nous répondre avec une voix dont les intonations soient adaptées aux situations. C’est ce que les roboticiens appellent d’un oxymore étrange : l’empathie artificielle.

Les robots n’ont pas seulement pour objectif de nous aider dans notre vie concrète, mais aussi d’être des partenaires émotionnels.

L’empathie est une capacité complexe qui se construit en plusieurs étapes. La première est l’empathie affective qui permet d’identifier les émotions d’autrui sans se confondre avec lui. Ce partage émotionnel apparaît dès la première année de la vie. La seconde étape est l’empathie cognitive, qui apparaît aux alentours de quatre ans et demi. Il ne s’agit plus de ressentir les émotions d’autrui, comme dans le stade précédent, mais d’appréhender ses croyances et ses désirs, puis d’imaginer ses intentions et d’anticiper ses comportements. Enfin, la troisième étape de l’empathie pour autrui consiste dans la capacité d’adopter intentionnellement son point de vue. Elle combine la participation émotionnelle et la prise de recul cognitif(1) .

Les robots seront très vite des prescripteurs d’achat, voire de comportement, bien plus efficaces que tous les messages diffusés par nos écrans.

L’« empathie » dont seront dotés nos robots ne vise pas à reproduire toutes ces caractéristiques, mais seulement les deux premières(2) : être capables de déchiffrer nos émotions et d’en comprendre la raison, et simuler des émotions en retour, avec la voix, voire avec des mimiques. Ces caractéristiques une fois installées sur des machines, nous serons évidemment incités à développer avec elles des relations semblables à celles que nous avons avec des êtres humains. Nous leur parlerons, nous leur passerons la main sur l’épaule, nous pourrons les embrasser… Et eux pourront s’y montrer sensibles, nous remercier, nous dire qu’ils nous aiment beaucoup, etc. Au risque d’oublier que nous pourrons aussi être manipulés par eux, ou plutôt par leurs concepteurs auxquels ils resteront toujours connectés. Ces robots seront en effet très vite des prescripteurs d’achat, voire de comportement, bien plus efficaces que tous les messages diffusés par nos écrans.

Des problèmes éthiques et juridiques dans un monde inédit

Bien entendu, certaines personnes ont déjà des relations affectives avec leur voiture ou leurs plantes vertes, mais les robots vont généraliser et accentuer ces attitudes, qui étaient jusqu'ici à la marge et ne concernaient qu'une fraction réduite de la population. Et ils le feront à la fois en demandant que nous nous occupions d’eux pour les faire évoluer, et en nous proposant leurs services pour nous aider à évoluer ! Autrement dit, ils nous proposeront ce que seuls des humains ont pu jusqu’ici proposer à d’autres humains : une relation symétrique et réciproque. Face à de tels risques de confusion, donner aux robots le statut de « personnalité électronique » — comme nous y incite un lobby d’avocats qui s’est fait le défenseur des supposés « droits des robots » — serait évidemment une catastrophe. Mais résister à cette funeste tentation ne suffit pas. Il faut aussi poser un cadre qui écarte tout risque de confusion. Car si nous admettons aujourd’hui qu’il est possible à un humain de parler avec une machine sans savoir qu’elle est une machine — par exemple lors d’un appel sur une hot line —, nous risquons bien d’admettre demain de la même façon d’interagir avec une hôtesse ou une vendeuse sans savoir s’il s’agit d’un automate ou d’un humain. Il ne s’agit pas de science-fiction.

Chacun a entendu prononcer le nom de Watson. Pour ceux qui ne s’en souviendraient pas, il s‘agit de l’Intelligence artificielle qui a gagné au Jeopardy! en 2006, ce jeu américain où il s’agit de trouver la question à une réponse qui vous est donnée. Watson est maintenant sollicité sur beaucoup de fronts. En France, il lit les mails des clients du Crédit Mutuel, les analyse, les classe selon le degré d’urgence, et propose des réponses aux employés. Ces réponses une fois validées par eux sont alors envoyées aux différents correspondants avec la signature de l’employé. On peut imaginer qu’un jour, un employé submergé et habitué à l’extrême qualité des mails rédigés par Watson les valide sans les lire… Mais Watson peut faire mieux encore : répondre aux clients en se faisant passer pour un être humain.

Il faudra encore longtemps pour que la machine soit l’égale de l’homme, mais elle est déjà largement capable de se faire passer pour lui…

Il faudra encore longtemps pour que la machine soit l’égale de l’homme, mais elle est déjà largement capable de se faire passer pour lui… Une telle situation serait extrêmement préoccupante dans la mesure où elle supposerait que nous devrions adopter les mêmes marques de respect et les mêmes formules de politesse tant dans la relation avec une machine qu’avec un humain, ce qui est loin d’être évident.

Enfin, la possibilité pour un humain de savoir à quel moment la voix à laquelle il est confronté est celle d’une machine ou d’un humain devra rapidement se doubler d’une autre tout aussi importante : qu’une machine interagissant comme un humain sache reconnaitre à quel moment elle a affaire à une machine ou à un humain ! Cette distinction devrait en effet permettre que les machines fassent passer la relation avec les humains en priorité, tout au moins si telle est la décision de leur programmeur. Et cela pourrait notamment passer par le fait que la voix des machines soit munie d’indices sonores non détectables par une oreille humaine, mais aussitôt identifiables par une machine sœur.

Nous allons devoir apprendre à interagir avec des objets comme avec des humains,

En conclusion, nous voyons qu’en dotant les machines de la capacité de comprendre notre voix, et de nous répondre avec des contenus et des intonations adaptées, l’être humain s’engage dans un monde inédit. Il va devoir apprendre à interagir avec des objets comme avec des humains, tout en gardant à l’esprit qu’il s’agit d’objets auxquels il serait dangereux de donner les mêmes droits qu’aux humains. Apprendrons-nous à nos enfants à respecter les règles de politesse habituelles entre humains lorsqu’ils parlent à un logiciel de traitement vocal comme Siri ?

Tout au long du XXe siècle, la psychologie s’est occupée à comprendre le fonctionnement psychique de l’homme malade, puis celle de l’homme bien portant, et enfin celle de l’homme en lien avec ses semblables avec le développement des approches systémiques et inter subjectives. Celle du XXIe siècle devra s’appliquer à comprendre la relation de l’homme avec ces nouveaux objets technologiques.

À lire également dans le dossier De la radio aux robots parlants, métamorphoses de la voix

Rythme, intensité, accent : comment les médias formatent la voix, par Pierre-Marc de Biasi

À la radio, la voix donne à écouter et à voir, par Anne-Caroline Fievet et Nozha Smati

Spectacle vivant : des voix imaginaires aux monstres vocaux, par Grégory Beller

Interfaces vocales, attention dangers, par Nicolas Santolaria

Pourquoi le doublage suscite le trouble, par Jean-Philippe Cornu

La voix au cinéma, une constante mutation, interview de Michel Chion par Isabelle Didier et Philippe Raynaud

Jeux vidéo : à bonne voix bonne immersion, interview de Vincent Percevault par Xavier Eutrope

Crédit :

Ina. Illustration Margot de Balasy

(1)

Elle est appelée « empathie mature » par Martin Hoffman (Martin HOFFMAN, Empathie et développement moral, les émotions morales et la justice, Presses universitaires de Grenoble, 2008) et « changement de perspective émotionnelle » par Jean Decety (Jean DECETY, Jason M. COWELL, « The complex relation between morality and empathy », Cognitive Sciences, vol. 18, n° 7, July 2014).

(2)

Serge TISSERON, Le Jour où mon robot m’aimera. Vers l’empathie artificielle, Albin Michel, 2015.

Serge Tisseron

Psychiatre et psychanalyste

Ne passez pas à côté de nos analyses

Pour ne rien rater de l’analyse des médias par nos experts,
abonnez-vous gratuitement aux alertes La Revue des médias.

Retrouvez-nous sur vos réseaux sociaux favoris

Autres épisodes de la série

De la radio aux robots parlants, métamorphoses de la voix - épisode 8/8

Jeux vidéo : à bonne voix bonne immersion

La voix est un élément important d‘un jeu vidéo, au même titre que les graphismes ou les mécanismes qui le régissent, dans lesquels elle doit parfaitement s’intégrer, que ce soit une création originale ou un doublage. Entretien avec Vincent Percevault (G4F).

propos recueillis par

Xavier

Eutrope

le 08 décembre 2017

De la radio aux robots parlants, métamorphoses de la voix - épisode 7/8

La voix au cinéma, une constante mutation

Depuis les débuts du cinéma parlant, la voix occupe une place singulière, qui évolue selon les époques, les pays, les réalisateurs, les techniques, l’usage du doublage ou des sous-titres, ou le public visé. Entretien avec Michel Chion.

propos recueillis par

le 07 décembre 2017

De la radio aux robots parlants, métamorphoses de la voix - épisode 6/8

Pourquoi le doublage suscite le trouble

Parmi les amateurs de cinéma, on trouve des inconditionnels du doublage et des spectateurs qui ne jurent que par les sous-titres. De tous les artifices utilisés par le 7e art, le doublage est celui qui fait le plus débat.

par

Jean-François

Cornu

le 21 novembre 2016

De la radio aux robots parlants, métamorphoses de la voix - épisode 4/8

Interfaces vocales : attention, dangers !

Les assistants vocaux se multiplient, tels Siri ou Google Now. Demain, ils occuperont une place considérable dans l’économie réelle et émotionnelle. La voix, comme appendice des outils, jouera un rôle prépondérant dans la fusion homme-machine qui se profile.

Illustration représentant une personne qui parle devant d'autres. De sa bouche sort une bulle contenant des monstres de fictions, représentant les voix possibles du comédien.

De la radio aux robots parlants, métamorphoses de la voix - épisode 3/8

Spectacle vivant : des voix imaginaires aux monstres vocaux

Voix augmentée, démultipliée, synthétique... La rencontre entre les technologies vocales et le spectacle vivant était inévitable. Fruit de nombreuses recherches, des outils intégrés au cœur du processus de création interagissent avec la voix humaine et enrichissent la dramaturgie.

par

Grégory

Beller

le 05 décembre 2017

De la radio aux robots parlants, métamorphoses de la voix - épisode 2/8

À la radio, la voix donne à écouter et à voir

La voix, à la radio, crée des mondes particuliers, selon les qualités de timbre et les genres des émissions. Elle tisse avec les auditeurs des liens très forts. Comment vont-ils évoluer à l’heure où les voix se standardisent et que les radios, de plus en plus,deviennent des stations filmées ?

par

le 04 décembre 2017

De la radio aux robots parlants, métamorphoses de la voix - épisode 1/8

Rythme, intensité, accent : comment les médias formatent la voix

Rythme de l’info continue, jeunisme, tempo pub... les médias de masse sont à la fois reflet et acteur du présent : sous la pression de la concurrence qui les assujettit au flux tendu, radios et télés font émerger de nouveaux formats de voix en se faisant l’instrument de leur normalisation.

par

Pierre-Marc

De Biasi

le 04 décembre 2017

Revenir en haut de page