Jeux vidéo : à bonne voix bonne immersion

Article  par  La Rédaction INAGLOBAL  •  Publié le 08.12.2017  •  Mis à jour le 11.12.2017
La voix est un élément important d‘un jeu vidéo, au même titre que les graphismes ou les mécanismes qui le régissent, dans lesquels elle doit parfaitement s’intégrer, que ce soit une création originale ou un doublage. Entretien avec Vincent Percevault (G4F).
 
Pourriez-vous décrire en quelques mots les services que propose G4F en matière de jeu vidéo ?

Vincent Percevault
: G4F, anciennement Game Audio Factory, est une société de post-production qui travaille sur toute la partie sonore des jeux vidéo. Nous sommes le leader européen de la création sonore dans les jeux vidéo. Nos studios, équipés des dernières technologies d’intégration sonore pour les environnements virtuels (jeux vidéo, simulateurs…), sont basés à Angoulême. Il y a d’autres acteurs plus importants que nous sur certains segments de marché, comme la localisation (travail d’adaptation en langue locale), mais concernant la partie prestation audio complète, sound design (design sonore), bruitage, musique, voix, intégration, notre savoir-faire est désormais reconnu dans l'industrie du jeu.


Comment choisit-on une voix dans un jeu vidéo ?
 
 Je distingue l’exercice du doublage de la création vocale originale, nous avons deux fonctionnements distincts.  Vincent Percevault : Nous avons déjà travaillé dans la série d'animation et un peu dans le doublage de fictions, les procédés sont relativement les mêmes. Je distingue l’exercice du doublage de la création vocale originale, nous avons deux fonctionnements distincts. Lorsque nous travaillons sur la version originale d'un projet, nous choisissons les voix de référence du projet. Ces voix de référence peuvent être française ou anglaise, britannique ou américaine, cela dépend des projets et de la nationalité du studio qui développe le jeu. Nous avons généralement à disposition un background, un descriptif précis des personnages et de leur personnalité, des dessins. On sait, par exemple, à quoi ressemble physiquement le personnage. Il y a toute une partie de casting voix initial où l’on formule plusieurs propositions de voix pour un personnage. Ensuite, avec l'équipe créative, on valide ces choix.
 
Sur une production de version originale, nous procédons souvent à du casting sur script, afin de valider que la voix sélectionnée colle parfaitement avec le personnage, ce qui n’est pas forcément le cas lorsqu’il s’agit de localisation, car on dispose alors de la voix de référence pour faire notre sélection. Donc dans le cadre de la version originale, nous portons une attention supplémentaire au choix de la voix, car c'est elle qui va donner vie au personnage pour tout le projet. Quand suivront les doublages multilingues, ceux-ci vont s'inspirer de ces voix de référence. Donc, le choix est important pour le projet dans son ensemble. À ce niveau, on est très proche du dessin animé.  
 
 
Est-ce que vous diriez qu'il y a certains types de voix qui sont attendus pour certains types de jeux ?

Vincent Percevault : Le jeu vidéo n’échappe pas aux clichés, comme toute l’industrie de l'entertainment. Pour des personnages de soldats testostéronés bien épais, nous disposons de toute une panoplie d'acteurs qui ont des timbres très graves et très granulaires, par exemple. Donc, les clichés influencent déjà nos choix, puisqu'évidemment on a généralement un game designer ou un game director qui donnent leur avis dessus. Néanmoins, certains studios prétendent ne pas donner dans les clichés. On prend parfois des contrepieds, on choisit des voix un peu différentes, des timbres qui sont moins attendus. Concernant les RPG [Role Playing Game, jeux de rôle], l’expérience se rapproche de celle d’un film interactif. Quand on voit la production des studios comme Naughty Dog, avec des jeux du type d‘action-aventure comme la série Uncharted, là, le travail de l’acteur est bien d’incarner le personnage. Cela nécessite des heures, voire des jours de travail en studio. Il faut vraiment qu'on sente qu'il habite ce personnage. Donc, trouver la bonne voix pour le personnage est essentiel.
 
C'est beaucoup plus simple dans la partie localisation, lors de l'enregistrement du doublage dans une langue cible, où l’on va plus vite. Dans le cas de l'enregistrement d'une version de référence, on prend notre temps à l’enregistrement, parce que pour une même phrase, on va essayer de trouver la bonne intonation. Et l’acteur ne sait pas nécessairement ce qui se passe à l'image dans le jeu. Le joueur rencontre un personnage qui va s’adresser à lui. Le personnage va répondre. Quel est le ton ? Quels sont les raccords ? On est donc obligé de faire beaucoup de prises pour être sûr d'avoir suffisamment d'alternatives et ne pas être trop répétitif.
 
 Nous sommes confrontés à beaucoup d'enjeux qui n’existent pas en linéaire, c’est-à-dire au cinéma, à la télévision, là où l’on contrôle totalement la temporalité  Nous sommes confrontés à beaucoup d'enjeux qui n’existent pas en linéaire, c’est-à-dire au cinéma, à la télévision, là où l’on contrôle totalement la temporalité, le temps, et donc les raccords. Dans le cadre d’un jeu, c’est différent. Là, il y a la notion de in game, c'est-à-dire « dans le jeu ». De combien de variantes a-t-on besoin dans cette réplique-là ? Est-ce qu'on donne des intonations différentes ? Quelle est la réplique qui vient après (ou pas) ? Il faut réunir beaucoup d'informations sur le contexte dans lequel va être utilisé cet échantillon de voix, et la quantité d’échantillons à enregistrer est considérable.
 

Est-ce que cela veut dire qu'il y a des professionnels du doublage —j'entends des voix professionnelles — dans le jeu vidéo, rompus à ces pratiques-là ?

Vincent Percevault : Aux États-Unis, un certain nombre de comédiens essaient d'orienter vraiment leur carrière dans le jeu vidéo. C'est moins vrai en Europe.
 
Dans les faits, c'est un exercice particulier. Nous avons d’ailleurs monté des formations de comédiens pour le jeu vidéo. Parce qu’avoir une intonation donnée, proposer des variantes de ton, d'intensité, de rythme, etc., en étant créatif à l'enregistrement, c'est un exercice où un comédien expert en doublage classique de cinéma risque d’être un peu décontenancé parce qu'il n'a rien devant lui. Il doit se projeter, c'est très cérébral. Il n'a même pas forcément une image en face de lui. Parfois, il dispose juste d’un écran avec des lignes de script.
 
Pour projeter sa voix, il faut  donc connaître le contexte. C'est là où le directeur artistique a une importance capitale : il apporte les informations de contexte. Une grande partie de la préparation de ces séances vise à connaitre sur le bout des doigts les contextes dans lesquels vont être jouées les phrases qui seront enregistrées. Car finalement, tout ça reste de l'informatique, c'est du code : si je me trouve dans tel contexte, à tel endroit, alors tel échantillon va être joué. Une autre problématique est la répétition, si on part du principe que la même phrase va être jouée cent fois, il faut prévoir des alternatives, affiner les conditions. Et le personnage évolue : on va dire qu’il peut connaître trois états, un où il est en pleine possession de ses moyens, un où il commence à être amoché, et un où il est en état critique. Forcément, ces variantes, il faut les décliner selon l'humeur, l'état de santé du personnage, etc. On parle ici de combinatoire et des écrivains et des dialoguistes se spécialisent dans ce domaine. De même qu'il y a un travail  de l’acteur pour comprendre à quel moment ce qu’il interprète va trouver sa place dans le jeu, il y a eu quelqu'un en amont qui s'est cassé la tête pour construire des répliques différentes, ajustées selon les décisions du joueur et de l'expérience. C'est un superbe exercice mais c’est aussi un défi à chaque fois.
 
Bien sûr, il existe aussi des jeux très linéaires où l’on ne rencontre pas de grande complexité d’écriture. Mais dès que l’on touche à des grosses productions et que les décisions du joueur ont un impact sur sa propre expérience, on se retrouve avec des arbres de dialogue extrêmement importants, les choix du joueur influencent ce à quoi il est confronté dans le jeu, et donc les échantillons voix qui vont être utilisés. On parle d’arbre décisionnel, avec des ramifications bien sûr, mais cela démultiplie le nombre de fichiers à enregistrer. Des projets comportent plus de 500 000 mots à enregistrer. Cela représente des mois passés en studio ! En doublage, on enregistre aux alentours de 10 000 mots par jour, faites le calcul ! Pour une version originale, cela représente des mois de travail. Sur de gros projets, cela peut s'étaler sur plusieurs mois, qui comprennent les enregistrements de la version de référence et les ajustements et correctifs (retakes).
 

À quoi reconnaît-on une mauvaise voix dans un jeu vidéo ? Est-ce qu’elle peut avoir un effet négatif sur le jeu ?

Vincent Percevault : Un mauvais choix de voix peut vraiment détruire l’expérience de jeu. Le joueur va avoir en permanence la sensation que la voix ne colle pas au personnage (trop fluette, trop grave, trop jeune, trop agée…). C'est un effet que l'on peut ressentir en confrontant la voix d’un personnage avec son visuel, c’est subjectif, mais lié au physique du personnage, autant qu’à son rôle. Il y a parfois un décalage et on se dit : « tiens, c'est bizarre, ça ne va pas ». Je parle là juste du choix de la voix.
 
 Un mauvais choix de voix peut vraiment détruire l’expérience de jeu. Le joueur va avoir en permanence la sensation que la voix ne colle pas au personnage  Puis, il existe une autre problématique qui concerne la partie localisation. Étant donné les volumes et la nécessité d'avoir énormément d'informations de contexte dont les studios de localisation ne disposent pas toujours, il n'est pas rare de tomber un peu à côté en termes d’interprétation ou d'intensité. Et pour peu que la version originale ne soit pas parfaite, on duplique alors un jeu ou une intention qui est toujours aussi mauvaise dans les autres langues, l’erreur se propage en cascade. A contrario, il arrive que des versions doublées soient meilleures qu’une version originale, car on dispose parfois du jeu final pour tester les voix, et cela permet d’ajuster les intentions lors de la phase de localisation.
 

Est-ce qu'il y a eu des tournants techniques pour la voix dans le jeu vidéo ?

Vincent Percevault : D’un point de vue historique, il y avait, au début, tellement peu de détails sur les personnages et leur animation, que l'interprétation de la voix apportait énormément au jeu. Jusque dans les années 2000-2005, il s’agissait encore d'animations faciales et corporelles faites manuellement sur ordinateur. La motion capture des acteurs n'avait pas encore pris le dessus. Depuis les années 2010, sur l'ensemble des grosses productions, on enregistre absolument tout, que ce soit les mouvements du corps, les expressions faciales et les voix. À partir du moment où on dispose d’une interprétation complète, avec un jeu d'acteur, du corps, des expressions réelles du visage, ainsi que sa voix, c’est ce qu’on appelle la full performance capture, on est face à un clone virtuel du comédien.
 
 La voix est là et elle colle avec ce qu'il voit. Quand tout est en symbiose, que tout fonctionne bien, on sait qu'on prend le joueur par la main et qu’il est immergé Aujourd’hui, on arrive à un moment où on se dit « J'y suis ». Quand on voit les rendus qu'on peut obtenir aujourd'hui sur une PS4, une Xbox One et les meilleurs PC, il est possible d’avoir des personnages très expressifs et, donc, des voix où l’interprétation des acteurs est extrêmement importante. On voit aussi un écart de qualité en fonction du temps qui est dédié à cette performance capture et à la recherche du bon ton. Tout ça conduit forcément à une progression dans l'expérience du joueur, dans la façon dont il peut se projeter dans les personnages, dans la façon dont il capte les émotions des personnages en dehors de la voix. La voix est là et elle colle avec ce qu'il voit. Quand tout est en symbiose, que tout fonctionne bien, on sait qu'on prend le joueur par la main et qu’il est immergé. C'est l'expérience qu'on recherche.


Est-ce qu'il y a des jeux qui ont marqué l’histoire des jeux-vidéo dans la façon dont ils traitaient la voix ?

Vincent Percevault : Je pense à Uncharted, par exemple, de Naugthy Dog, ou à la série Tom Raider. Il y a eu beaucoup de séries comme celles-ci dans les jeux d'aventures, du RPG, où l’on est finalement dans des jeux assez linéaires, presque cinématographiques, avec peu d’options mais énormément d'animation, de motion capture, ce qui a donné tout de suite des expériences qui étaient cinématographiques et immersives.
 
D'une génération de console à l’autre, les gains en qualité ont été manifestes. On peut même regarder jouer quelqu’un et se dire : « C'est magnifique, je suis presque face à un film ».
 
Après, il y a toujours eu des voix emblématiques, Mario a toujours été Mario et le comédien vit dans son petit palais aux États-Unis. Il y a toujours eu des clichés. Même sur les premiers appareils, si on remonte à la Game Boy, on a toujours eu des échantillons de voix. Il y avait peu de mémoire, donc peu de variations. Nous étions habitués à avoir des feed-back répétitifs, ce qu'on appelle des grunts ou des voice-kits, les onomatopées faites par les personnages.
 
 La voix a toujours été là, et lorsqu’elle est bien traitée, elle apporte énormément à l’expérience, on a la sensation de vivre une expérience intense. La voix a toujours été là, et lorsqu’elle est bien traitée, elle apporte énormément à l’expérience, on a la sensation de vivre une expérience intense. Actuellement, dans la guerre du graphisme et du rendu le plus photo-réaliste possible, on réalise des choses tellement belles qu'on se dit « j'arrive à me projeter dans un univers qui est quasi réaliste ». Et on peut très bien imaginer que demain, notre œil ne fera plus la différence entre du virtuel et du réel, tellement les rendus seront précis et les animations parfaites. Et comme tout aura été « capturé » ou synthétisé en temps réel : voix, corps, visages, émotions, on aura, là, une expérience virtuelle très troublante.
 

Pour en revenir aux acteurs qui font du jeu vidéo, beaucoup ont participé au doublage de personnages pour de grandes productions. Comment percevez-vous  ça ?

Vincent Percevault : Je sais que ce sont des atouts marketing indéniables pour les projets. Forcément, quand il est possible de s’offrir une grande star internationale, on sait qu'en studio on va obtenir de bonnes choses et que ce sera bon pour le projet. Donc, je ne le vois pas du tout d'un mauvais œil, tant que la qualité est là. Sinon, honnêtement, j'ai autant, voire plus confiance, dans mon comédien de doublage habituel, qui n’est pas connu du grand public, mais va avoir l’expérience de passer d'un personnage à l'autre et de coller au jeu. Demander une prestation à des stars, ça fait vendre. Ce sont des choix de marketing mais on dispose de très bons comédiens qui auraient fait le même job. Les stars sont intéressantes pour l'éditeur mais pas nécessairement pour le joueur, au final.
 

Quels sont les enjeux concrets de la localisation pour l’existence, voire la survie d’un jeu au niveau global ?
 
Vincent Percevault : Aujourd’hui, un projet, même un petit, qui n'est pas localisé dans une vingtaine de langues, ne décollera pas ou ne sortira même pas du tout du radar, d'ailleurs. La localisation est un des critères pour qu’un projet puisse exister commercialement. C'est la guerre entre les développeurs puisqu'il y a plusieurs centaines de jeux qui sortent par jour. Pour exister, il faut être disponible le jour de la sortie dans un minimum de douze langues. C’est s’assurer d’une visibilité maximum dans la mêlée des sorties, et donc se donner plus de chances de réussite. Vous pouvez faire un parallèle avec les séries : aujourd'hui, Netflix, HBO et consorts essaient de proposer ça. Le jour où sort la série, si elle n'est pas dans 20 langues, elle va être systématiquement sous-titrée par les fans, et puis deux jours après, on a perdu totalement le contrôle sur la diffusion du projet. Alors que si elle est dans la langue cible le jour du lancement, il y a déjà moins de piratage, on contrôle mieux la qualité de la diffusion, et donc le potentiel commercial du projet. Tout ça est stratégique.
 

Comment voyez-vous le futur de la voix dans les jeux vidéo ? Est-ce qu'un jour, elle sera à 100 % synthétique, générée informatiquement ?

Vincent Percevault : On en est loin. Nous utilisons des voix synthétiques au début des projets pour pouvoir tester les enchaînements de dialogues, mais jamais dans les produits finaux, parce que la finesse du jeu qui peut être apportée par un comédien ne peut pas encore être générée par une machine. Et puis cela demande tellement de temps de régler des voix synthétiques afin d’obtenir un résultat qui sera à peine convaincant, alors qu’un comédien aura trouvé le ton en quelques minutes. Dans vingt ans, cinquante ans, peut-être que la voix de synthèse sera répandue. D’ici là, les comédiens n’ont pas de soucis à se faire

Propos recueillis par Xavier Eutrope.


À lire également dans le dossier De la radio aux robots parlants, métamorphoses de la voix

À la radio, la voix donne à écouter et à voir, par Anne-Caroline Fievet et Nozha Smati
La voix au cinéma, une constante mutation, interview de Michel Chion par Isabelle Didier et Philippe Raynaud

--
Crédit photo : Pierre Delaunay
Vous souhaitez nous apporter un complément, rectifier une information ? Contactez la rédaction