Production automatique de textes : l’IA au service des journalistes | InaGlobal

Production automatique de textes : l’IA au service des journalistes

Article  par  Isabelle DIDIER et PHILIPPE RAYNAUD  •  Publié le 09.02.2018  •  Mis à jour le 12.02.2018
Depuis quelques années, la presse fait appel à la génération automatique de textes. Ces textes sont-ils générés par des IA ? Quels types d’informations traitent-ils ? Quel bénéfice pour les médias ? Décryptage par Claude de Loupy, p-dg de Syllabs. 

Claude de Loupy est expert en sémantique et traitement d'information. Il est le p-dg et cofondateur de Syllabs qui est aujourd’hui l'un des leaders mondiaux en génération automatique de contenu et dont les robots rédacteurs ont été utilisés par plusieurs grands médias.

Le 22 mars 2015, le Monde a utilisé un robot codé par Syllabs pour couvrir les résultats des élections départementales et rédiger ainsi 36 000 articles. Pouvez-vous nous expliquer  pourquoi et comment vous avez cofondé en 2006 Syllabs, qui est à l’origine, en France, de ce qu’on a appelé les « robots rédacteurs ».
 
Claude de Loupy : À l’origine, Syllabs était un laboratoire de recherche privé dans un domaine d’étude à la croisée de l’intelligence artificielle et de la linguistique : le traitement automatique des langues. Helena, mon associée, a un bagage linguistique (traductrice, huit langues parlées, linguiste) avec une coloration informatique, tandis que j’ai un bagage informatique (intelligence artificielle) avec une coloration linguistique.
 
Notre objectif était de développer des outils permettant de donner du sens aux quantités astronomiques d’informations qui nous submergent, ce qu’on appelle maintenant le big data. Nous avons créé de toutes pièces un grand nombre de technologies en ce sens, pour nos clients ou pour nous-mêmes. Nous avons travaillé dans tous les secteurs en apportant notre expertise du domaine.
 
C’est ainsi que nous avons créé notre premier moteur de rédaction en 2011. Il s’agissait de donner du sens à des ensembles volumineux de données en les transcrivant automatiquement sous forme de textes. Nous avons très rapidement compris le potentiel de cette technologie mais l’évangélisation a été compliquée. Il nous a fallu 4 ans d’efforts avant que Le Monde ne décide de tirer parti des avantages de cette technologie, entraînant à sa suite de nombreux autres médias.
 
Aujourd’hui, nous comptons parmi les leaders mondiaux en solutions sémantiques et production automatique de contenus multilingues. Nous produisons des textes pour plusieurs dizaines de clients, non seulement médias mais aussi tourisme, e-commerce, immobilier et web marketing.
 
 
Collecte de données, analyse sémantique des documents, génération automatique de textes... Quelles sont les technologies à l’œuvre pour la production automatique de textes ?  Comment fonctionnent ces « robots rédacteurs » ou « robots journalistes » ?
 
 Le terme « robot journaliste est inapproprié : il ne s’agit pas de « journalisme ».  Claude de Loupy : Tout d’abord, le terme « robot journaliste », qui est devenu l’expression la plus utilisée dans les médias, est inapproprié. Il ne s’agit pas de « journalisme ». Les systèmes en question ne font pas d’enquête, pas d’interview, etc. Par ailleurs, nous préférons employer le terme « moteur de rédaction » plutôt que « robot rédacteur». Ce dernier renvoie en effet l’image d’une machine dédiée, souvent représentée humanoïde. « Moteur de rédaction » renvoie bien à une notion d’algorithme, comme le fait le terme « moteur de recherche ».
 
Ensuite, avant la technologie, il y a des personnes, des compétences. À Syllabs, nous avons des ingénieurs informaticiens qui créent les algorithmes derrière le moteur de rédaction, des ingénieurs linguistes qui transmettent au moteur des connaissances liées à un domaine, des spécialistes de la data qui gèrent les informations à utiliser par le moteur, des scénaristes qui mettent en forme l’information sous forme de textes ou de dataviz (visualisation des données sous forme graphique).
 
Du point de vue du fonctionnement, il y a trois familles d’algorithmes. La première est entièrement basée sur de l’apprentissage machine : le système apprend à partir d’exemples comment on peut exprimer telle ou telle notion (par exemple, la date de naissance d’une personne) dans une langue donnée (par exemple « Victor Hugo est né le 26 février 2802 »). Ces méthodes sont séduisantes mais impliquent de disposer d’un nombre très important d’exemples, ce qui n’est généralement pas possible. Nous avons créé des systèmes de rédaction automatique pour des dizaines de clients et nous n’aurions pu répondre à aucun d’entre eux si nous nous étions contentés de méthodes par apprentissage, car les corpus nécessaires n’existaient pas.
 
La deuxième famille d’algorithmes, dite à base de règles, repose uniquement sur de la connaissance humaine, généralement apportée par des ingénieurs linguistes. Ces méthodes permettent de garantir des textes à la fois parfaits (non soumis aux erreurs d’interprétation des machines) et très variables, pour peu qu’on fournisse suffisamment de connaissance linguistique spécifique à la machine.
 
Enfin, la troisième famille utilise à la fois des méthodes d’apprentissage et des méthodes à base de règles, afin de profiter du meilleur des deux mondes.
 
À Syllabs, nous avons une vision mixant les deux approches. Nous pensons que seules des approches utilisant la connaissance humaine (méthodes à base de règles) permettent de garantir à la fois la perfection des textes produits et leur grande variabilité, car les corpus d’apprentissage ne sont quasiment jamais de taille suffisante. Les méthodes d’apprentissage, quant à elles, apportent aux scénaristes et ingénieurs linguistes des suggestions, afin de les aider et rendre leur travail plus efficace.
 

S’agit-il en l’occurrence d’intelligence artificielle ?
 
Claude de Loupy : L’intelligence artificielle est une notion fluctuante ; son sens évolue au cours du temps. Aujourd’hui, on considère souvent que seules les méthodes par apprentissage entrent dans cette notion, alors même que les méthodes employées sont souvent plus simples, moins fiables, plus dépendantes de la disponibilité de données.


 La génération automatique de textes fait bel et bien partie du domaine de l’intelligence artificielle. Mais, quelles que soient les méthodes, la génération automatique de textes fait bel et bien partie du domaine de l’intelligence artificielle. Il s’agit tout de même de produire automatiquement des textes de qualité humaine dans tous les domaines !
 
Mais encore une fois, au-delà de la technique, il s’agit surtout d’une somme d’intelligences humaines. La machine n’est qu’un outil que nous perfectionnons pour répondre à nos besoins.
 
 
Quels types d’événements ces techniques permettent-elles de couvrir ? 

Claude de Loupy : Il n’y a pas de limite en termes de types d’événements ou de types d’informations. À partir du moment où un domaine est modélisable et que la donnée pour le représenter existe ou peut être créée, la production automatique est possible. On pourra ainsi produire automatiquement des articles pour le sport, la finance, la météo, la politique, les carnets roses, etc.
 
La rédaction automatique est même indispensable pour couvrir des informations hyperlocales ou hyperspécialisées. Même quand une information ne concerne qu’un très petit nombre de personnes (par exemple, une rencontre sportive mineure), ces personnes ont le droit d’être informées. Or, il ne serait pas rentable que des humains passent du temps à produire les textes correspondants. C’est là où la machine intervient.
 
 Aucun système ne peut remplacer les capacités d’analyse, d’interview, de recoupement des journalistes. 
En revanche, quel que soit le domaine, aucun système ne peut remplacer les capacités d’analyse, d’interview, de recoupement des journalistes. Nous pouvons retranscrire les résultats d’une élection dans une commune en les comparant à la moyenne nationale ou aux résultats passés de cette commune. Nous pouvons même croiser avec des informations externes comme le taux de chômage ou la moyenne des revenus. Mais nous ne pouvons interpréter les résultats au vu des déclarations des candidats et de leur programme. Cela reste l’apanage des humains et personne ne peut prétendre être capable de faire cela automatiquement, ni même prédire si cela sera possible un jour.
 
 
Quels sont vos rapports avec les médias qui utilisent vos services ? Quels sont ces médias ? Quelles sont leurs demandes ?
 Les médias font appel à nous pour libérer du temps éditorial  

Claude de Loupy
 : Les médias font appel à nous pour libérer du temps éditorial en effectuant des tâches qui ne demandent pas de valeur ajoutée journalistique et pour compléter une offre d’information insuffisante, voire inexistante, dans des cas où l’humain ne peut suivre le rythme des demandes (par exemple, pour l’information hyperlocale). Nous les aidons ainsi à fidéliser un lectorat à qui ils proposent l’information qu’ils recherchent.
 
Cela permet également de se positionner sur des requêtes spécifiques dans les moteurs de recherche. Ce dernier point est vital aujourd’hui, non seulement pour les médias mais pour tout acteur du web. C’est pourquoi nous travaillons également beaucoup dans d’autres secteurs comme le tourisme, l’immobilier, l’e-commerce, le marketing, etc.
 
Au sein des médias, nous travaillons avec l’ensemble des interlocuteurs liés au contenu : la rédaction (le projet avec Le Monde en 2015 avait pour origine Luc Bronner, maintenant directeur des rédactions), le marketing, y compris les équipes chargées du référencement dans les moteurs de recherche (SEO).
 

Comment la situation a-t-elle évolué en France depuis 2015 ? La demande des médias est-elle de plus en plus importante ? Cette demande est-elle de plus en plus sophistiquée ?
 
Claude de Loupy : Nous vivons un très fort accroissement de notre activité et cela se ressent beaucoup dans le domaine des médias. Nos interlocuteurs sont de plus en plus au fait des enjeux du numérique et comprennent beaucoup mieux notre proposition de valeur. Cela nous permet de concevoir ensemble des solutions de plus en plus pertinentes et performantes.
 
Tout le monde y gagne : les rédactions peuvent imaginer des projets d’envergure avec la création de dizaines de milliers d’articles, tout en se concentrant sur la valeur éditoriale journalistique, les médias voient leur fréquentation et leur audience augmenter et nous augmentons les possibilités de notre moteur de rédaction.
 
 
Vous êtes le premier fournisseur d’articles rédigés automatiquement pour les médias français. Avez-vous des concurrents en France ou à l’étranger sur ce terrain de l’intelligence artificielle appliquée aux besoins des médias ?
 
Claude de Loupy : La robot rédaction est en plein essor, et aujourd’hui notre marché n’est plus seulement le secteur des médias mais aussi celui de l’immobilier, du e-commerce, du marketing, etc. Il est donc logique que de plus en plus d’acteurs se positionnent sur ce vaste marché.
 
Syllabs a réellement agi en pionnier dans ce domaine. Lorsque nous avons commencé, nous étions cinq dans le monde à proposer une offre sérieuse. Nous avons plusieurs premières mondiales à notre actif, dont la couverture locale d’élections nationales depuis 2015. On en a parlé dans le monde entier, y compris en Chine. L’arrivée de nouveaux acteurs est une chance pour nous car nous ne sommes plus les seuls à évangéliser.

 Notre technologie nous permet de produire des textes de qualité parfaite  Par ailleurs, l’offre est de qualité très inégale. Ce que nous proposons est unique. Notre technologie nous permet de produire des textes de qualité parfaite (Le Monde publie nos textes sans les relire), en très grande quantités (1,3 millions d’articles en 24 heures pour des élections), en temps réel (le texte est sur le site de notre client une seconde après réception de la data), tout en garantissant l’unicité des textes produits grâce à nos algorithmes permettant de favoriser la variabilité.
 
À côté de notre moteur de rédaction, nous avons également un ensemble technologique unique au monde avec des systèmes de collecte de données très abouties (open data, web, sources privées) et une technologie de texte mining (fouille de textes) qui nous permet de transformer des textes en données, alors utilisables par le moteur de rédaction. Dès 2013, nous avons ainsi produit des descriptifs pour 200 000 hôtels incluant un résumé de l’avis des internautes (points positifs, points négatifs), et ce en trois langues (il s’agit également une première mondiale).
Nous accueillons donc bien volontiers la concurrence.
 
 
Pouvez-vous comparer la situation en France avec celle des États-Unis, dont les médias ont été pionniers dans ce domaine, ou d’autres pays ?
 
Claude de Loupy : C’est en effet aux États-Unis que les médias ont été les premiers à utiliser ces technologies. Cela n’empêche pas les médias d’autres pays d’agir en pionniers et Le Monde a été le premier à les utiliser dans un contexte d’élections. Et cela ne nous empêche pas d’avoir cinq premières mondiales à notre actif.
 
Par ailleurs, les États-Unis sont un gros marché et les acteurs américains ne sont que très peu présents sur les autres continents. Il y a des opportunités gigantesques à saisir pour des acteurs maîtrisant les langues et cultures locales. N’oublions pas que la langue est porteuse de bien autre chose que de l’information. Utiliser un ton et un mode de narration à l’américaine peut être déplacé dans de très nombreuses cultures. C’est toujours la question de l’humain qui revient. Il ne suffit pas d’avoir une technologie, car la culture est profondément ancrée dans la production linguistique.
 
 
Les médias français sont-ils particulièrement frileux par rapport à ce type de technologie ?
 
Claude de Loupy : Comme je le disais, Le Monde a lancé le projet des élections, alors que personne au monde ne l’avait fait avant eux. Ce n’est pas ce que j’appelle être frileux. Leur réputation, leur image étaient en jeu sur ce sujet fondamental que sont les élections. Je suis admiratif de leur courage et leur suis reconnaissant de nous avoir fait confiance.
 
Certains journalistes nous voient comme une menace. Le terme même de robot rédaction (et encore plus de « robot journaliste ») suscite la méfiance et c’est à nous d’entendre les craintes et de les prendre en compte. C’est un excellent garde-fou.
 
Nos solutions sont conçues pour répondre aux enjeux de nos clients, et nous co-construisons le service apporté pour qu’il soit vécu comme un soutien et non comme une menace. Cédric Rouquette, un des experts avec qui nous travaillons, nous disait que c’est un outil qu’il aurait aimé avoir à l’époque où il dirigeait la rédaction d’Eurosport, pour lui permettre de libérer du temps sur le travail éditorial de ses journalistes.
 
 Les médias français sont de plus en plus intéressés par des d’innovations comme la nôtre Les médias français sont de plus en plus attentifs et intéressés par des innovations comme la nôtre. Ils savent que c’est un enjeu de survie à moyen terme, car des médias d’autres pays pourraient utiliser ces technologies pour s’implanter en France à moindre coût. Nous-mêmes pouvons produire des textes en plusieurs langues et c’est un moyen pour nos clients (quel que soit le domaine) de se développer dans d’autres pays.
 
 
Quel est le rôle des journalistes ? Comment utilisent-ils ces textes générés automatiquement ?
 
Claude de Loupy : Les journalistes peuvent utiliser ces technologies de plusieurs façons. Il y a tout d’abord la possibilité de créer de très nombreux articles à partir d’une base commune, par exemple, pour traiter de l’hyperlocal. Un journaliste voulant analyser le lien entre la pollution et le revenu moyen pourra utiliser des données globales et rédiger un article maître reprenant les éléments principaux de son étude. Il pourra ensuite produire automatiquement un texte pour chaque commune de France (si les données le permettent). Cela lui permettra d’augmenter considérablement l’intérêt de se lecteurs.
 
Humain et machine peuvent également collaborer de manière très efficace lorsque beaucoup de données sont à traiter de manière quotidienne. Prenons la Bourse, par exemple. Il est impossible à un média de traiter toutes les valeurs boursières. En revanche, un moteur de rédaction permet de produire un résumé d’évolution pour chacune d’entre elles avec une analyse minimaliste, comme la progression depuis 12 mois, le fait qu’il s’agit de la plus forte évolution depuis 3 mois, etc. Mais la machine ne pourra pas interpréter le fait que ces mouvements sont le fruit de telle ou telle déclaration du p-dg de telle société cotée. C’est là où le journaliste peut intervenir en prenant la main sur certaines valeurs et en ajoutant son analyse d’expert à un texte qui ne comporte qu’une analyse chiffrée.
 
Lorsqu’un journaliste écrit un article, un système centralisé pourrait lui proposer automatiquement des mini-biographies ou descriptifs d’entreprises à ajouter à son article lorsque celui-ci cite des entités connues.
Il existe ainsi des dizaines de façon de faire collaborer les journalistes et les moteurs de rédaction.
 
 
En ce qui concerne le métier de journaliste, on a vu fleurir des articles sur le risque de voir les algorithmes prendre le pas sur le véritable travail  journalistique. Que pensez-vous de ces craintes de robotisation du journalisme ? Des pertes d’emplois ?
 La question de l'éthique de l'Intelligence artificielle est cruciale 
Claude de Loupy
 : La question de l’emploi, mais aussi plus généralement de l’éthique de l’Intelligence artificielle est cruciale. Nous avons clairement une responsabilité en tant qu’acteur sur ce secteur, et notre but est non de détruire, mais bien de valoriser l’activité humaine.
 
Notre contribution consiste à soutenir la visibilité des médias sur le web, à fidéliser sur de l’info de service, à appâter plus de lecteurs. Les informations que nous couvrons n’entrent en concurrence ni avec le travail éditorial, ni le reportage de terrain. Nous nous positionnons au contraire comme des libérateurs de potentialité journalistique, en permettant aux journalistes de se concentrer sur ce qui fait leur valeur ajoutée et leur apport à la société : du vrai journalisme.
 
Le métier de journaliste est malmené depuis que l‘économie des médias a pris de plein fouet la révolution numérique, bien avant l’émergence de la robot rédaction. Mais il semble que nous abordons un temps de rééquilibrage. Des médias français ont pris le virage en trouvant de nouvelles sources de revenus, et ceux qui s’en sortent le mieux sont ceux qui ont défendu une haute qualité éditoriale, une identité forte.
 
 
Comment voyez-vous l’avenir des rapports intelligence artificielle et des médias ? Pensez-vous que les technologies et les contenus produits vont radicalement évoluer dans le futur ? Ou cela restera-t-il relativement marginal dans la production de contenus journalistiques ?
 
 Nous sommes de plus en plus compris comme une brique technologique qui permet d’enrichir l’attractivité d’un média. 
Claude de Loupy : Je trouve que l’on fait beaucoup trop de « prédictions » dans le domaine de l’intelligence artificielle et qu’elles ressemblent généralement à des professions de foi ou de la mise en avant personnelle. Ce que je peux dire, c’est que nous sommes de plus en plus compris comme une brique technologique qui permet d’enrichir l’attractivité d’un média.
 
Donc oui, le recours à des solutions comme la nôtre se généralise et se systématise. Mais non, ce n’est pas un facteur qui modifie radicalement les médias pour lesquels nous travaillons.
 
Ce qui change radicalement, c’est ce que cela permet et permettra aux lecteurs et citoyens : avoir accès facilement à des informations, qui sont absentes aujourd’hui des radars parce qu’elles ne peuvent pas être produites par l’homme. Nous rendons intelligibles et accessibles des milliers de données, actualisées en temps réel. Qu’il s’agisse de résultats d’élections locales, d’articles sur les infrastructures et les activités de votre quartier ou de résumés de matchs de foot de petites divisions.
 
 
Peut-on envisager — comme certains l’ont prétendu — qu’un jour, un robot journaliste  obtiendra le Prix Pulitzer ?
 
Claude de Loupy : Tout d’abord, cette « prophétie » disant qu’une machine gagnerait le Pulitzer dans 5 ans a été faite… il y a plus de 6 ans. C’était peut-être une profession de foi, peut-être un coup de pub. Quoiqu’il en soit, c’est ridicule et dommageable. C’est une méconnaissance totale de ce que récompense un prix Pulitzer.
 
C’est également totalement à l’opposé de la stratégie de développement que nous poursuivons à Syllabs. Nous ne cherchons pas à remplacer l’homme, mais bien à l’outiller pour lui dégager du temps sur son intelligence, ses compétences. En revanche, ce que j’ai dit à plusieurs reprises, c’est qu’il est probable qu’un journaliste gagnera un jour le prix Pulitzer pour un travail impliquant une collaboration entre humain et machine. 

 
À lire également dans le dossier L’IA dans les médias, on y est déjà
 
IA, des robots pour mettre de l’ordre dans le chaos de l’info, interview de  Benoît Raphaël par Isabelle Didier et Philippe Raynaud
 
Vous souhaitez nous apporter un complément, rectifier une information ? Contactez la rédaction