Twitter : ce que les graphes nous disent de #CharlieHebdo

Article  par  Nikos SMYRNAIOS et PIERRE RATINAUD  •  Publié le 05.02.2015  •  Mis à jour le 09.02.2015
Twitter : ce que les graphes nous disent de #CharlieHebdo
Comment les twittos francophones ont-ils parlé de l’attentat contre Charlie Hebdo ?
 

Sommaire

L’attaque sanglante de Charlie Hebdo et les événements dramatiques qui ont suivi ont déclenché une énorme vague de réactions en France et dans le monde. Comme c’est la règle désormais, ces réactions ont rapidement envahi les réseaux socionumériques – et Twitter en particulier. Des millions de tweets ont été écrits à partir de la diffusion des premières informations, le 7 janvier en fin de matinée, et dans les jours suivants en utilisant massivement les hashtags #charliehebdo et #jesuischarlie.
 
Comme souvent dans ce genre de situation, les internautes se sont d’abord concentrés sur le déroulement des événements, les décrivant quasiment en temps réel, puis très rapidement est venu le temps de l’indignation, du commentaire et du débat. Dans cet article nous proposons une analyse d’un échantillon de tweets sur lequel nous appliquons une méthode innovante, mise au point récemment. Nous mettons en œuvre un protocole permettant de repérer des communautés d’usagers au sein de Twitter – constituées à partir d’interactions en ligne au sujet de l’attaque de Charlie Hebdo – et, en même temps, de mettre en évidence, de manière dynamique, les principales thématiques mobilisées par chacune de ces communautés et leur évolution dans le temps.
 
Dans cette démarche, plusieurs difficultés se présentent. Tout d’abord le volume extraordinaire de messages produit sur le sujet. Puis, la diversité linguistique des messages due à l’impact mondial de l’événement. Enfin, la densité très forte des échanges entre utilisateurs. Pour cela, nous avons choisi d’effectuer notre analyse à partir d’un échantillon susceptible d’apporter un éclairage sur les ressorts des échanges sur Twitter autour de Charlie Hebdo dans toute leur diversité. Par conséquent, plutôt que de travailler sur le hashtag #jesuischarlie, caractérisé par un discours à forte charge émotionnelle et assez homogène dans les premiers jours, nous avons préféré analyser un échantillon à partir de la chaîne de caractères charliehebdo, qui fût la première et la plus utilisée.
 
Nous avons donc collecté avec le logiciel DMI-TCAT les messages comportant charliehebdo publiés entre le 7 janvier à 13h30 et le 12 janvier à minuit, ce qui a produit un ensemble de 3,66 millions de tweets[+] NoteEn raison du très grand nombre de tweets produits comportant cette chaîne de caractères nous avons dépassé à plusieurs reprises la limite de 1 % de tweets autorisés par le REST API de Twitter, ce qui a entraîné un blocage temporaire par le service. De ce fait, nous ne disposons malheureusement pas d’une collecte intégrale. Néanmoins, nous pensons que l’échantillon, qui représente plus de la moitié de tweets sur la période, est tout de même représentatif de l’ensemble.X [1]. Le graphique 1 rend compte des langues représentées dans cet échantillon.
Twitter Charlie hebdo proportions des langues
Graphique 1 : proportion des principales langues dans l'échantillon

Malgré la portée mondiale de l'événement, le français est clairement surreprésenté dans cet échantillon (37 % de tweets contre 2 % habituellement sur Twitter). Par ailleurs, une part très importante des messages dans chacune de ces langues est constituée de retweets, comme le montre le graphique 2, signe d'échanges très structurés.

Graphique 2 : proportion de tweets originaux et de retweets dans les principales langues de l'échantillon

Afin d’adapter l’échantillon aux besoins de notre analyse, nous avons sélectionné les tweets en français (soit 1,38 millions de tweets) desquels nous avons retiré les retweets afin de faciliter le traitement lexicométrique. L'analyse que nous présentons porte donc sur 252 194 tweets originaux en français.

Les réseaux autour de #charliehedbo

Nous avons construit un graphe des interactions entre usagers à partir des mentions de la manière suivante : pour chaque mention présente dans l'échantillon final, nous traitons l’usager qui mentionne et l’usager mentionné comme les sommets d’un graphe. Le nombre de fois où le couple mentionnant/mentionné apparaît (dans cet ordre) donnera l’ordre de grandeur des arêtes qui relient les sommets. Le graphe ainsi obtenu est donc un graphe orienté des relations entre usagers de Twitter qui ont inclus dans leurs messages le terme charliehebdo pendant la période étudiée. En limitant l'analyse aux émetteurs ayant au moins produit 10 tweets dans l'échantillon, nous obtenons un graphe reliant 73 726 usagers (représentés par des nœuds) par 426 286 « mentions » (représentés par des liens). L'étape suivante a consisté à déterminer des communautés à l'intérieur de ce graphe, c'est-à-dire des ensembles de sommets fortement reliés entre eux, ce qui revient dans notre exemple à déterminer des groupes d’individus qui ont tendance à se mentionner. Nous avons utilisé ici l’algorithme proposé en 2008 par Vincent Blondel, Jean-Loup Guillaume, Renaud Lambiotte et Etienne Lefebvre[+] NoteVincent BLONDEL, Jean-Loup GUILLAUME, Renaud LAMBIOTTE et Etienne LEFEBVRE, « Fast unfolding of communities in large networks », Journal of Statistical Mechanics: Theory and Experiment, (10), p. 1000.X [2] disponible dans le logiciel Gephi.
 
Mentions twitter Charlie Hebdo
Graphe 1 : Graphe des mentions à partir des tweets des utilisateurs ayant au moins 10 tweets. La taille du texte est proportionnelle au nombre de mentions.

Comme attendu lors d’un tel événement, nous retrouvons au centre du graphe les principaux médias français. Le Figaro, iTélé, Le Point, BFMTV et Le Parisien présentent le plus grand nombre de mentions dans l'échantillon, mais la plupart des médias français sont présents (Le Monde, AFP, France Info, L’Obs, Le Huffington Post, LesNews, 20 Minutes, Charlie Hebdo lui-même, Canal Plus, La Provence, TF1, Les Échos...) ainsi que quelques étrangers (The New Yorker, Le Soir par exemple). Il est à noter que l’algorithme de détection de communautés classe la plupart des médias (à l’exception notable de iTélé et de BFMTV) dans le même groupe (nœuds de couleur orange comme celui du Figaro), signe qu’ils reçoivent de nombreuses mentions par les mêmes comptes d’utilisateurs. iTélé et BFMTV sont associés à deux clusters différents (respectivement bleu ciel et mauve), une caractéristique peut être liée à leur couverture des événements en direct.
 
Proche du centre du graphe on trouve également un groupe de comptes liés à des instances officielles (ministère de l’Intérieur, Police nationale, Gendarmerie, préfecture de Police). Comme dans le cas des médias précités ce sont là des comptes diffusant de l’information brute et des consignes vers le public.
 
De façon plus étonnante, un groupe de médias se détache du cluster médiatique mentionné précédemment et fait partie d’un ensemble beaucoup plus vaste (couleur rouge, en bas à gauche du graphe). Il s’agit des médias du service public (France Inter, France Culture, RFI, Radio France, France 24, FranceTVinfo), et d'autres de sensibilité de gauche (Libération, L’Humanité, Mediapart, Politis, Reporterre). Dans cet ensemble on trouve un grand nombre de journalistes (Gilles Klein, Michel Mompontet, Cyril Petit, Sylvain Lapoix etc.), mais aussi plusieurs personnalités politiques du Front de gauche comme Jean-Luc Mélenchon, Martine Billard, Eric Coquerel, et des utilisateurs déclarant clairement leur engagement à gauche. Un peu excentré vers le haut mais lié à ce groupe on trouve même le compte de François Hollande. Sans que ce groupe soit totalement homogène, on peut en déduire qu’il s’agit là d'un réseau d’utilisateurs de sensibilité politique similaire qui s’exprime aussi à travers le choix des médias cités.
 
Aux antipodes de ce groupe, on observe en haut du graphe (couleur jaune) un ensemble d’utilisateurs qui se structure autour des comptes en provenance de tout l’éventail de l’extrême droite. Parmi les plus cités on trouve celui du site Fdesouche, proche du Front national, celui de Fabrice Robert, président du Bloc identitaire, le compte officiel du Front national, celui de Marine Le Pen etc. Il est intéressant également d’observer que ce groupe cite régulièrement – au point de les intégrer – des comptes aussi divers que celui du ministre de l’Intérieur Bernard Cazeneuve, de l’expert controversé du terrorisme Samuel Laurent, celui de l’Abbé Grosjean mais aussi des médias de droite plutôt classiques comme Valeurs Actuelles et Atlantico. Les comptes de Nicolas Sarkozy et de l’UMP quant à eux occupent une position frontière entre le groupe en question et le reste du graphe en constituant leur propre (petit) groupe.
 
Le graphe est complété par deux ensembles qui se structurent autour des comptes qu’on pourrait qualifier de people ou apolitiques (bleu clair et bleu foncé, en bas à droite du graphe). Les nœuds centraux de ces deux groupes sont des « Youtubeurs » (Norman, Cyprien), des présentateurs et acteurs (Nikos Aliagas, Daphné Burki, Cyril Hanouna, Omar Sy), des journalistes de télévision (Thomas Sotto, Alexandre Delpérier) et des utilisateurs lambda dont les préoccupations habituelles semblent loin de la politique. Enfin, les utilisateurs québécois forment un ensemble qui se distingue clairement (vert à gauche du graphe).
Revenir au sommaire

Les discours autour de Charlie Hebdo

Dans un deuxième temps nous avons utilisé la communauté d'appartenance des comptes pour marquer chacun des tweets dans l'analyse lexicale. Pour celle-ci, nous avons retiré des tweets les url et les mentions. L'analyse repose sur une classification hiérarchique descendante qui a pour objectif de regrouper les tweets sur un critère de cooccurrence lexicale. Autrement dit, l'analyse met dans une même classe les tweets qui ont tendance à contenir les mêmes mots. Le dendrogramme 1 rend compte des résultats obtenus en conservant les 8 000 formes pleines[+] NoteSeules les formes pleines participent à l'analyse. Il s'agit des noms, des adjectifs, des verbes et des adverbes.X [3] les plus fréquentes du corpus. Les listes de mots apparaissant sous chaque branche présentent le lexique qui est statistiquement surreprésenté dans les tweets réunis dans chacune des classes. Cette analyse est réalisée avec le logiciel libre IRaMuTeQ.

Dendrogramme classification et lexiquz
Dendrogramme 1 : résultat d'une classification sur les 8 000 premières formes pleines, taille des classes et lexique caractéristique des classes.

De gauche à droite dans ce graphique, nous voyons une classe rassemblant les appels aux différentes manifestions, ainsi que les commentaires sur ces événements (classe 12), une classe décrivant les prises d'otage du 09 janvier (classe 10) et une classe de condoléances en direction des familles des victimes des deux attaques (classe 9).
 
Sur la branche suivante de l'arbre, nous trouvons une classe qui décrit l'histoire du journal Charlie Hebdo (classe 5), une classe sur la liberté d'expression (classe 3) et une classe commentant les réactions politiques et critiquant la « récupération », notamment par François Hollande et Nicolas Sarkozy (classe 2).
 
La classe 8 traite spécifiquement de la question religieuse, avec de nombreux tweets dénonçant le fanatisme et le fait de tuer au nom de dieu, ainsi que des appels au refus des amalgames et des attaques contre la communauté musulmane.
 
Nous trouvons ensuite une classe qui réunit des tweets qui s'indignent de la situation du monde en ce début d'année (classe 7), puis une classe composée d'appels à la capture des responsables, au rétablissement de la peine de mort et d'insultes envers les terroristes (classe 6).
 
La classe 1 est une classe de commentaires très génériques, plutôt sur l'attaque de Charlie Hebdo, et sur les réactions de la twittosphère. Cette classe est encore assez hétérogène.
 
Les deux dernières classes réunissent les commentaires sur la vidéo montrant un des terroristes abattre un policier à terre lors de l'attaque du siège du journal satirique (classe 4), et les tweets qui listent les noms des victimes de cette attaque (classe 11).
 
Globalement, en termes de volume, c’est le discours d’empathie qui prédomine, ainsi que les débats sur la question de la liberté d’expression, les amalgames avec l’Islam et la « récupération » politique des événements.
 
Le graphique 3 présente le lien des dates à chacune des classes de discours.

projection dates sur classification
Graphique 3 : Projection des dates sur la classification. Les barres vers la droite indiquent une surreprésentation statistique des tweets émis à la date considérée pour la classe. Les barres vers la gauche indiquent une sous-représentation.

Nous pouvons voir que la chronologie des événements structure en partie la répartition des thématiques. La classe des condoléances est surreprésentée le premier jour, alors que, logiquement, les commentaires sur les prises d'otages sont surreprésentés le 9 janvier. On notera que les classes 7, 6, 4 et 1 ne présentent pas de différences d'un point de vue chronologique. Les tweets traitant de ces questions sont présents dans les mêmes proportions chaque jour de l'indexation.
Revenir au sommaire

Quel genre de discours pour quelle communauté ?

Une autre dimension susceptible d'expliquer la structuration de l'analyse est l'appartenance du locuteur à l'une ou l'autre des communautés identifiées. Le graphique 4 rend compte des liens entre ces communautés et l'analyse lexicale.

projection des communautés sur la classification
Graphique 4 : Projection des communautés sur la classification.

Ce graphique témoigne des tendances générales de chacune des communautés à se saisir des différentes thématiques qui apparaissent dans le corpus. On trouve, de façon assez logique, la communauté des médias surreprésentée dans les classes qui décrivent les événements (classe 11 et 10) et dans celle qui commente les manifestations (classe 12).
 
Les comptes institutionnels et ceux de la gauche sont également surreprésentés dans la classe des manifestations. On comprend également que la classe qui décrit ce qu'est Charlie Hebdo est proportionnellement plus portée par la communauté des québécois, le journal étant moins connu de l'autre côté de l'Atlantique.
 
On notera enfin la très forte surreprésentation de la communauté d'extrême droite dans la classe de dénonciation de la « récupération » politique (classe 2), ainsi que dans celle sur la liberté d'expression (classe 3) et sur les commentaires des événements du 09 janvier (classe 10). À l’inverse, la communauté de gauche est fortement sous-représentée dans le discours empathique (classe 9) mais aussi dans celui qui dénonce le fanatisme religieux, notamment au sein de l’Islam (classe 8).
 
En conclusion, ces premiers résultats de notre analyse contredisent, au moins partiellement, l'idée que l'attaque contre Charlie Hebdo a produit un point de vue unanime. On s’aperçoit d’abord que les échanges sur Twitter à ce sujet ont été structurés fortement par une logique d’homophilie politique. Ensuite, si la condamnation et l'indignation semblent constituer la norme pour la grande majorité des commentaires, il apparaît aussi que le positionnement politique demeure un puissant facteur de différenciation du discours adopté mais aussi des thématiques et des sources privilégiées. Par exemple, les utilisateurs de Twitter proches de l’extrême droite utilisent davantage un discours « pragmatiques » (description des événements) qu’émotionnel. Ceux de gauche à leur tour sont plus prompts à relayer la mobilisation en faveur de Charlie Hebdo. Ces derniers sont aussi plus à même de relayer des médias publics ou engagés. Cette première analyse doit bien sûr être approfondie et complétée. La publication de l'édition de Charlie Hebdo du 14 janvier a certainement orienté les débats utilisant ce hashtag et il sera intéressant de croiser l'analyse des tweets en français avec les réactions de la communauté anglophone.
Revenir au sommaire

Références

Vincent BLONDEL, Jean-Loup GUILLAUME, Renaud LAMBIOTTE et Etienne LEFEBVRE,
« Fast unfolding of communities in large networks », Journal of Statistical Mechanics: Theory and Experiment, 2008, (10), p. 1000
 
Erik BORRA, et Bernhard RIEDER, « Programmed method: developing a toolset for capturing and analyzing tweets", Aslib Journal of Information Management, 2014, Vol. 66 Iss: 3, pp. 262-278
 
Pierrre RATINAUD, « IRaMuTeQ : Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires (Version 0.7 alpha 2) », 2014 http://www.iramuteq.org
 
Pierre RATINAUD, et Pascal MARCHAND, « Application de la méthode ALCESTE à de “gros” corpus et stabilité des “mondes lexicaux” : analyse du “CableGate” avec IRaMuTeQ », in Actes des 11eme Journées internationales d’Analyse statistique des Données Textuelles, Liège, Belgique, 2012, pp. 835-844. 
 
Revenir au sommaire
  • 1. En raison du très grand nombre de tweets produits comportant cette chaîne de caractères nous avons dépassé à plusieurs reprises la limite de 1 % de tweets autorisés par le REST API de Twitter, ce qui a entraîné un blocage temporaire par le service. De ce fait, nous ne disposons malheureusement pas d’une collecte intégrale. Néanmoins, nous pensons que l’échantillon, qui représente plus de la moitié de tweets sur la période, est tout de même représentatif de l’ensemble.
  • 2. Vincent BLONDEL, Jean-Loup GUILLAUME, Renaud LAMBIOTTE et Etienne LEFEBVRE, « Fast unfolding of communities in large networks », Journal of Statistical Mechanics: Theory and Experiment, (10), p. 1000.
  • 3. Seules les formes pleines participent à l'analyse. Il s'agit des noms, des adjectifs, des verbes et des adverbes.
Vous souhaitez nous apporter un complément, rectifier une information ? Contactez la rédaction