Comment fonctionne lâalgorithme de X / Twitter ? Comment Twitter (renommĂ© X par Elon Musk) priorise les tweets ayant accĂšs Ă la Timeline de chaque utilisateur ? Quels sont les critĂšres et facteurs de classement des tweets ? Comment lâalgorithme de X / Twitter pondĂšre les signaux dâengagement pour donner de la visibilitĂ© (ou non) Ă votre compte ? Elon Musk lâavait annoncĂ© : X / Twitter a rĂ©vĂ©lĂ© son code source et notamment sa partie algorithme avec Ă la clĂ© une vue inĂ©dite sur ce qui permet Ă un tweet dâobtenir du reach ou non. Autant de tactiques et bonnes pratiques Ă appliquer par vous.
Note de Rudy : Si vous ĂȘtes expert en marketing, vous pouvez proposer vos articles en me contactant sur la page dĂ©diĂ©e.
Avant de débuter votre tutoriel, récupérez mon systÚme et mes stratégies pour générer +100 000 visiteurs et des 100aines de prospects et clients chaque mois :
Entrez dĂšs maintenant dans mon programme Trafic & Clients si vous voulez passer un cap rapidement (accĂšs Ă vie Ă mes formations + accompagnement).
Testez enfin les outils que j'utilise pour ajouter des 1000iers d'abonnés emails à ma newsletter chaque mois et générer des 100aines de rendez-vous clients par téléphone :
- Mon outil de collecte d'emails [Paiement en 1x au lieu de l'abonnement]
- Mon outil de crĂ©ation de page [14 jours dâessai gratuits]
- Mon outil d'email automation [14 jours dâessai gratuits + offres]
- Mon outil de cold email [Paiement en 1x au lieu de l'abonnement]
- Mon outil de rĂ©fĂ©rencement / SEO [14 jours dâessai gratuits]
- Mon outil de paiement [Paiement en 1x au lieu de l'abonnement]
Lâalgorithme de X / Twitter : fonctionnement et historique
A lâorigine des rĂ©seaux sociaux, le nombre de compte ou amis que chaque utilisateur suivait Ă©tait relativement limitĂ©, lâusage de Facebook ou Twitter en Ă©tant Ă ses balbutiements.
La valeur dâun rĂ©seau Ă©tant « égale au nombre de ses noeuds Ă la puissance 2 », lâaugmentation du nombre de connexions a permis la dĂ©multiplication du nombre de publications circulant sur ces rĂ©seaux.
- Si vous ĂȘtes seul Ă disposer dâun smartphone, vous nâappellerez personne (logique).
- Si vous ĂȘtes deux Ă disposer dâun smartphone, vous appellerez rĂ©guliĂšrement votre ami.
- Si 90% de vos proches disposent disposent dâun smartphone, il devient un outil central de communication (et potentiellement de votre vie).
Lâexplosion du nombre de contenus et de posts publiĂ©s chaque jour sur Facebook, Twitter ou Instagram a nĂ©cessitĂ© de repenser lâorganisation des fils dâactualitĂ© pour 4 raisons :
- DĂ©livrer une expĂ©rience personnalisĂ©e Ă chaque utilisateur en poussant les thĂšmes, contenus et comptes quâil apprĂ©cie.
- Donner plus dâĂ©cho aux « meilleures » publications pour augmenter le temps passĂ© sur la plateforme (et augmenter les revenus publicitaires).
- En miroir, rendre silencieux les contenus non désirés (selon les priorités de chaque plateforme).
- Laisser de la place à la publicité (et donner une bonne raison aux annonceurs de payer pour obtenir de la visibilité).
A ce titre, Twitter a longtemps rĂ©sistĂ© Ă lâappel des algorithme en conservant son classement purement chronologique qui Ă©tait lâADN de la plateforme Ă ses dĂ©buts (preuve que la mise en place dâalgorithmes de classement par lâengagement nâĂ©tait pas un chemin obligatoire) mais, non sans scandale, les algorithmes ont commencĂ© Ă pondĂ©rer lâapparition ou non des tweets dans vos fils dâactualitĂ©.
Cette modification date sauf erreur de ma part de 2016 avec lâapparition dâune option « Show me the best tweets first » qui laissait alors la main Ă lâutilisateur entre lâordre chronologie et un classement algorithmique. JusquâĂ Ă©videmment lâextension de cette fonction Ă lâensemble des tweets.
Globalement, ce que lâon savait sans forcĂ©ment avoir de donnĂ©es sur ces facteurs de classement :
- Lâengagement sur vos tweets impacte votre portĂ©e (votre reach en anglais donc la portĂ©e de vos publications).
- La visibilité de vos tweets démarre par votre premier cercle (vos followers les plus actifs).
- Si vous ne passez pas les filtres, vos tweets ne sont pas diffusés (ou peu diffusés).
- Si vous passez votre premier cercle avec un fort engagement, votre tweet pourra ĂȘtre diffusĂ© Ă de nouveaux utilisateurs.
- JusquâĂ lentement mourir et que de nouveaux tweets plus engageants viennent prendre la place de votre contenu.
Plongeons maintenant dans les nouvelles donnĂ©es officielles et/ou issues directement de lâĂ©tude du code pour confirmer ou infirmer ce feeling.
Lâalgorithme de recommandation de X / Twitter
Regardons dâabord ce que lâon apprend du cĂŽtĂ© de lâannonce officielle de X / Twitter (nous verrons ensuite ce que lâanalyse du code source montre de nouveau et que vous ne trouverez pas dans le communiquĂ© officiel).
Je vous donne en français de ce communiqué publié sur le blog de X :
X / Twitter vise Ă vous offrir le meilleur de ce qui se passe dans le monde en ce moment. Cela nĂ©cessite un algorithme de recommandation pour distiller les environ 500 millions de Tweets publiĂ©s quotidiennement jusquâĂ une poignĂ©e de Tweets les plus importants qui apparaissent finalement sur la chronologie « Pour vous » de votre appareil.
Comment choisissons-nous les Tweets ?
La base des recommandations de X / Twitter repose sur un ensemble de modĂšles et de fonctionnalitĂ©s essentiels qui extraient des informations latentes Ă partir des donnĂ©es de Tweet, dâutilisateur et dâengagement.
Ces modĂšles visent Ă rĂ©pondre Ă des questions importantes concernant le rĂ©seau X, telles que : « Quelle est la probabilitĂ© que vous interagissiez avec un autre utilisateur Ă lâavenir ? » ou « Quelles sont les communautĂ©s sur X et quels sont les Tweets tendances au sein de celles-ci ? ». RĂ©pondre Ă ces questions avec prĂ©cision permet Ă X de proposer des recommandations plus pertinentes.
Le pipeline de recommandation est composé de trois étapes principales qui utilisent ces fonctionnalités :
- Récupérer les meilleurs Tweets provenant de différentes sources de recommandation dans un processus appelé « sourcing des candidats ».
- Classer chaque Tweet Ă lâaide dâun modĂšle dâapprentissage automatique.
- Appliquer des heuristiques et des filtres, tels que la suppression des Tweets provenant des utilisateurs que vous avez bloqués, des contenus inappropriés et des Tweets que vous avez déjà vus.
Le service responsable de la construction et de la diffusion de la chronologie « Pour vous » sâappelle Home Mixer. Home Mixer est basĂ© sur Product Mixer, notre framework Scala personnalisĂ© qui facilite la crĂ©ation de flux de contenu. Ce service agit comme la colonne vertĂ©brale logicielle qui relie diffĂ©rentes sources de candidats, fonctions de notation, heuristiques et filtres.
Le schéma ci-dessous illustre les principaux composants utilisés pour construire une chronologie :
Explorons les principales parties de ce systĂšme, dans lâordre approximatif dans lequel elles seraient appelĂ©es lors dâune seule demande de chronologie, en commençant par la rĂ©cupĂ©ration des candidats Ă partir des sources de candidats.
Sources de candidats
X / Twitter dispose de plusieurs sources de candidats que nous utilisons pour rĂ©cupĂ©rer des Tweets rĂ©cents et pertinents pour un utilisateur. Pour chaque demande, nous essayons dâextraire les 1500 meilleurs Tweets dâun ensemble de plusieurs centaines de millions grĂące Ă ces sources. Nous trouvons des candidats parmi les personnes que vous suivez (« In-Network ») et parmi les personnes que vous ne suivez pas (« Out-of-Network »).
Aujourdâhui, la chronologie « Pour vous » (« For you ») se compose en moyenne de 50% de Tweets « dans le rĂ©seau » et de 50% de Tweets « hors du rĂ©seau », bien que cela puisse varier dâun utilisateur Ă lâautre.
In-Network Source (sources « dans le réseau »)
La source « dans le rĂ©seau » est la plus grande source de candidats et vise Ă fournir les Tweets les plus pertinents et rĂ©cents des utilisateurs que vous suivez. Elle classe efficacement les Tweets de ceux que vous suivez en fonction de leur pertinence Ă lâaide dâun modĂšle de rĂ©gression logistique. Les meilleurs Tweets sont ensuite envoyĂ©s Ă lâĂ©tape suivante.
Le composant le plus important dans le classement des Tweets « dans le rĂ©seau » est Real Graph. Real Graph est un modĂšle qui prĂ©dit la probabilitĂ© dâengagement entre deux utilisateurs. Plus le score Real Graph entre vous et lâauteur du Tweet est Ă©levĂ©, plus nous inclurons leurs tweets.
La source « dans le rĂ©seau » a fait lâobjet de travaux rĂ©cents chez X. Nous avons rĂ©cemment cessĂ© dâutiliser Fanout Service, un service de 12 ans qui Ă©tait auparavant utilisĂ© pour fournir des Tweets « dans le rĂ©seau » Ă partir dâun cache de Tweets pour chaque utilisateur. Nous sommes Ă©galement en train de repenser le modĂšle de classement par rĂ©gression logistique qui a Ă©tĂ© mis Ă jour et entraĂźnĂ© pour la derniĂšre fois il y a plusieurs annĂ©es !
Out-of-Network Sources (sources « hors du réseau »)
Trouver des Tweets pertinents en dehors du rĂ©seau dâun utilisateur est un problĂšme plus dĂ©licat : comment pouvons-nous savoir si un certain Tweet vous sera pertinent si vous ne suivez pas lâauteur ? X adopte deux approches pour rĂ©soudre ce problĂšme.
Graph social
Notre premiĂšre approche consiste Ă estimer ce que vous trouveriez pertinent en analysant les engagements des personnes que vous suivez ou de celles ayant des intĂ©rĂȘts similaires.
Nous parcourons le graphe des engagements et des abonnements pour répondre aux questions suivantes :
Quels Tweets les personnes que je suis ont-elles récemment appréciés ?
Qui aime des Tweets similaires Ă moi, et quâont-ils rĂ©cemment aimĂ© dâautre ?
Nous gĂ©nĂ©rons des Tweets candidats en fonction des rĂ©ponses Ă ces questions et classons les Tweets rĂ©sultants Ă lâaide dâun modĂšle de rĂ©gression logistique. Les parcours de graphes de ce type sont essentiels Ă nos recommandations « hors du rĂ©seau ». Nous avons dĂ©veloppĂ© GraphJet, un moteur de traitement de graphes qui maintient un graphe dâinteraction en temps rĂ©el entre les utilisateurs et les Tweets, pour exĂ©cuter ces parcours. Bien que ces heuristiques pour rechercher le rĂ©seau dâengagement et de suivi
Nous pouvons intĂ©grer des Tweets dans ces communautĂ©s en examinant la popularitĂ© actuelle dâun Tweet dans chaque communautĂ©. Plus les utilisateurs dâune communautĂ© aiment un Tweet, plus ce Tweet sera associĂ© Ă cette communautĂ©.
Classement
Lâobjectif de la chronologie « Pour vous » est de vous proposer des Tweets pertinents. Ă ce stade du pipeline, nous avons environ 1500 candidats qui pourraient ĂȘtre pertinents. Le score prĂ©dit directement la pertinence de chaque Tweet candidat et constitue le principal signal de classement des Tweets sur votre chronologie. Ă cette Ă©tape, tous les candidats sont traitĂ©s de maniĂšre Ă©gale, sans tenir compte de la source du candidat dâorigine.
Le classement est obtenu avec un rĂ©seau neuronal dâenviron 48 millions de paramĂštres qui est continuellement entraĂźnĂ© sur les interactions de Tweets pour optimiser lâengagement positif (par exemple, les mentions Jâaime, les Retweets et les RĂ©ponses). Ce mĂ©canisme de classement prend en compte des milliers de caractĂ©ristiques et gĂ©nĂšre dix Ă©tiquettes pour attribuer un score Ă chaque Tweet, chaque Ă©tiquette reprĂ©sentant la probabilitĂ© dâun engagement. Nous classons les Tweets Ă partir de ces scores.
Heuristiques, filtres et fonctionnalités du produit
AprĂšs lâĂ©tape de classement, nous appliquons des heuristiques et des filtres pour mettre en Ćuvre diverses fonctionnalitĂ©s du produit. Ces fonctionnalitĂ©s fonctionnent ensemble pour crĂ©er un flux Ă©quilibrĂ© et diversifiĂ©.
Voici quelques exemples :
â Filtrage de visibilitĂ© : Filtrer les Tweets en fonction de leur contenu et de vos prĂ©fĂ©rences. Par exemple, supprimer les Tweets des comptes que vous bloquez ou mettez en sourdine.
â DiversitĂ© des auteurs : Ăviter trop de Tweets consĂ©cutifs dâun seul auteur.
â Ăquilibre du contenu : Veiller Ă ce que nous offrions un Ă©quilibre Ă©quitable entre les Tweets du rĂ©seau et hors rĂ©seau.
â Fatigue basĂ©e sur les commentaires : Diminuer le score de certains Tweets si lâutilisateur a fourni un retour nĂ©gatif Ă leur sujet.
â Preuve sociale : Exclure les Tweets hors rĂ©seau sans connexion au deuxiĂšme degrĂ© avec le Tweet comme mesure de qualitĂ©. En dâautres termes, sâassurer que quelquâun que vous suivez a interagi avec le Tweet ou suit lâauteur du Tweet.
â Conversations : Fournir plus de contexte Ă une rĂ©ponse en la reliant au Tweet original.
â Tweets modifiĂ©s : DĂ©terminer si les Tweets actuellement sur un appareil sont obsolĂštes et envoyer des instructions pour les remplacer par les versions modifiĂ©es.
Mélange et diffusion
Ă ce stade, Home Mixer a un ensemble de Tweets prĂȘts Ă ĂȘtre envoyĂ©s Ă votre appareil. Dans la derniĂšre Ă©tape du processus, le systĂšme mĂ©lange les Tweets avec dâautres contenus non-Tweet tels que les publicitĂ©s, les recommandations de suivi et les invites dâintĂ©gration, qui sont renvoyĂ©s Ă votre appareil pour ĂȘtre affichĂ©s.
Le pipeline ci-dessus fonctionne environ 5 milliards de fois par jour et se termine en moins de 1,5 seconde en moyenne. Une seule exĂ©cution du pipeline nĂ©cessite 220 secondes de temps CPU, soit prĂšs de 150 fois la latence que vous percevez sur lâapplication.
Analyse du code source de X / Twitter et bonnes pratiques
Le post de X / Twitter est en soi extrĂȘmement intĂ©ressant en tant quâil donne une vue de lâintĂ©rieur de lâalgo de X expliquĂ© par X.
Mais vu que le code source est maintenant disponible en accĂšs libre en ligne (ici et ici), nous pouvons Ă©galement lâĂ©tudier avec un Ćil neutre.
Je ne suis pas dĂ©veloppeur (mĂȘme si jâaurais pu utiliser ChatGPT pour mâexpliquer le code) mais plusieurs utilisateurs de X (notamment @aakashg0, @steventey ou encore nft_god entre autres) ont fait le job et voici ce quâils ont dĂ©couvert :
1. Lâimpact des Jâaime / Likes, Retweets & RĂ©ponses / Replies
X dĂ©termine votre influence dans le rĂ©seau en analysant un ensemble de facteurs et vous assigne un score appelĂ© « Tweepcred ». Ce score impacte ensuite le score individuels de vos tweets (donc si Elon Musk tweete une banalitĂ©s, ce tweet ira plus loin que sâil vient de vous ou de moi).
En analysant le code source, voici ce que lâon dĂ©couvre sur les critĂšres dâengagement et leur pondĂ©ration dans les scores de classement :
1. Chaque like / jâaime donne un score de 30
2. Chaque retweet donne une score de 20
3. Chaque « reply / réponse » ajoute seulement 1 à votre score
Résultat : les likes sont (étonnamment) les plus impactants (et pas forcément les discussions et commentaires sous le tweet).
2. Lâimpact des contenus images et vidĂ©os
Lâajout dâune image ou dâune vidĂ©o Ă votre tweet (outre que ces contenus peuvent rendre plus visible votre tweet en prenant plus de place dans la Timeline ou simplement enrichir votre tweet, une image ou une vidĂ©o pouvant capter lâattention au milieu de tweets sous forme de textes), permet « organiquement » dâobtenir un boost dans les classements.
Résultat : ajoutez des images et vidéos pour bénéficier de ce boost dans les ranking.
3. Lâimpact des hashtags
Lâajout de hashtags multiples (plus dâun) vous dĂ©fĂ©rence quasiment automatiquement.
Nâutilisez pas (ou peu) de hashtags.
4. Lâimpact (nĂ©gatif) des liens externes
Lâajout dâun lien externe (vers une source tierce hors de X / Twitter) Ă votre tweet pĂ©nalise votre publication. Les posts qui font « sortir » lâutilisateur de la plateforme sont une perte de revenus publicitaire pour X.
Résultat : restez sur la plateforme sans quoi le tweet sera marqué comme un « spam » et nettement minoré.
5. Lâimpact de votre ratio followers / following
Le nombre de vos followers est important mais le ratio entre ce nombre dâabonnĂ©s (followers) et les comptes que vous suivez (following) est Ă©galement critique. Donc ne suivez pas trop de comptes dans lâespoir dâĂȘtre repĂ©rĂ© (ou en automatique), cela vous pĂ©nalise.
6. Lâimpact des « mute » et « unfollow »
Comme décrit dans le post officiel de X, les tweets « mis sous silence », « bloqués », « unfollowés », « mis en spam » ou en « report abuse » sont logiquement pénalisés.
7. Lâimpact du badge « X Blue »
Aucune surprise, si vous avez le badge « X Blue » (et que vous payez donc), vos tweets bĂ©nĂ©ficieront dâun boost « au sein de votre rĂ©seau » mais Ă©galement « hors de votre rĂ©seau ».
8. Lâimpact de la dĂ©sinformation (fake news & spambots)
Vos tweets sâils sont flaggĂ©s comme fake sur des sujets monitorĂ©s par X seront descendus dans les classements et possiblement « shadowban ».
9. Lâimpact du social graph
La notion de « In-Network » et de « Out-of-Network » est nouvelle : chaque compte est clustĂ©risĂ© dans un groupe de profils similaires. Vos tweets sont dâabord diffusĂ©s dans ce groupe proche avant (Ă©ventuellement) dâĂȘtre envoyĂ© plus largement auprĂšs dâune cible plus large.
10. Lâimpact des clusters « In-Network » et « Out-of-Network »
Vos tweets sont de maniĂšre « organique » pĂ©nalisĂ©s dĂšs quâils sont diffusĂ©s « hors de votre rĂ©seau ».
Cela signifie :
1. Que vos tweets sont dâabord diffusĂ©s au cluster oĂč vous avez Ă©tĂ© filtrĂ© (sans pĂ©nalitĂ©).
2. Quâen fonction de lâengagement, votre tweet sera proposĂ© « hors de votre rĂ©seau » (mais avec une pĂ©nalitĂ©).
3. Donc que vos tweets qui nâobtiennent pas de likes et de retweets « dans votre rĂ©seau » nâont aucune chance « hors du rĂ©seau »
4. Donc que si vous postez sur des thĂ©matiques qui nâintĂ©ressent pas votre cluster (exemple : vous parlez constamment de marketing et subitement vous parlez de cuisine), votre tweet ne passera pas cette premiĂšre barriĂšre.
Résultat : restez niché sur une thématique.
11. Lâimpact de lâorthographe et du vocabulaire
Si vous écrivez avec les pieds, vous serez pénalisé.
12. Lâimpact du timing (et de lâanciennetĂ© du tweet)
MĂȘme si votre tweet est gĂ©nial, lâalgorithme de X / Twitter va lentement le faire disparaĂźtre Ă mesure quâil date afin de faire Ă©merger des tweets plus rĂ©cents. Apparemment en faisant baisser le score dâĂąge de 50% toute les 6 heures. Câest donc Ă sa publication que votre tweet doit performer pour avoir une chance de sâextraire de la pesanteur terrestre et voler de ses propres ailes.
Les 3 signaux qui impactent votre score de pertinence
LâaccĂšs Ă la Timeline et au fil dâactualitĂ© des utilisateurs est donc centrĂ© autour de 3 agrĂ©gations de donnĂ©es :
â Vos donnĂ©es dâengagement (likes, retweets, rĂ©ponsesâŠ)
â Vos donnĂ©es dâutilisateurs (spam, unfollow, muteâŠ)
â Vos connexions (social graph, cluster, followers et donc communautĂ©âŠ)
Nous connaissions par expĂ©rience une bonne partie de ces Ă©lĂ©ments mais il sâagit de la premiĂšre fois que nous obtenons une vue de lâintĂ©rieur basĂ©e sur non pas des hypothĂšses mais des donnĂ©es.
JâespĂšre que vous en profiterez pour piocher quelques bonnes idĂ©es pour amĂ©liorer votre stratĂ©gie de contenus.
Développer vos réseaux sociaux est un volet majeur du programme "Trafic & Clients".