De la nécessité d’apprivoiser vos données
Intéressant cet article ?
Viens jouer avec moi, proposa le petit Prince au renard.
– Je ne puis pas jouer avec toi, dit le renard. Je ne suis pas apprivoisé.
– Que signifie « apprivoiser » ? demanda le petit Prince.
– C’est une chose trop oubliée, dit le renard. Ça signifie « créer des liens… »
– Créer des liens ?
– Bien sûr, dit le renard. Tu n’es encore pour moi, qu’un petit garçon tout semblable à cent mille petits garçons. Et je n’ai pas besoin de toi. Et tu n’as pas besoin de moi non plus. Je ne suis pour toi qu’un renard semblable à cent mille renards. Mais, si tu m’apprivoises, nous aurons besoin l’un de l’autre. Tu seras pour moi unique au monde. Je serai pour toi unique au monde…
(Saint-Exupéry, 1943)
Vos données, celles que vous collectez sur votre site via une solution de webanalytics, sont comme le renard : elles demandent à être apprivoisées. Mais ce n’est pas simple. Elles ne se laissent pas approcher si facilement. Et c’est d’autant plus vrai lorsqu’elles n’ont pas été ardemment désirées…
De quelles données avez-vous réellement besoin ?
Avec l’avènement d’outils performants (et gratuits pour ce qui concerne ceux de Google), nombreux sont ceux qui ont annoncé la domestication démocratisation de la data, principalement du côté des prestataires et des éditeur•rice•s. Il suffit de s’attarder un peu sur les carrefours d’audience webmarketing pour s’en rendre compte. Combien de solutions de tableaux de bord se tirent la bourre pour nous révéler le sens caché de nos données ?
Il faut bien l’admettre, nous y avons cru, nous aussi. Un moment. Mais il aura suffi de quelques projets approchés sérieusement, et d’un minimum d’honnêteté, pour dissiper rapidement le mirage.
Mais de quelles données parlons-nous ?
Une démocratisation en apparence
Ce malentendu sur la facilité d’accès à la data est probablement (pour partie) lié à la simplicité des outils qui permettent de la manipuler. En effet, implémenter Google Analytics n’est pas vraiment difficile : cela consiste à peu de choses près dans un copier-coller. Et avec GTM (Google Tag Manager) c’est presque encore plus simple. Mais cela n’est que la première étape de la démarche : c’est comme décrocher son téléphone quand on veut appeler : un pré-requis… Car quand on a mis en place la solution, en réalité, on n’a pas fait grand chose.
3 caractéristiques de la data
Donc oui, collecter de la data et garantir sa qualité représente un travail important. Important parce que délicat et précis. Aussi pour mieux comprendre la complexité de cette démarche, focalisons-nous sur les 3 caractéristiques suivantes, intrinsèques à la data :
- Data passivity : les données sont par nature passives.
- Data subjectivity : les données sont par nature subjectives.
- Data scarcity : les données sont par nature toujours incomplètes.
Les données sont passives
Data passivity
Une donnée brute, une statistique, en soi, n’est rien, ne signifie rien.
Autrement dit, une donnée, spontanément, ne donne rien… Ce n’est pas un agent actif, mais plutôt un medium passif. C’est précisément pour cela que les a priori sont si tenaces. Tant que les données collectées ne sont pas suffisamment qualitatives pour ne plus être soumises à interprétation, le doute subsiste, et avec lui l’a priori initial. Or, qui construit et développe son activité sur des a priori ? Est-ce seulement envisageable ? Les succès produits par cette approche sont plutôt… Comment dire ? À la marge ! La plupart des réussites, au contraire, résultent d’une parfaite convergence entre données maîtrisées et décisions éclairées.
La passivité des données peut conduire à des tableaux de bord aveugles.En jetant un œil rapide à un tableau de bord, on voudrait capter d’emblée l’idée générale. Comme si les camemberts, les tableaux croisés et les graphiques en barres devaient nous dire comment se déroulent nos activités et ce que nous devrions faire pour qu’elles se portent mieux. Bien entendu, ces éléments ne nous le disent pas !
Les libellés (en vert, c’est positif, en rouge, c’est négatif) et leurs interprétations nécessitent imagination et calculs. Les données doivent être mises en perspective avec celles du secteur et surtout avec les objectifs fixés. Si nous nous attendons à ce qu’une solution, aussi universelle que Google Analytics, nous révèle en un coup d’oeil, et sans qu’aucune personnalisation ne soit nécessaire, ce que nous devons savoir et ce que nous devons faire, il est évident que nous allons au devant d’importantes déconvenues.
C’est précisément parce que les données sont par nature passives qu’il faut des analystes compétent•e•s pour les faire parler. Sans leur intervention, pas de signification, pas de visualisation explicite. Et pour que ce travail soit possible, il est primordial que les données et le dispositif de collecte soient de bonne qualité. Il est donc indispensable de connaître et de comprendre précisément ce que l’on collecte, et la manière dont on le fait.
Ainsi, une analyse tirée d’une solution tout juste mise en place, sans personnalisation, n’a pas vraiment de sens. Ou du moins pas beaucoup car elle n’aura aucune profondeur. Et dès que les premières questions perspicaces émergeront, les données à disposition se révéleront inconsistantes : elles seront en effet inadaptées à votre contexte, votre activité, votre problématique, votre approche.
S’intéresser aux données, c’est chercher des réponses, et c’est nécessairement vouloir trouver ses propres réponses. Donc dès lors qu’on s’interroge sur l’utilisation d’un site ou d’une application, sur leur performance, il est nécessaire d’affiner la collecte, de la personnaliser.
Les données sont subjectives
Data subjectivity
Cette caractéristique a directement trait à la question de la qualité des données.
L’exemple du taux de rebond
Restons sur le cas de Google Analytics. Pour beaucoup le « taux de rebond » constitue un indicateur clé de l’engagement utilisateur•rice vis-à-vis des contenus. Or, la plupart du temps, cet indicateur n’est pas compris. Voici en effet quelques informations déterminantes et pourtant souvent méconnues :
- un rebond n’est pas une visite (session) avec une seule page vue : c’est une session avec une seule interaction ;
- Google Analytics ne sait pas mesurer la durée d’une session qui constitue un rebond ;
- un taux de rebond élevé (sur une page présentant des coordonnées et un numéro de téléphone, par exemple) peut être un indicateur tout à fait positif.
Peut-on raisonnablement attribuer autant de crédit au seul taux de rebond ? Non, bien sûr. Si vous ne mesurez pas l’engagement des visiteur•euse•s vis-à-vis des CTA (Call To Action) présents dans la page observée, vous ne serez pas en mesure d’en interpréter correctement le taux de rebond.
A contrario, si vous mesurez les interactions des visiteur•euse•s, alors les visites ne présentant qu’une seule interaction seront moins nombreuses et le taux de rebond diminuera. Mais aussi et surtout vous saurez exactement à quoi il correspond !
De la même manière, si vous ne disposez d’aucune autre mesure que le simple comptage des pages vues (ce qui constitue le tracking « standard » de Google Analytics), vous ne saurez pas combien de temps le•la visiteur•euse qui a effectué un « rebond » est resté•e sur la page concernée.
En effet, le temps passé sur une page correspond à l’intervalle de temps mesuré entre le chargement de cette page et le chargement de la suivante. Alors que la durée d’une session correspond à l’intervalle de temps entre 2 interactions, quelles qu’elles soient. Or ces 2 calculs sont impossibles dans le cas d’une visite « rebond » qui n’implique qu’une seule interaction…
Si vous vous contentez de la mesure standard proposée par Google Analytics, un•e visiteur•euse peut avoir passé 18h sur une page, avoir lu et relu son contenu dans les moindres détails, l’avoir appris par cœur, avoir scrollé de haut en bas et inversement, avoir utilisé la fonctionnalité de zoom sur les visuels, avoir manipulé le carrousel, avoir regardé les multiples vidéos plusieurs fois… Sa visite sera considérée comme un rebond et vous ne saurez rien de l’intérêt que cette page a pu susciter chez elle•lui.
Inversement, trouver un numéro de téléphone ou l’adresse d’un lieu peut constituer un objectif pour certain•e•s visiteur•euse•s. Il est alors tout à fait normal qu’une page « contact » présente un taux de rebond élevé. Cela signifie d’ailleurs que cette page « contact » a été optimisée pour ressortir à bon escient dans les pages de résultats des moteurs de recherche, et qu’après être arrivé directement sur cette page, le•la visiteur•euse a trouvé immédiatement ce qu’il•elle était venu•e chercher. Dans ce cas précis, il aurait d’ailleurs été frustrant pour lui•elle d’être contraint•e de consulter d’autres pages pour trouver ce qu’il•elle cherchait (alors qu’on aurait considéré positivement le fait d’avoir un taux de rebond plus faible…).
Il s’agit là de quelques exemples destinés à montrer à quel point la qualité du taux de rebond en tant qu’indicateur est directement liée à la compréhension qu’on a de la manière dont cette mesure est effectuée et calculée.
Et pour que le taux de rebond soit plus précis, et donc plus significatif, il faut l’amender par la prise en compte des interactions de l’utilisateur•rice avec le site : taux de scroll dans la page, temps réel passé sur la page, lecture d’une vidéo, utilisation d’un diaporama, ouverture d’un layer, téléchargement d’un fichier, clic sur un email… C’est à cette condition seulement qu’il pourra revendiquer être un juste reflet de l’engagement ou du non-engagement des visiteur•euse•s.
Pour illustrer cette « subjectivité » d’une autre manière, il suffit de considérer à quel point une même information, lorsqu’elle est brute, peut être perçue de manière positive ou négative, selon le point de vue adopté et la question posée. Un taux de rebond sur une page contact, est-ce positif ou négatif ? Tout dépend de ce que l’on considère, de l’objectif qu’on s’est fixé, et de celui que s’était fixé l’internaute…
Sortez du standard pour objectiver votre analyse
Un ensemble de données constitué uniquement de pages vues ne permet donc pas d’évaluer l’engagement des visiteur•euse•s vis-à-vis des contenus et services qui leur sont proposés. Il manque des indicateurs clés : les interactions avec ces contenus et services. Ces indicateurs sont propres à chaque site, à chaque projet. La collecte « standard » ne permet donc, avec la relativité qui s’impose, que d’émettre des estimations et des hypothèses sur le taux de lecture d’un site. Vous conviendrez que cette information reste bien floue pour piloter une activité !
Les données ne sont jamais exhaustives
Data scarcity
La mesure en web analytics est limitée par la technologie. On est en effet soumis aux limites imposées par les traitements Javascript au niveau des navigateurs, par le contenu des requêtes HTTP, et par la puissance de calculs des serveurs.
Donc de toute façon, quelle que soit la quantité d’informations que nous collectons et combinons, nous n’aurons jamais toutes les données. L’information sera toujours incomplète. Et c’est pourquoi il est indispensable de se fixer une limite, de manière arbitraire, au moment de la collecte. Il s’agit de restreindre et circonscrire le champ d’investigation à un périmètre précis.
Mais à partir de quel seuil peut-on considérer que nous avons « assez » de data ?
Reprenons l’exemple de la mesure de l’engagement à l’égard des contenus. Avec Google Analytics, il est d’usage de mesurer l’utilisation du scroll. Cela permet de connaître le nombre d’utilisateur•rice•s ayant parcouru les pages du site jusqu’en bas, et d’utiliser cette information comme indicateur (rudimentaire) du taux de lecture. Mais quel pourcentage de scroll devons-nous prendre en compte ? 10 % ? 25 % ? 50 % ? Ne devrions-nous pas aussi considérer le temps passé sur l’article pour ne pas prendre en compte ceux qui ne feraient que scroller, rapidement, sans lire ? Et si un•e utilisateur•rice parcourait très rapidement le contenu jusqu’en bas, pour accéder aux commentaires ? Devons-nous aussi prendre en compte les déplacements de curseur ? Et peut-être que le défilement de la page n’est destiné qu’à accéder aux contenus de la zone latérale ou aux coordonnées situées dans le pied de page ? On peut continuer comme ça longtemps…
Les questions sont donc infinies. Seulement limitées par notre imagination et notre curiosité. Les données qu’on peut collecter sont presque tout aussi illimitées, d’où la nécessité de se donner un cadre. Mais ce n’est pas évident, car les avis divergent souvent sur l’emplacement de cette limite et la tentation est grande d’engranger de la data.
Il est donc important de bien s’interroger en amont et de vérifier si les données disponibles permettent de répondre aux questions qu’on se pose réellement. Ensuite on affine la collecte, on reformule les questions, on ajuste les hypothèses et ainsi de suite dans une démarche vertueuse.
Apprivoiser vos données, c’est vous défaire des a priori
Pour conclure, la finalité d’une collecte de données pourrait se résumer ainsi : obtenir des données porteuses de sens. Or ce dernier est spécifique à chaque activité, à chaque cas, chaque projet, chaque organisation et chaque plateforme. Il n’existe pas de valeur absolue. Des données apprivoisées sont d’abord des données qui ont été désirées.
Une organisation sérieuse et appliquée, dans son utilisation de la data au service de l’efficience de son travail, ne se contente pas de collecter des données, de les traiter, et de le présenter dans des jolis tableaux. Elle ne conçoit pas la data comme une tâche à réaliser. Elle observe tous les aspects de son dispositif de manière attentive, avec beaucoup de respect et d’humilité, pour transformer ses indicateurs en actions pertinentes. C’est ce qu’on appelle le pilotage par la data, ou data driven strategy.
Et la raison pour laquelle nous insistons autant sur la collecte est qu’il y a souvent une rupture dans la chaîne de valeur entre la manière dont les données sont collectées, la manière dont elles sont accessibles et celle dont elles sont exploitées. Bien sûr, les 3 caractéristiques présentées ne concernent pas que la phase de collecte. Elles sont tout aussi valables pour ce qui concerne leur traitement et leur exploitation. Cependant, si la phase de collecte est négligée, si son importance est sous-estimée, nos questions resteront sans réponse, et nos décisions continueront de s’appuyer aveuglément sur nos a priori.
Christian
Blog JETPULPCet article est librement adapté d’un post de Simo Ahava, avec son aimable accord.





Tendances social media 2020 : TikTok & Snapchat, réseaux préférés des -24 ans

Tendances social media 2020 : la publicité Pinterest, c’est maintenant !

Acteurs Food, utilisez les réseaux sociaux pour regagner la confiance du consommateur

Acteurs Food : comment ré-inventer l'expérience client en magasin ?




Vous êtes libre de contribuer !