Publié le 9 mai 2017
  • Intermédiaire
  • Collecte
  • Data
  • Webanalytics

De la nécessité d’apprivoiser vos données

Intéressant cet article ?

[Total : 4    Moyenne : 4.3/5]

Viens jouer avec moi, proposa le petit Prince au renard.
– Je ne puis pas jouer avec toi, dit le renard. Je ne suis pas apprivoisé.
– Que signifie « apprivoiser » ? demanda le petit Prince.
– C’est une chose trop oubliée, dit le renard. Ça signifie « créer des liens… »
– Créer des liens ?
– Bien sûr, dit le renard. Tu n’es encore pour moi, qu’un petit garçon tout semblable à cent mille petits garçons. Et je n’ai pas besoin de toi. Et tu n’as pas besoin de moi non plus. Je ne suis pour toi qu’un renard semblable à cent mille renards. Mais, si tu m’apprivoises, nous aurons besoin l’un de l’autre. Tu seras pour moi unique au monde. Je serai pour toi unique au monde…
(Saint-Exupéry, 1943)

Vos données, celles que vous collectez sur votre site via une solution de webanalytics, sont comme le renard : elles demandent à être apprivoisées. Mais ce n’est pas simple. Elles ne se laissent pas approcher si facilement. Et c’est d’autant plus vrai lorsqu’elles n’ont pas été ardemment désirées…

De quelles données avez-vous réellement besoin ?

Avec l’avènement d’outils performants (et gratuits pour ce qui concerne ceux de Google), nombreux sont ceux qui ont annoncé la domestication démocratisation de la data, principalement du côté des prestataires et des éditeur•rice•s. Il suffit de s’attarder un peu sur les carrefours d’audience webmarketing pour s’en rendre compte. Combien de solutions de tableaux de bord se tirent la bourre pour nous révéler le sens caché de nos données ?

Il faut bien l’admettre, nous y avons cru, nous aussi. Un moment. Mais il aura suffi de quelques projets approchés sérieusement, et d’un minimum d’honnêteté, pour dissiper rapidement le mirage.

Mais de quelles données parlons-nous ?

Une démocratisation en apparence

Ce malentendu sur la facilité d’accès à la data est probablement (pour partie) lié à la simplicité des outils qui permettent de la manipuler. En effet, implémenter Google Analytics n’est pas vraiment difficile : cela consiste à peu de choses près dans un copier-coller. Et avec GTM (Google Tag Manager) c’est presque encore plus simple. Mais cela n’est que la première étape de la démarche : c’est comme décrocher son téléphone quand on veut appeler : un pré-requis… Car quand on a mis en place la solution, en réalité, on n’a pas fait grand chose.

A ce stade-là, Google Analytics ne collecte en effet que des pages vues. Cela signifie que la solution ne mesure que le fait que les pages du site ou les écrans de l’application se chargent. Donc malheureusement, tout ce qui nous intéresse vraiment, c’est-à-dire la manière dont les internautes interagissent avec le dispositif, n’est pas mesuré.
Les utilisateur•rice•s cliquent-elles•ils sur les appels à action qui ont été spécifiquement travaillés ? Parcourent-elles•ils l’intégralité des articles publiés ? Téléchargent-elles•ils les documents mis à disposition ? Sollicitent-elles•ils les contacts proposés via les adresses e-mails disponibles ? Cliquent-elles•ils sur les offres suggérées en bas de page ?
Aucune solution, tout juste sortie de sa boîte, ne peut collecter de telles informations car ces données sont spécifiques au projet et à la vision de ses initiateur•rice•s. Cela représente donc systématiquement une démarche particulière et un travail supplémentaire.

3 caractéristiques de la data

Donc oui, collecter de la data et garantir sa qualité représente un travail important. Important parce que délicat et précis. Aussi pour mieux comprendre la complexité de cette démarche, focalisons-nous sur les 3 caractéristiques suivantes, intrinsèques à la data :

  • Data passivity : les données sont par nature passives.
  • Data subjectivity : les données sont par nature subjectives.
  • Data scarcity : les données sont par nature toujours incomplètes.

Les données sont passives

Data passivity

Une donnée brute, une statistique, en soi, n’est rien, ne signifie rien.

Autrement dit, une donnée, spontanément, ne donne rien… Ce n’est pas un agent actif, mais plutôt un medium passif. C’est précisément pour cela que les a priori sont si tenaces. Tant que les données collectées ne sont pas suffisamment qualitatives pour ne plus être soumises à interprétation, le doute subsiste, et avec lui l’a priori initial. Or, qui construit et développe son activité sur des a priori ? Est-ce seulement envisageable ? Les succès produits par cette approche sont plutôt… Comment dire ? À la marge ! La plupart des réussites, au contraire, résultent d’une parfaite convergence entre données maîtrisées et décisions éclairées.

La passivité des données peut conduire à des tableaux de bord aveugles.

En jetant un œil rapide à un tableau de bord, on voudrait capter d’emblée l’idée générale. Comme si les camemberts, les tableaux croisés et les graphiques en barres devaient nous dire comment se déroulent nos activités et ce que nous devrions faire pour qu’elles se portent mieux. Bien entendu, ces éléments ne nous le disent pas !

Les libellés (en vert, c’est positif, en rouge, c’est négatif) et leurs interprétations nécessitent imagination et calculs. Les données doivent être mises en perspective avec celles du secteur et surtout avec les objectifs fixés. Si nous nous attendons à ce qu’une solution, aussi universelle que Google Analytics, nous révèle en un coup d’oeil, et sans qu’aucune personnalisation ne soit nécessaire, ce que nous devons savoir et ce que nous devons faire, il est évident que nous allons au devant d’importantes déconvenues.

C’est précisément parce que les données sont par nature passives qu’il faut des analystes compétent•e•s pour les faire parler. Sans leur intervention, pas de signification, pas de visualisation explicite. Et pour que ce travail soit possible, il est primordial que les données et le dispositif de collecte soient de bonne qualité. Il est donc indispensable de connaître et de comprendre précisément ce que l’on collecte, et la manière dont on le fait.

Ainsi, une analyse tirée d’une solution tout juste mise en place, sans personnalisation, n’a pas vraiment de sens. Ou du moins pas beaucoup car elle n’aura aucune profondeur. Et dès que les premières questions perspicaces émergeront, les données à disposition se révéleront inconsistantes : elles seront en effet inadaptées à votre contexte, votre activité, votre problématique, votre approche.

S’intéresser aux données, c’est chercher des réponses, et c’est nécessairement vouloir trouver ses propres réponses. Donc dès lors qu’on s’interroge sur l’utilisation d’un site ou d’une application, sur leur performance, il est nécessaire d’affiner la collecte, de la personnaliser.

Les données sont subjectives

Data subjectivity

Cette caractéristique a directement trait à la question de la qualité des données.

L’exemple du taux de rebond

Restons sur le cas de Google Analytics. Pour beaucoup le « taux de rebond » constitue un indicateur clé de l’engagement utilisateur•rice vis-à-vis des contenus. Or, la plupart du temps, cet indicateur n’est pas compris. Voici en effet quelques informations déterminantes et pourtant souvent méconnues :

  • un rebond n’est pas une visite (session) avec une seule page vue : c’est une session avec une seule interaction ;
  • Google Analytics ne sait pas mesurer la durée d’une session qui constitue un rebond ;
  • un taux de rebond élevé (sur une page présentant des coordonnées et un numéro de téléphone, par exemple) peut être un indicateur tout à fait positif.

Peut-on raisonnablement attribuer autant de crédit au seul taux de rebond ? Non, bien sûr. Si vous ne mesurez pas l’engagement des visiteur•euse•s vis-à-vis des CTA (Call To Action) présents dans la page observée, vous ne serez pas en mesure d’en interpréter correctement le taux de rebond.

A contrario, si vous mesurez les interactions des visiteur•euse•s, alors les visites ne présentant qu’une seule interaction seront moins nombreuses et le taux de rebond diminuera. Mais aussi et surtout vous saurez exactement à quoi il correspond !

De la même manière, si vous ne disposez d’aucune autre mesure que le simple comptage des pages vues (ce qui constitue le tracking « standard » de Google Analytics), vous ne saurez pas combien de temps le•la visiteur•euse qui a effectué un « rebond » est resté•e sur la page concernée.

En effet, le temps passé sur une page correspond à l’intervalle de temps mesuré entre le chargement de cette page et le chargement de la suivante. Alors que la durée d’une session correspond à l’intervalle de temps entre 2 interactions, quelles qu’elles soient. Or ces 2 calculs sont impossibles dans le cas d’une visite « rebond » qui n’implique qu’une seule interaction…

Si vous vous contentez de la mesure standard proposée par Google Analytics, un•e visiteur•euse peut avoir passé 18h sur une page, avoir lu et relu son contenu dans les moindres détails, l’avoir appris par cœur, avoir scrollé de haut en bas et inversement, avoir utilisé la fonctionnalité de zoom sur les visuels, avoir manipulé le carrousel, avoir regardé les multiples vidéos plusieurs fois… Sa visite sera considérée comme un rebond et vous ne saurez rien de l’intérêt que cette page a pu susciter chez elle•lui.

Inversement, trouver un numéro de téléphone ou l’adresse d’un lieu peut constituer un objectif pour certain•e•s visiteur•euse•s. Il est alors tout à fait normal qu’une page « contact » présente un taux de rebond élevé. Cela signifie d’ailleurs que cette page « contact » a été optimisée pour ressortir à bon escient dans les pages de résultats des moteurs de recherche, et qu’après être arrivé directement sur cette page, le•la visiteur•euse a trouvé immédiatement ce qu’il•elle était venu•e chercher. Dans ce cas précis, il aurait d’ailleurs été frustrant pour lui•elle d’être contraint•e de consulter d’autres pages pour trouver ce qu’il•elle cherchait (alors qu’on aurait considéré positivement le fait d’avoir un taux de rebond plus faible…).

Il s’agit là de quelques exemples destinés à montrer à quel point la qualité du taux de rebond en tant qu’indicateur est directement liée à la compréhension qu’on a de la manière dont cette mesure est effectuée et calculée.

Et pour que le taux de rebond soit plus précis, et donc plus significatif, il faut l’amender par la prise en compte des interactions de l’utilisateur•rice avec le site : taux de scroll dans la page, temps réel passé sur la page, lecture d’une vidéo, utilisation d’un diaporama, ouverture d’un layer, téléchargement d’un fichier, clic sur un email… C’est à cette condition seulement qu’il pourra revendiquer être un juste reflet de l’engagement ou du non-engagement des visiteur•euse•s.

Pour illustrer cette « subjectivité » d’une autre manière, il suffit de considérer à quel point une même information, lorsqu’elle est brute, peut être perçue de manière positive ou négative, selon le point de vue adopté et la question posée. Un taux de rebond sur une page contact, est-ce positif ou négatif ? Tout dépend de ce que l’on considère, de l’objectif qu’on s’est fixé, et de celui que s’était fixé l’internaute…

Sortez du standard pour objectiver votre analyse

Un ensemble de données constitué uniquement de pages vues ne permet donc pas d’évaluer l’engagement des visiteur•euse•s vis-à-vis des contenus et services qui leur sont proposés. Il manque des indicateurs clés : les interactions avec ces contenus et services. Ces indicateurs sont propres à chaque site, à chaque projet. La collecte « standard » ne permet donc, avec la relativité qui s’impose, que d’émettre des estimations et des hypothèses sur le taux de lecture d’un site. Vous conviendrez que cette information reste bien floue pour piloter une activité !

Les données ne sont jamais exhaustives

Data scarcity

La mesure en web analytics est limitée par la technologie. On est en effet soumis aux limites imposées par les traitements Javascript au niveau des navigateurs, par le contenu des requêtes HTTP, et par la puissance de calculs des serveurs.

Donc de toute façon, quelle que soit la quantité d’informations que nous collectons et combinons, nous n’aurons jamais toutes les données. L’information sera toujours incomplète. Et c’est pourquoi il est indispensable de se fixer une limite, de manière arbitraire, au moment de la collecte. Il s’agit de restreindre et circonscrire le champ d’investigation à un périmètre précis.

Mais à partir de quel seuil peut-on considérer que nous avons « assez » de data ?

Reprenons l’exemple de la mesure de l’engagement à l’égard des contenus. Avec Google Analytics, il est d’usage de mesurer l’utilisation du scroll. Cela permet de connaître le nombre d’utilisateur•rice•s ayant parcouru les pages du site jusqu’en bas, et d’utiliser cette information comme indicateur (rudimentaire) du taux de lecture. Mais quel pourcentage de scroll devons-nous prendre en compte ? 10 % ? 25 % ? 50 % ? Ne devrions-nous pas aussi considérer le temps passé sur l’article pour ne pas prendre en compte ceux qui ne feraient que scroller, rapidement, sans lire ? Et si un•e utilisateur•rice parcourait très rapidement le contenu jusqu’en bas, pour accéder aux commentaires ? Devons-nous aussi prendre en compte les déplacements de curseur ? Et peut-être que le défilement de la page n’est destiné qu’à accéder aux contenus de la zone latérale ou aux coordonnées situées dans le pied de page ? On peut continuer comme ça longtemps…

Les questions sont donc infinies. Seulement limitées par notre imagination et notre curiosité. Les données qu’on peut collecter sont presque tout aussi illimitées, d’où la nécessité de se donner un cadre. Mais ce n’est pas évident, car les avis divergent souvent sur l’emplacement de cette limite et la tentation est grande d’engranger de la data.

Il est donc important de bien s’interroger en amont et de vérifier si les données disponibles permettent de répondre aux questions qu’on se pose réellement. Ensuite on affine la collecte, on reformule les questions, on ajuste les hypothèses et ainsi de suite dans une démarche vertueuse.

Apprivoiser vos données, c’est vous défaire des a priori

Pour conclure, la finalité d’une collecte de données pourrait se résumer ainsi : obtenir des données porteuses de sens. Or ce dernier est spécifique à chaque activité, à chaque cas, chaque projet, chaque organisation et chaque plateforme. Il n’existe pas de valeur absolue. Des données apprivoisées sont d’abord des données qui ont été désirées.

Une organisation sérieuse et appliquée, dans son utilisation de la data au service de l’efficience de son travail, ne se contente pas de collecter des données, de les traiter, et de le présenter dans des jolis tableaux. Elle ne conçoit pas la data comme une tâche à réaliser. Elle observe tous les aspects de son dispositif de manière attentive, avec beaucoup de respect et d’humilité, pour transformer ses indicateurs en actions pertinentes. C’est ce qu’on appelle le pilotage par la data, ou data driven strategy.

Et la raison pour laquelle nous insistons autant sur la collecte est qu’il y a souvent une rupture dans la chaîne de valeur entre la manière dont les données sont collectées, la manière dont elles sont accessibles et celle dont elles sont exploitées. Bien sûr, les 3 caractéristiques présentées ne concernent pas que la phase de collecte. Elles sont tout aussi valables pour ce qui concerne leur traitement et leur exploitation. Cependant, si la phase de collecte est négligée, si son importance est sous-estimée, nos questions resteront sans réponse, et nos décisions continueront de s’appuyer aveuglément sur nos a priori.

Christian

Cet article est librement adapté d’un post de Simo Ahava, avec son aimable accord.

place-de-marché-blog-JETPULP
GTM-mon-amour_blog-JETPULP2
Pourquoi-veille-strategique-entreprise_blog-JETPULP
Presenteisme
pourquoi-opter-pour-une-formation-sur-mesure-blog-jetpulp
Presenteisme
0 Commentaires
Répondre
Se joindre à la discussion ?
Vous êtes libre de contribuer !
Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *