Arnaud Caplier (Weborama) : Qu’est-ce qu’une data media de qualité ?

Arnaud Caplier est l’un des spécialistes français de la donnée.

Il a rejoint Weborama en mai 2012 comme Chief Data Officer, suite au rachat de Datvantage qu’il a lancé en 2009. Il a précédemment dirigé Consodata, puis a été DG France et VP Europe d’Acxiom.

Pour Viuz, il décrypte la question – essentielle – de la qualité des données d’audience dans l’univers du média web.

En quelques mois, la data - big ou moins big - a pris une place centrale dans la manière de penser et de déployer les stratégies internet. Les fournisseurs de solutions technologiques rivalisent d’ingéniosité pour collecter, traiter et exploiter les données ; les conseils et agences s’organisent pour accompagner leurs clients sur la data ; et les annonceurs comme les éditeurs lancent des projets Big Data ou DMP (Data Management Platform). Pourtant, il semble qu’il y a un grand oublié dans cette course frénétique sur la data : le sujet de la data quality. Beaucoup parlent de data, peu parlent de qualité de la donnée.

Cependant, à y regarder de plus près, ce sujet n’est pas absent. Il est même omniprésent. Simplement, le sujet de la qualité des données a pris une forme nouvelle. La big data a bouleversé la manière d’appréhender la qualité de la donnée : la qualité d’une data est désormais essentiellement évaluée par l’amélioration de performance qu’elle génère.

De quoi parlons-nous quand nous évoquons la qualité des données ?

La qualité de la donnée se définit comme la conformité de la donnée à l’objectif visé.

Le cas le plus simple est celui du Directeur Marketing qui souhaite toucher une population définie suivant des critères binaires d’appartenance ou non à une cible. Par exemple, celui-ci cherche à toucher les femmes ayant entre 20 à 35 ans et vivant en France. La donnée est de qualité si elle lui permet de cibler effectivement la presque totalité des 6 millions de femmes appartenant à cette cible en France. La qualité est alors mesurée suivant deux indicateurs. Le taux de couverture sur la cible : quel est le pourcentage de ces 6 millions de femmes que notre Directeur Marketing parvient à toucher grâce à cette data ? Et le taux de déperdition sur le hors cible : sur 100 personnes ciblées grâce à la data, quel est le pourcentage qui appartiennent réellement à la cible des femmes ayant entre 20 à 35 ans ? Ce second indicateur se calcule par comparaison d’un échantillon de la cible fournie avec une source de données tierce jouant le rôle d’« étalon », par exemple un panel, dont on connait la composition avec certitude, ici sur des critères sociodémographiques.

Les choses se compliquent lorsque notre Directeur Marketing souhaite toucher une population définie suivant des critères non plus binaires, mais que nous qualifierons de flous. Ainsi, si parmi les femmes de 20 à 35 ans, il souhaite toucher uniquement les femmes « aisées » financièrement, il est confronté à plusieurs difficultés. Ce critère ne répond plus à une logique binaire d’appartenance ou de non appartenance ; la notion d’aisance financière est « approximée », c’est une variable de ciblage floue. Ensuite, comme il est probable que seulement un nombre infime de femmes de 20 à 35 ans ont dévoilé leur situation financière, le critère d’aisance financière est extrapolé à partir d’autres informations, ce qui renforce le caractère flou du critère de ciblage. Enfin, il est peu probable qu’il trouve un panel disposant de cette information, et auquel il pourra confronter cette donnée pour en valider la conformité. La qualité de ce critère ne va plus se mesurer par la conformité des données « en entrée » - en validant l’appartenance ou non à la cible « aisée » - mais par les résultats qu’elle produit - « en sortie » - sur l’indicateur de performance que l’on souhaite optimiser : le taux de conversion, le panier moyen, le ROI media, la durée de visites, etc.

A l’ère de la big data, la mesure de la qualité de la donnée se déplace de la conformité de la donnée, à la mesure de son impact

Le développement de la Big Data sur le web renforce l’importance de la mesure de la qualité « en sortie » (ce que produit la donnée) plutôt que la mesure de celle-ci « en entrée » (la conformité de la donnée à la définition qui en est donnée). Ceci tient à de nombreuses raisons liées à la nature même de la Big Data : à l’ère de la Big Data, la donnée est non structurée, elle offre une variété unique, elle est chaude et instable, et la recherche de corrélations importe plus que la recherche de causalités.

La donnée brute collectée puis exploitée sur le web est non structurée : la donnée du web est constituée de quelques 1000 milliards de pages et de plusieurs millions de mots. Déduite de l’analyse du surf et du search, la donnée de ciblage sur internet est construite à partir de modèles d’analyse sémantique et comportementale. Ces modèles permettent par exemple d’estimer que l’on est plus ou moins intéressé par les week-end en France, par l’informatique, par l’équipement de la maison, par l’éducation des enfants ou par l’actualité économique, ou que l’on est en phase de déménagement, ou de recherche d’une voiture neuve.

Supposons que notre Directeur Marketing souhaite toucher les femmes de 20 à 35 ans et passionnées de mode. Les spécialistes de la donnée web peuvent lui transmettre une liste de cookies d’internautes ayant surconsommé des contenus sur le thème de la mode dans les 30 derniers jours, et catégorisée en passionnées de mode du fait de ce comportement. Une nouvelle fois, nous ne sommes plus sur une donnée binaire – est ou non passionnée de mode – mais sur une donnée calculée et structurée à partir de la compilation de données brutes non structurées.

Quasiment toutes les données produites sur le web le sont par cette logique floue de déduction de centres d’intérêts à partir de l’analyse des comportements de navigation. Le sujet n’est plus tant de savoir si d’autres sources ou panels classent aussi cette internaute en passionnée de mode – pour vérifier la donnée «en entrée» - mais de savoir si cette catégorisation impacte positivement la performance de ses campagnes ciblant les passionnées de mode, et la qualité de la donnée «en sortie».

La collecte des données produites à partir de l’analyse de la navigation sur le web offre une richesse incomparable de données. Les critères de ciblage disponibles se comptent en milliers, voire en dizaines de milliers. Il est possible de savoir que tel internaute recherche tel modèle de voiture, que tel ordinateur est très utilisé le mercredi après midi, ou que tel internaute a surfé intensément sur des sites de location de vacances dans les 15 derniers jours. Cette richesse de données est unique. Vouloir retrouver cette richesse dans une autre source de données pour valider un critère issu du web est généralement peine perdue. Une fois encore, la seule évaluation de la qualité d’une donnée offrant une telle richesse ne peut être que sur l’amélioration de performance que la donnée produit « en sortie ».

La donnée web est chaude et assez instable par nature. Elle se focalise sur l’analyse des comportements de navigation sur les derniers jours du surf. Un internaute qui consulte intensément sur les 30 derniers jours des sites présentant des tablettes numériques, n’est pas nécessairement un passionné de tablettes pour toujours. Il se trouve simplement dans une phase de recherche d’informations en vue du probable futur achat d’une tablette. Une fois son achat effectué, il quittera la catégorie « intentionniste tablette numérique ». Cette variation rapide des comportements de navigation ne permet pas de comparer ces données avec d’autres sources. Ce qui est vrai aujourd’hui pour un internaute ne le sera peut être plus demain. Une fois encore, la mesure de la qualité de la donnée ne peut porter que sur la performance de la donnée « en sortie ».

Enfin, l’exploitation de la data dans un environnement media web se fait en temps réel, par association d’une grande variété de critères, et de façon de plus en plus automatisée. Les scores sont calculés en temps réel et les modèles d’optimisation deviennent auto apprenants. Comme l’explique Viktor Mayer-Schönberger dans son ouvrage de référence sur la Big Data, nous passons d’un monde où nous recherchions des causalités (les foyers aisés peuvent seuls acheter des voiture de luxe) à un monde où nous nous intéressons uniquement aux corrélations. L’indice de prix des billets d’avion mis en place par Farecast (devenu Bing travel), ne cherche pas à fournir les raisons expliquant l’évolution des prix des billets d’avion, mais s’intéresse seulement à prédire si le prix va augmenter ou diminuer dans le futur. Peu importe les modèles mathématiques complexes qui permettent ces prédictions. Peu importe les causes des hausses ou des baisses de prix des billets, seul le résultat importe.

La nouvelle donnée produite par le web – la désormais fameuse big data – est modélisée, estimative, vivante, instable, évolutive, prédictive et exploitée en temps réel.

L’Humain derrière la Data

Mais ne nous y trompons pas. L’humain reste bien présent dans la construction de la donnée web. Tout producteur de données web est en mesure de décrire la logique de construction de ses données, tout autant que les algorithmes qui les façonnent, et surtout la manière dont il pense produire une donnée de qualité. Avant de tester la qualité de sa donnée sur des critères de gains de performance, il doit pouvoir vous convaincre de la pertinence de la méthode qu’il utilise pour produire une donnée de qualité. Il doit aussi pouvoir expliquer le caractère licite, éthique et conforme à la législation sur les données personnelles de ses méthodes de collecte et de traitement des données. En cela, les critères classiques d’évaluation de la qualité d’une donnée restent inchangés, que la data soit big ou moins big.

Pub

Arnaud Caplier (Weborama) : Qu’est-ce qu’une data media de qualité ?

Plus d'articles Pub

Inscrivez vous à la newsletter

Actus et Annonces

32% de croissance annuelle et près de 40 M€ de CA pour Mobsuccess Group

Un contrôle peu efficace de la publicité en cette année électorale historique (Étude Mozilla & CheckFirst)

Médiaperformances confie sa Direction Générale à Claire Koralewski

“Worth it Resume” la campagne L’Oréal Paris qui redéfinit les “succès”

Havas acquiert Ted Consulting

Top Articles