Pub

Datalake, DMP : same same but different

Depuis quelques années les projets de datalake et de Data Management Platform (DMP) s’accumulent et se juxtaposent dans les entreprises.

Mais qu’est-ce qu’un datalake, à quoi sert-il, comment se distingue-t-il d’une DMP ?

Clarification, décryptage et perspectives avec Pierre Harand, Managing Director France, et Jean-François Wassong, Global Technology Director chez fifty-five.

Viuz : A quoi sert un datalake ?

Pierre Harand : Pour faire simple, un datalake est une vaste base de données dans laquelle on va récupérer des flux de données épars de l’entreprise. Ces flux se déversent dans ce lac de données, comme autant de ruisseaux en provenance des différents métiers de l’entreprise.

L’objectif d’un datalake est de bénéficier de l’exhaustivité des données, et de pouvoir les extraire de façon automatique et personnalisée.

Le datalake a avant tout une fonction d’analyse, d’où une dimension “bac à sable” et “laboratoire” pour les Data Scientists, car on ne sait pas toujours au préalable ce que l’on va y trouver.

Plus agile qu’un Data warehouse, il permet d’extraire de la valeur de données brutes sans avoir à normaliser et cartographier les données de l’entreprise.

Typiquement, chez un grand retailer, nous avons mis en place un datalake qui a permis de déterminer comment présenter au mieux les résultats sur les premières pages web des produits de mode selon les données comportementales des internautes, les bases de données produit de l’entreprise, les stocks et la marge. Au final, l’analyse du Datalake et une nouvelle présentation des résultats ont permis une augmentation de 8% du taux d’ajout au panier et une incrément de 4% du chiffre d’affaires annuel (performance comparée sur la base d’un test AB).

Viuz :  Quelle est la différence entre un datalake et une DMP ?

Jean-François Wassong : Un datalake est marqué par la longévité et l’exhaustivité des données. Il permet aussi de recueillir des données nominatives de type PII (données personnelles identifiables), contrairement à une DMP. En ce sens, on peut dire que le Datalake a une plus grande valeur patrimoniale que la DMP, qui est centrée sur les cookies et l’activation média des audiences.

Le datalake est également plus ouvert aux différents métiers, c’est un espace de liberté.

À l’inverse, dans une Data Management Platform tout est processé en vue d’une activation média, notamment dans l’utilisation des données third party (données complémentaires de partenaires externes) qui n’ont pas vocation à figurer dans le datalake à usage interne.

Viuz :  Quelles sont les bénéfices des deux approches ?

Pierre Harand : Dans l’entreprise, les champs d’applications du datalake sont plus larges que la DMP et vont au-delà de la communication. Ils concernent et impliquent plusieurs départements de l’entreprise, comme le pricing, le merchandising, la logistique, la production et les stocks. Le datalake est plutôt un outil d’exploration et de traitement à froid.

La DMP est avant un outil marketing tourné vers l’activation, et essentiellement digital. Le bénéfice de la DMP est qu’il s’agit généralement d’un “outil sur l’étagère” qui dispose de connecteurs vers les différentes solutions et de fonctionnalités permettant au marketing de créer et de lancer rapidement des campagnes visant des segments d’utilisateurs spécifiques. Il y a une dimension “temps réel” et “donnée chaude” dans la DMP, qui permet une exploitation des outils d’engagement et de personnalisation, et un traitement rapide des signaux.

Viuz :  Datalake et DMP sont-ils compatibles ?

Jean-François Wassong : Oui, les deux approches sont compatibles, et souvent, un datalake constitue un bon préalable à une DMP. On est ainsi souvent capable d’enrichir la connaissance de la DMP grâce aux données du datalake.

En résumé, une DMP met en relation plusieurs fournisseurs de données externes, le datalake vient l’augmenter de données internes inédites.

Nous conseillons généralement aux sociétés bénéficiant d’un trafic important sur leurs assets digitaux de commencer par la mise en place d’un datalake. À l’inverse, si, comme dans le cas des entreprises de biens de grande consommation (FMCG), le nombre de visiteurs est faible, nous conseillons plutôt de commencer par une DMP.

Viuz : En matière de datalake, quelles sont les technologies connues ?

Jean-François Wassong : Un datalake est en général un assemblage de composants multiples.

Dans l'écosystème Hadoop, aujourd'hui le plus répandu, on peut considérer 3 composantes :

- le stockage de données, qui est en général assuré par HDFS

- le calcul distribué, pour lequel il existe un large éventail de solutions (map/reduce, yarn, spark, etc.)

- le mode d’interrogation de ces données (Hive, Pig, Drill, etc.)

Cela permet de mettre en oeuvre une architecture lambda, architecture capable de transformer des données brutes en données actionnables.

Ces données pourront ensuite être consommées par les métiers au travers d'outils de requêtage rapides (Elastic Search, Hbase, Impala, Cassandra...).

Les principales distributions Hadoop (Horton Works, Cloudera, MapR) ont packagé les composants du monde Hadoop, facilitant la mise en oeuvre d'architectures lambda.

Depuis quelques années, plusieurs grands acteurs comme Amazon, Microsoft et Google commercialisent des offres Cloud qui simplifient encore la mise en oeuvre du stack Hadoop. Ils proposent également des solutions alternatives en mode services pour certaines des briques comme Amazon Redshift, Google Big Query ou Microsoft Azure Document DB.

Viuz : Combien coûte un datalake ?

Pierre Harand : Le datalake est basé sur des technologies de stockage et de calcul à coût très réduit, ce qui fait que le ticket d’entrée sur un datalake - de l’ordre de dizaines de milliers d’euros - est plus bas que le ticket d’entrée d’une DMP, qui peut atteindre plusieurs centaines de milliers d’euros, voire dépasser le million d’euros dans les grands groupes.

Attention toutefois à ne pas négliger la phase de gouvernance et d’exploration préalable à la mise en place d’un datalake, qui permet de documenter et de fiabiliser les process de recueil de la data.

D’une manière générale, nous conseillons de ne pas se précipiter sur l’outil avant d’avoir défini au préalable ce que l’on souhaite en extraire.

L’avantage d’un datalake c’est qu’il permet de démarrer petit sur des projets d’analyse et de mesure de la performance, avec moins d’enjeux. Il donne souvent l’occasion de rassembler plusieurs départements qui n’ont pas souvent l’habitude de travailler ensemble autour de l’expérience client que l’on souhaite produire (par exemple : optimiser les ventes en magasins par région en fonction des comportements client, des stocks et de la logistique).

Viuz : Quelles sont les questions essentielles à se poser avant de mettre en place un datalake ?

Jean-François Wassong : Les questions essentielles tournent autour de la gouvernance, de la sécurité et de la fiabilité des données. Nous recommandons ainsi d’impliquer le juridique et l’IT en amont, et de répondre aux questions suivantes :

  • Quel est le besoin par métier, la finalité et les bénéfices attendus d’un datalake ?
  • Comment nourrir le datalake ?
  • Quelles sont les contraintes juridiques et techniques (respect de la vie privée et stockage des données personnelles) ?
  • Quels sont les consentements préalables à définir ?
  • Comment sortir les données d’entreprise vers le Cloud ?
  • Quelles seront les localisations géographiques du stockage et du traitement des données ?
  • Quelles normes de sécurité doivent être respectées ?

Les projets de datalake touchent également des problématiques assez prégnantes autour de la sécurité du Système d’Information, de l’opportunité de passer en mode cloud, de la gestion des données personnelles et de la conduite du changement. À ce titre, un effort de pédagogie conséquent est à produire de manière à emporter l’adhésion des métiers, de l’IT et du juridique. Il est donc indispensable que tous ces acteurs soient partie prenante du projet le plus tôt possible.

Plus d'articles Pub

+ TOUS LES ARTICLES Pub
  • Guillaume Belmas (CEO de Realytics) : télé, vidéo, streaming… le défi de la convergence et de la mesure unifiée

    Près de deux ans après son intégration au groupe RTL via sa maison mère Smartclip, Realytics continue d'élargir son horizon. L'entrepri...

  • Un nouvel espace publicitaire ? Perplexity AI va concurrencer Google avec les Sponsored Questions.

    ...

  • Finalement… Google maintient les cookies tiers et promet une “nouvelle expérience” dans Chrome. L’avis des experts

    Après les atermoiements, le revirement… Finalement, Google a décidé de ne pas siffler l’arrêt définitif des cookies tiers. Mais es...