La data est abondante mais la bonne data est rare. Heureusement, une nouvelle révolution est en route, celle de la Synthetic Data.
La Synthetic Data, ce n’est pas seulement de la vrai-fausse data c’est de la Data produite artificiellement pour émuler des comportements de consommateurs et entraîner les modèles logiciels comme les modèles d’IA. Jusque-là, elle était produite pour des IA médicales et des logiciels de Computer Vision. Depuis quelques années, elle est générée en masse par les Géants de la Big Tech : Microsoft, IBM, Open AI, Google (et particulièmement Deepmind AlphaGeometry 2) et Meta. Aujourd’hui, la Synthetic Data est sur le point d’envahir l’univers Martech.
La Data Synthétique va ainsi simuler les parcours de segments d’utilisateurs (par-exemple : les jeunes adultes urbains en études supérieures de 19 à 23 ans) de plein de manières diverses, mais cohérentes d’un point de vue statistique, afin d’affiner la performance des solutions marketing.
L’avantage de ces clones de clients ? Des modèles plus sophistiqués qui n’auront pas à répondre au casse-tête du RGPD. Les Synthetics Data n’étant pas “privatives” elles ont aussi l’avantage de passer sous les fourches caudines des régulations de la vie privée. Elles sont en quelque sorte nativement “privacy par design”.
Ces deux caractéristiques combinées devraient, au moins sur le papier, permettre aux marketers et aux sociétés d’Adtech et de Martech d’accélérer l’innovation, renforcer les comportements d’échantillons rares, tout en facilitant l’agilité réglementaire.
Plusieurs boîtes comme Mostly AI, Hazy (racheté en novembre par SAS), Gretel.ai, Statice, Datagen, Synthesis AI ou encore Syntho se sont lancées sur ce marché lucratif. L’une de leurs tâches, “gonfler” les petits échantillons méconnus, insuffisants ou mal représentés dans les data first, second et third party online.
C’est là qu’intervient l’Intelligence Artificielle. Ces datas sont ensuite passées à la moulinette des fameux GAN (Generative Adversarial Networks) chargées de vérifier que ces données sont aussi bonnes, fiables, et in fine, aussi légitimes dans leurs comportements transactionnels que les vraies.
Pour l’instant, la Synthetic Data est un marché naissant. La taille du marché de la génération de données synthétiques a été évaluée à 0,3 milliard de dollars en 2023 et devrait croître à un taux de croissance annuel moyen de 45,7 % entre 2023 et 2028. Les prévisions de revenus pour 2028 devraient atteindre 2,1 milliards de dollars.
Bien sûr, tous les indicateurs ne sont pas au vert sur ce marché où les startups se battent encore à coup d’annonces et de proclamations non vérifiées. Chez les marketers, la prudence domine. Certains rapports se font même l’écho d’une frilosité des acteurs : ainsi selon un rapport publié par la société d’étude CINT, 60 % des personnes interrogées auraient une opinion négative des Synthetics Data, citant des préoccupations liées à l’éthique, à l’authenticité et à la fiabilité.
On note néanmoins un certain emballement, NVIDIA a racheté Gretel, le leader émergent de la génération de données synthétiques pour un montant à 9 chiffres qui n’a pas été dévoilé (sachant que la plus récente valorisation de Gretel était de 320 millions de dollars).
Enäks opérateur SaaS de synthetic Data sur les segments BtoB estime pour sa part qu’en 2026, 75 % des entreprises créeront des données synthétiques sur les clients, contre moins de 5 % en 2023.
Avec ses promesses d’expérimentation sans risque et de connaissance client non-intrusive, la Synthetic Data vit désormais en dehors des laboratoires et s’échange contre des dollars bien réels.