Pub

Qui sont les sorciers de la Data ? Interview de Stéphane Levy (Weborama)

Quels sont les nouveaux métiers liés au Big Data ? Quel est le parcours de ces nouveaux spécialistes, Quel est concrètement leur travail au quotidien et leur vision de l'avenir de la Data  ?
Dans une série d'interviews, Viuz est allé à la rencontre des nouveaux acteurs du secteur.

Nous ouvrons aujourd'hui ce dossier thématique avec Stéphane Levy, Data Scientist chez Weborama.

Viuz : Quel est votre parcours ?

Stéphane Levy : Je suis Centralien, avant de travailler chez Weborama je travaillais chez Distance, un fond d’investissement, en modélisation de portefeuille. Je suis rentré chez Weborama en 2006 pour développer la notion de profiling, l’un des aspects majeurs de la manière dont nous travaillons la data.

Viuz : En quoi consiste votre travail au quotidien ?

Stéphane Levy : Il s’agit d’attribuer des profils socio-démographiques, comportementaux et intentionnistes aux Internautes et travailler sur l’architecture même des profils. Cela consiste à établir une chaîne de traitement de la donnée et des calculs qui aboutissent à la mise au point de profils d’internautes.

Concrètement, on part des points de contacts, des urls, des recherches, et on essaye de construire du sens derrière ces données en les agrégeant par centres d’intérêts (bricolage, mode, santé, sports…). Nous affinons en permanence des algorithmes de clusterisation qui construisent des thématiques basées sur le contenu des pages et des recherches. Ces algorithmes de classification mathématique sont l’une des dimensions essentielles de nos bases de données. Nous bâtissons ensuite des taxonomies sur différents corpus via un traitement automatique du langage. Par exemple, dans le football, nous descendons jusqu’au nom des clubs ou des entraîneurs.

Dans un deuxième temps, nous bâtissons des «arbres de décision» afin de construire une base de données qui donne du sens d’un point de vue humain, au niveau des étiquettes que l’on attribue aux données.

Pour une application marketing de type branding nous pouvons ainsi procéder à une fusion de différentes taxonomies. Pour les annonceurs en recherche de performance, nous classifions les internautes d’un point de vue mathématique et statistique avec une approche behavioriste (comportementale) afin de produire la donnée la plus pure et donc le meilleur résultat possible sur les campagnes digitales.

Nous disposons également d’un panel socio-démographique de plus de 100.000 personnes (en France) tous les mois, qui nous permet d’affiner la catégorisation de nos différents labels. Nous savons par exemple distinguer les mots qui ont une coloration plutôt masculine ou féminine.

Ces différentes dimensions de notre base de données constituent la matière première de la data. En termes d’exploitation, nous faisons pour nos clients de l’extension d’audience, afin de permettre une identification de cibles similaires, en affinité avec les offres de nos annonceurs. Nous détectons ainsi de nouveaux acheteurs potentiels.

Mon travail au quotidien réside dans l’affinement permanent des modèles, car la data génère un bruit considérable et il y a un travail colossal d’épuration à effectuer. Ce travail d’épuration est un mix entre les algorithmes statistiques et la sensibilité de l’humain. Nous travaillons sur la notion d’arbres de décisions, toujours soumis à une lecture humaine permettant de valider les profils socio-démographiques sur nos clusters mathématiques. Il y a les pépites : les intentionnistes (internautes ayant l’intention d’acquérir un objet ou souscrire à un service). Nous construisons ces profils à partir des autres bases de données, en créant des modèles et une nouvelle matière qui constituera les futurs acheteurs.

VIUZ : Comment voyez vous l’avenir de la data ?

Stéphane Levy : La notion de Big Data est en évolution constante, notamment à cause de l’explosion des capteurs (mobiles, automobiles, Google Glass etc.). Cela pose trois défis fondamentaux dans nos métiers : le volume, l’hétérogénéité et la vitesse.

La grande complexité pour tous les acteurs de l’écosystème réside dans l’hétérogénéité des sources et donc dans la capacité de donner une forme humaine aux masses de data. L’enjeu est de donner du sens face à des données statistiques qui parfois ne font aucun sens.

Cela passe par l’ajout permanent de règles sémantiques et un travail titanesque conditionné par les langues.

Il est intéressant de constater que les algorithmes utilisés dans le Web se basent sur des notions historiques, comme le théorème de Perron-Frobenius (début du XXème siècle) sur lequel s'appuie le Page Rank de Google. Les régressions statistiques ont été élaborées au XIXème siècle et les modèles sont en évolution continuelle.

Le deuxième challenge est technologique. Il faut tester les dernières technologies, comme l'algorithme de calcul distribué Map Reduce, apparu en 2004.

Au niveau de la qualité et la pureté des données, nous travaillons sur des cookies anonymes déposés sur les navigateurs de nos utilisateurs. On traite plus de cookies qu’on devrait par rapport à la population française, nous pouvons par exemple détecter les simulacres d’humains (qui génèrent des cookies à profusion) et les exclure de nos bases de données. L’avenir écologique de la donnée consiste ainsi à filtrer tout ce qui n’a pas forme humaine.

Il y a enfin la notion de «fraicheur» de la data, je fais souvent un parallèle entre la data est le poisson : si ce n’est pas frais, c’est pourri. D’où l’importance de la chaine du froid. Côté Weborama, cela requiert un investissement considérable, mais qui permet de gagner un avantage industriel en aval.

Enfin, comme dans les marchés financiers, le dernier élément clé de la Data est effectivement la confiance entre les acteurs et les utilisateurs du système. Ce sera, à mon sens, un aspect fondamental pour le développement du marché.

Plus d'articles Pub

+ TOUS LES ARTICLES Pub
  • Se préparer au RGPD sans consultant ni avocat

    ...

  • Marques : il est temps de réinvestir dans votre « Owned media » !

    ...

  • Hugo Loriot (fifty-five) : “Sur Amazon, l’annonceur paie le droit de s’insérer dans un seul et unique tunnel d’achat ”

    ...