Pub

Qui sont les sorciers de la Data ? Partie 2 : Isabelle Cabrera (Weborama)

Quels sont les nouveaux métiers liés au Big Data ? Quel est le parcours de ces nouveaux spécialistes, Quel est concrètement leur travail au quotidien et leur vision de l'avenir de la Data  ?

Dans une série d'interviews, Viuz est allé à la rencontre des nouveaux acteurs du secteur.

Nous poursuivons aujourd'hui ce dossier thématique avec Isabelle Cabrera, Chef de projet Data chez Weborama.

VIUZ : Quel est votre parcours ?

J’ai suivi des études de langues, j’ai une Licence d’Islandais. J’ai vécu un an en Islande et je me suis spécialisée dans la linguistique informatique. J’ai découvert en 2002 cette discipline qui a trait au traitement automatique des langues et qui vise à mettre en application des logiciels informatiques qui s’appliquent au langage naturel, donc «parlé». C’est un domaine qui touche à toutes les composantes sur Internet. J’ai un Mastère professionnel de Linguistique Informatique obtenu en 2005 à Paris VII. J’ai effectué la dernière année à l’Université de Göteborg en Suède. J’ai ensuite travaillé de 2006 à 2008 comme ingénieur associé à l’INRIA, dans le traitement automatique des langues et l’analyse syntaxique. D’ailleurs, nous avons des liens avec l’équipe « Alpage » de L’INRIA. J’ai ensuite rejoint Weborama en septembre de la même année pour travailler avec Stéphane Levy sur ces sujets là.

VIUZ : En quoi consiste votre travail au quotidien ?

Actuellement, je suis en charge des projets de développement de l’équipe Data, qui vont de la spécification jusqu’à la planification du travail des développeurs. Sur l’aspect linguistique, je suis en charge de la chaine de traitement linguistique : nous traitons 7 langues (français, espagnol, anglais, italien, , portugais, russe) et nous travaillons avec des linguistes natifs de chacune d’entre elles, sur les clusters (les champs sémantiques) qui nous permettent d’affiner le ciblage comportemental.

Concrètement, un crawler balaie un réseau de sites web et analyse son contenu dont nous extrayons des mots clefs, qui sont segmentés et triés en fonction des catégories grammaticales. Ces mots associés aux pages, mais également les mots clefs de recherche qui ont mené sur ces pages, ainsi que les pages visitées par l’internaute auparavant, nous permettent de construire un nuage de mots pour l’internaute, comprenant une notion de poids sur chacun des termes. En rapprochant ces mots des clusters existants, nous définissons des profils d’internautes pertinents. Les internautes à la recherche d’automobiles non polluantes seront ainsi attribués aux clusters « Automobile » et « Ecologie ».
Nous disposons à l’heure actuelle près de 200 clusters et nous enrichissons en permanence notre lexique. Nous travaillons également avec des linguistes pour «désambiguïser» les mots que nous attribuons à différents clusters (comme exemple, le mot « orange » ou le terme « élève »).

Nous restons ouverts et maintenons une approche empirique et scientifique, en fonction des comportements observés des internautes nous sommes capables de proposer de nouveaux clusters thématiques aux annonceurs.

Nous avons un outil qui s’appelle la Wfactory, permettant de détecter les mots-clefs autour d’une marque. D’une part, ceci peut servir à piloter l’image de marque en comparant les nuages de mots de plusieurs périodes, d’autre part : de tracer une courbe d’écho médiatique généré par la marque (en quelque sorte, son «bruit» sur internet). On a parfois de grosses surprises.

VIUZ : Comment voyez vous l’avenir de la data ?

Le marché de la data se développe à vitesse grand V.

Il y aura à l’avenir un mélange des données collectées en ligne et les données collectées offline par les annonceurs. A cet égard, Il me semble important de continuer à garantir l’anonymat de l’internaute dans la manière dont on connecte les données.

Par ailleurs, le corpus augmente et les problématiques dans nos métiers basculent vers la rapidité de traitement et la capacité à « clustériser » rapidement les données à traiter.

Grâce à notre collaboration avec les étudiants de l’Université Paris VII (cursus linguistique informatique) nous continuons à travailler en R&D sur des projets de linguistique avancée (analyse sémantique, « désambiguïsation », traitements de volumes et multilinguisme).

Lire également la première partie de notre Dossier : Les Sorciers de la Data avec Stéphane Levy, Data Scientist

Plus d'articles Pub

+ TOUS LES ARTICLES Pub
  • Se préparer au RGPD sans consultant ni avocat

    ...

  • Marques : il est temps de réinvestir dans votre « Owned media » !

    ...

  • Hugo Loriot (fifty-five) : “Sur Amazon, l’annonceur paie le droit de s’insérer dans un seul et unique tunnel d’achat ”

    ...