http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221166793/data-scientist-job-plus-sexy-21eme-siecle?utm_source=twitterfeed&utm_medium=twitter
LE CERCLE. Analyse critique d'un article de la HBR d'Octobre 2012: "Data scientist : The Sexiest Job of the 21st Century de Thomas H.Davenport (Professor à la Harvard Business school) et D.J Pati (Data Scientist pour Greylock Partners)".
Tout d’abord, attardons-nous un peu sur le titre de l’article qui peut surpendre pour un article de la HBR et semble quelque peu exagéré voire galvaudé tant l’oxymoron formé par « scientist » et « sexiest » est perceptible, excessif voire « cousu de fil blanc ».
En effet, l’archétype du scientifique comme du geek et sa représentation ne correspond pas vraiment à une description glamour ou sexy, mais c’est plutôt aux antipodes que nous renvoie l’opinion publique à propos des geeks…
Certes, les auteurs jouent sur ce paradoxe pour réhabiliter l’image
du technico-scientifique, qu’est le Data Scientist et ainsi accélérer
également son intégration, sa réhabilitation au sein des entreprises
américaines plus ouvertes semble-t-il à ce type de profils, surtout en
Californie.
A la différence de l’entreprise française, lieu où les mathématiciens,
statisticiens, économètres et autres linguistes souffrent d’un déficit
d’image certain et de préjugés encore aujourd’hui. Sans détour, ni
langue de bois, nous pouvons affirmer que les DRH ont toujours autant de
réticence et d’appréhension envers les universitaires (docteurs), les
polytechniciens, les normaliens (mises à part quelques groupes dans
l’industrie ou les Telcos) plutôt qu’à l’égard des Centraliens, HEC,
ESSEC, ESCP, Sciences Po ou même Enarques. A une certaine époque, on
pouvait argumenter en disant que nos docteurs, nos X, ou nos normaliens
étaient peu ou prou préparés au monde du travail et notamment au secteur
privé. L’Université, l’Ecole Polytechnique et la Rue d’Ulm ont déployé
beaucoup d’efforts pédagogiques et financiers ces dernières années pour
permettre à leurs diplômés d’être connectés voire immergés en entreprise
au cours de leur cursus d’excellence et ainsi pouvoir « sortir de leur
laboratoire », « quitter leur paillasse » pour comprendre les enjeux
business, le management... Mais pour autant la « force du préjugé »
demeure.
Un autre facteur d’influence négatif relayé largement par les médias explique le désarroi des recruteurs face aux profils de scientifiques. En effet, depuis le scandale de la crise financière, des bulles spéculatives liées à l’utilisation des mathématiques appliquées au monde de la finance et des marchés boursiers. Le monde des « matheux » s’est vu assimilé à la dérive des mathématiques appliquées au service d’une spéculation folle qui a conduit à la crise actuelle. Nombre de traders pris dans la tourmente de cette dérive spéculative et de ses conséquences funestes furent très médiatisés et accusés de détourner les mathématiques au service de la cupidité. Et l’on a longtemps considéré que les mathématiques, par la complexité et les lacunes de leurs formules d'évaluation du risque, furent largement responsables de la crise financière qui a secoué le monde à partir de septembre 2008.
L’école française de mathématique fut mise en cause directement car les étudiants de ces cursus spécialisés en mathématiques financières ont offert une caution scientifique à des règles du jeu pathogènes. Nicole El Karoui, professeur de mathématiques appliquées et responsable du Mastère Probabilités et Finances co-délivré par l’université Paris VI et l’École Polytechnique fut mise en cause personnellement, car c’est de son mastère que sont sortis bon nombre des « quants » (quantitative analysts) qui ont ensuite gravi les échelons du « trading » dans les grandes banques comme Goldman Sachs, Lehman Brothers, BNP Paribas ou la Société Générale, ainsi que dans les agences de notation et les Hedge Funds. Le Professseur El Karoui rappelle pour sa défense que le rôle de l’analyse mathématique appliquée à la finance est « une simple aide à la décision, comme un ordinateur. Il faut que chacun prenne ses responsabilités. Observez bien la sociologie des banques, vous verrez que ce ne sont pas les mathématiciens qui décident. Nous avions tous averti que le risque lié aux dérivés de crédit (CDO et CDS) augmenterait de manière non linéaire en fonction de la quantité d’opérations, mais qui nous a écoutés ? Face à la cupidité, ce qui a manqué le plus, ce ne sont pas les modèles, c’est le pragmatisme et le bon sens ». La presse du monde entier s’est alors déchaînée sur les matheux, du Wall Street Journal au Monde en passant par le magazine Wired.
Pour l’accusation, les ingénieurs financiers formés à la française
ont contribué à pousser vers l’abîme la finance américaine puis, par
contagion, la finance mondiale, en proposant aux dirigeants de ces
institutions des modèles mathématiques qui étaient censés neutraliser le
risque contenu dans les produits financiers, et qui n’ont pas tenu
leurs promesses. Car la crise de la fin des années 2000 a bien été
déclenchée par une innovation des années 90, le dérivé de crédit, un
produit dérivé dont le sous-jacent est une créance ou un titre
représentatif d’une créance (obligation).
CF article de Felix Salmon dans Wired le 23/02/09 “Recipe for Disaster:
The Formula That Killed Wall Street” (ici la fameuse “fonction
gaussienne de copule de David X.Li). L'article proposait une séduisante
formule pour estimer les risques liés aux investissements hypothécaires.
L'évaluation de ces risques a toujours été un problème insoluble, parce
que les corrélations entre les décisions individuelles, les variations
des marchés, les changements de valeurs des immeubles suites à des
transformations de l'environnement rural ou urbain transforme la science
des corrélations des investissements à risques en une science appliquée
très incertaine et dont les effets seront dévastateurs. Comme ne pas
penser et évoquer ici le postulat de la Théorie du Chaos (« l’effet
papillon ») et donc de la dépendance sensitive aux conditions initiales :
une très petite variation quantitative locale (de l’ordre d’un dixième
de un pourcent) peut provoquer de grandes modifications qualitatives sur
l’ensemble de l’évolution du système. C’est ce que Lorenz a illustré
dans une conférence en 1979 dont le titre était « Predictability: does
the flap of a butterfly’s wing in Brazil set off a tornado in Texas?. Il
semble que le confort adopté par la finance en matière de modélisation
emprunte de physique brownienne soit mise à mal et sans doute beaucoup
trop controversée pour perdurer… La formule de Li offrait pourtant une
brillante simplification et permettait d'attribuer un simple coefficient
de risque sur les investissements basé sur les prix d'un instrument
financier connu en anglais sous l’acronyme CDS (Credit Default Swap) qui
signifie « garanties contre les cessations de paiement ». Mais au lieu
d'étudier les variations de taux de cessations de paiement comme base
pour évaluer les risques, les compagnies financières utilisèrent les
variations du prix des CDS comme base d'évaluation des risques, en
postulant que si les cessations de paiement augmentent, le prix des CDS
augmenterait aussi. Ils oubliaient un détail: les données dont ils
disposaient reposaient sur une période historique où les prix de
l'immobilier avaient toujours été à la hausse ! Le résultat, on le
connait : la formule de Li a permis de donner une qualification de
triple A (investissements sans risques) à des fonds hypothécaires qui ne
méritaient pas cette notation et qui entraîna inévitablement le fameux
boom immobilier: à la fin de 2001, il existait un marché des CDS évalué à
920 milliards de dollars. A la fin de 2007, le chiffre avait explosé
dépassant les 60 000 milliards de dollars.
Dès lors, nous considérons que la comparaison qu’opèrent Devenport et Patil entre les « Quants » et les Data Scientist est plutôt malheureuse, car les « Quants » ont cristallisés pour des années encore l’image de jeunes irresponsables avides et cupides. A l’origine et même responsables de la diabolisation des mathématiques appliquées, ils continuent toutefois à faire rêver certains étudiants en quête de fortune…
Par ailleurs, les étudiants sortis d’une grande école d’ingénieur et
qui cumulent un diplôme en statistique sont attirés par d’autres
carrières plus classiques, plus rémunératrices qu’une mission de « Data
Scientist ». La plupart ayant à cœur et à l’esprit de choisir entre
l’INSEE, un grand corps d’état ou bien de démarrer une carrière dans la
Silicon Valley, et même partir dans le monde de la banque et de la
finance car très rémunérateur…
D’autre part, la fonction de « Data Scientist » est souvent assimilée à
la fonction de Data Miner ou Data Cruncher, mais version 2.0, alors
qu’elle est selon nous le produit de l’évolution de l’entreprise face
aux défis de la digitalisation et où la ressource première est bien
l’information ou en tout cas la transformation du bruit en information
pertinente, en connaissance.
En effet, nous pensons qu’avec l’avènement du quaternaire (économie
du numérique) et la virtualisation des biens, des services, de la
communication : l’enjeu est bien de traiter, d’analyser, d’exploiter les
données de plus en plus nombreuses, complexes et d’en tirer une
véritable valeur ajoutée pour aider les dirigeants à prendre de bonnes
décisions et à optimiser leur modèle d’organisation et de gouvernance.
Thomas R. Davenport et D.J Patil nous rappellent en introduction de
leur article que dans les années 1990 à Wall Street on s’arrachait à
prix d’or les « Quants », ces analystes quantitatifs en salles de
marchés, formés dans les meilleures universités américaines et qui
constituaient les profils les plus prisés et les plus recherchés à
l’époque à la bourse de New-York. Ce sont ces « Quants » qui prenaient
en charge les considérations mathématiques qui intervenaient dans les
choix des traders. La complexité des produits vendus engendrait déjà une
difficulté croissante du métier de trader. De plus, le sujet était
réellement difficile du point de vue mathématique et s'avèrait très
dynamique. Les Quants devaient donc se tenir au courant des avancées les
plus récentes dans le domaine des mathématiques financières, et rendre
toujours plus sûre l'évaluation des différents produits comme suit :
• l'incorporation des nouveaux produits aux logiciels de pricing existants et la maintenance technique de ces logiciels,
• l’étude et l’implémentation de nouveaux modèles de taux ou d'autres sous-jacents,
• l’étude et l’implémentation de nouvelles techniques numériques,
• la couverture des produits utilisés, à savoir les techniques permettant d’éliminer le risque associé à un produit donné.
Il semblerait qu’aujourd’hui à l’ère du digital et du déluge informationnel (Big Data), les entreprises soient désormais en recherche d’experts capables de traiter l’infobésité et d’en tirer toute la quintessence décisionnelle et managériale tant attendue : c’est ainsi que le besoin en Data Scientist est né !
La situation est telle aux Etats-Unis que les auteurs évoquent le cas de Greylock Partners, la fameuse société de capital-risque où travaille D.J Patil, et qui a soutenu Facebook et LinkedIn. En affirmant leur réelle préoccupation quant à l’ampleur de la pénurie de talent aux US, de ce type de scientifiques capables de traiter ce phénomène « Big Data » que Greylock Partners a décidé de créer une structure désormais dédiée à ce type de recrutement et capable de canaliser ces rares ressources vers les entreprises de leur portefeuille.
Ce concept et titre de Data Scientist aurait été inventé dès 2008 et forgé à partir du concept de « Data Science » (par analogie avec « Computer Science ») par D.J Patil et Jeff Hammerbacher, alors tous deux en charge du data management et de la data analyse chez LinkedIn et Facebook. Période durant laquelle ils eurent l’idée de se rencontrer régulièrement pour échanger sur leur métier et leur méthode d’investigation des données de plus en plus complexe et s’apparentant grandement à la démarche scientifique.
Les Data Scientists apparaissent comme des acteurs clés en entreprise pouvant réaliser toutes les possibilités offertes par le déluge informationnel. Ils apportent une méthodologie, une approche très structurée, trouvent des modèles statistiques convaincants et ainsi conseillent les dirigeants sur les stratégies en matière de portefeuille produits, de stratégie marketing et commerciale et les orientent dans leur processus de décision. Les auteurs n’hésitent pas à comparer le travail du Data Scientist à celui d’un véritable scientifique, en prenant l’exemple d’un Data Scientist qui travaille sur des problèmes de fraude et dont l’analyse des données s’apparenterait de manière analogue à un problème de type séquençage de l'ADN. Les auteurs pensent sans doute au séquençage de nouvelle génération (en anglais « next generation sequencing ») qui est un ensemble de méthodes apparues à partir de 2005 pour réaliser du séquençage à très haut débit. Il se caractérise par l'utilisation d'approches massivement parallèles, permettant de séquencer des centaines de milliers de fragments simultanément. Depuis le séquençage du premier génome en 1995, la production de données de séquençage d'ADN a révolutionné les possibilités de compréhension du vivant par la biologie moléculaire. Avec l'arrivée des technologies de séquençage à très haut-débit, on assiste aujourd'hui à une explosion des volumes de données avec un doublement des bases de données de séquence tous les 6 mois et une augmentation du débit d'acquisition d'un facteur 1000.
Ce déluge de données ouvre de nouvelles perspectives scientifiques
notamment dans le domaine de la « méta-génomique » qui vise à
caractériser l'ensemble des génomes bactériens d'un écosystème complexe:
il est désormais possible de quantifier les génomes, gènes et fonctions
de ces écosystèmes. En effet, ce traitement est un traitement « Big
Data » qui constitue un défi majeur tant en matière d'optimisation des
calculs qu'en matière de stockage et de leur mise à disposition aux
biologistes. Mais la comparaison entre la lutte contre la fraude et la
génomique et le super-séquençage du génome s’arrête là et tient au fait
que le traitement massif parallèle des données est rendu possible par
l’utilisation notamment d’une petite invention logicielle due à Yahoo !
(framework open source) Hadoop et de l’invention de Google (un framework
open source) voulant optimiser sa puissance d’indexation: MapReduce.
Autre point que les auteurs passent sous silence : l’effort à consentir
pour maitriser la programmation MapReduce explicite (sans scripts) sous
Hadoop semble relativement longue. En effet, une durée comprise entre 6
mois à 1 an ne semble pas surestimée s’il s’agit d’acquérir une
expérience significative. On estime à ce jour en France à une petite
centaine de personnes les « data scientists » potentiels et donc
possédant de réelles compétences informatiques et statistiques. En ce
qui concerne les langages de plus haut niveau Pig, Hive QL on peut
estimer à quelques semaines le temps de formation et d’apprentissage
nécessaires pour parvenir à un niveau de compétences suffisant, vu la
proximité avec les langages existants. En donnant ces estimations, nous
présupposons plusieurs problèmes et paradoxes ignorés par les auteurs de
l’article :
- l’explosion des données non-struturées a permis aux géants Yahoo ! et
Google de créer les outils nécessaires à ce traitement de l’infobésité
via des technologies et des process nouveaux et peu maîtrisés encore,
faisant la part belle au logiciel libre (Hadoop et MapReduce),
- la plupart des DSI des grands groupes sont encore réticents quant à
l’utilisation de ces technologies jugées encore « exotiques » dès lors
que l’on parle de « framework applicatif open source »,
- les solutions logicielles packagées par les grands éditeurs
atteignent des prix exhorbitants versus l’approche « open source » des 2
briques indispensables au traitement du Big Data (Hadoop &
MapReduce) elles-mêmes ré-utilisées par les grands éditeurs de
logiciels,
- bon nombre de grandes entreprises sont encore équipées de solution
de CRM et de BI classiques et ne perçoivent toujours pas le sens
(signification et direction) de la révolution imposée par ce tsunami des
data non struturées à la fois techniquement et humainement,
- expliquer et comprendre comment dans les entreprises, les data miners
ou data crunchers d’hier devront sans aucun doute évoluer vers la «
data science » pour pénétrer les mystères du Big Data,
- comment accompagner cette transformation du traitement des données
qui implique une transformation des méthodes et process de travail et
qui conclut à une transformation organisationnelle et managériale en
entreprise,
- enfin, il n’existe pas de formation ou de cursus universitaire type « Data Scientist »,
- point spécifique à la France : les grandes écoles ne semblent pas
vouloir répondre à cette demande et sont encore hermétiques à l’idée de
former des ingénieurs-statisticiens (type X/ENSAE par exemple) et
devenir « Data Scientist »,
- les étudiants eux-mêmes sont peu enclins aujourd’hui à opter pour ce type de job et de position « trop jeune » en entreprise,
- l’effet de « mode » autour du phénomène Big Data semblerait desservir les intérêts pour le métier de « Data Scientist ».
Pourtant dans cet article, Davenport et Patil se demandent comment
repérer, attirer et développer ses nouveaux talents qui devraient
combiner une formation scientifique de type PhD (sciences dures ou
appliquées) avec un diplôme de statisticien dans le meilleur des cas ?
Le Data Scientist serait un « oiseau rare », perçu souvent comme un «
martien » qui devra s’intégrer dans une entreprise où les méthodes et
les process seront bousculés par l’approche scientifique et la culture «
data-driven » de ce nouveau profil…
Patil a été lui-même Head of Data Product pour le géant américain des réseaux sociaux professionnels Linkedin avant de devenir le Data Scientist en chef chez Greylock Partners. Et il raconte alors l’histoire du recrutement et de la difficile intégration de Jonathan Goldman (titulaire d'un doctorat en physique de Stanford) embauché en Juin 2006 par Linkedin. Le réseau social professionnel était encore une start-up et la compagnie comptait un peu moins de 8 millions de comptes utilisateurs (membres actifs). Le nombre de nouveaux membres grandissait rapidement alors que les membres déjà inscrits ne développaient pas suffisamment leur réseau de contact (peu d’invitations d’amis ou de collègues par les membres…), ce qui est le « facteur clé de succès » de tout réseau social. En effet, les utilisateurs de l’époque montraient peu de connexions avec les autres membres du réseau, alors que le niveau d’inscription individuelle sur le site augmentait…
C’est pour cette raison que Jonathan Goldman fut surpris par les faibles inter-connexions entre membres du réseau Linkedin, et ne comprenait pas pourquoi un tel phénomène n’avait pas davantage intrigué la direction de Linkedin… Lui avait déjà perçu la grande richesse d’informations disponibles sur les membres inscrits, mais tâtonnait en terme d’analyse : alors il continua à chercher, analysa les connexions entre membres, forma des hypothèses, testa des intuitions, trouva des modèles permettant de prédire les types de connexions entre membres en fonction des critères relatif à l’entreprise, l’école fréquentée… pour proposer un moyen infaillible de développer les inter-connexions entre membres. Il fallait être capable de suggérer aux membres des profils de personnes connues par un membre en lien avec son secteur d’activité, son entreprise, ses diplômes, son lieu d’habitation. Toutes ces données cruciales pour mieux connaitre les profils de chaque membre et par conséquent les classer par cluster cohérent. Mais l'équipe d'ingénierie de LinkedIn, pris dans les défis techniques liés à l’évolution de la plate-forme (scalabilité du site) semblaient peu intéressés par les découvertes de Goldman. Certains de ses collègues furent même ouvertement dédaigneux aux idées du jeune Data Scientist selon Patil… Heureusement, Reid Hoffman, co-fondateur de LinkedIn et PDG de l'époque, avait foi dans la puissance de l'analyse statistique en raison de son expérience chez PayPal (plateforme de paiement appartenant à e-Bay) et il avait accordé à Goldman une vraie confiance et un fort degré d'autonomie. Il donna à Goldman un moyen de contourner le cycle classique des mises à jour du site, l’évolution des cycles de publications, en un mot contourner le webmastering officiel du site, en testant des petits modules sous la forme d'annonces publiées sur les pages les plus populaires du site.
Grâce à cette initiative et cette culture « test and learn », Goldman a commencé à tester avec succès la présentation de profils (en mode « push ») en affinité avec chaque utilisateur pris individuellement. Ces profils étaient sensés être connus par les membres destinataires de ces propositions de connexion. Par phase successive, itération après itération Goldman arriva à trouver un modèle d’annonce personnalisée pour chaque membre Linkedin en proposant de montrer les trois meilleurs profils le plus en affinité avec chaque utilisateur basé sur son profil, son parcours professionnel, sa carrière décrit dans sa fiche Linkedin (type « CV détaillé »). En quelques jours, quelque chose de remarquable se produisit : le taux de clic sur ces annonces était le plus élevé du site, du jamais vu depuis l’arrivée de Goldman. Les annonces générèrent un taux de clic de 30% plus élevé que le taux obtenu par les autres bannières invitant à visiter d'autres pages du site. Ces annonces générèrent au final des dizaines de millions de nouvelles pages vues pour Linkedin et ont contribué à son incroyable succès aujourd’hui. Aussi, Goldman continua à améliorer la façon dont les suggestions de profils furent recommandées aux membres, s’inspirant des idées de réseautage telles que « la théorie du triangle fermé » (« triangle closing »), l'idée selon laquelle si vous connaissez « Larry et Sue », il y a de grandes chances que « Larry et Sue » se connaissent aussi !
Toutefois on peut regretter que les auteurs de donnent pas de définition claire et distincte du « Data Scientist », et ne dresse pas de portrait ou de profil type de ce nouveau métier en pleine pénurie ! Les prévisions les plus pessimistes estiment qu’il manquera environ 100 000 Data Scientists en 2020 aux Etats-Unis pour répondre aux besoins analytiques des entreprises. En généralisant ces estimations au monde entier et en incluant les professions périphériques (data miners, spécialistes BI…), ce sont plus d’un million de spécialistes qu’il conviendra de former dans les dix prochaines années.
Des analystes de Gartner ont appliqué une méthode d’analyse textuelle pour dresser le profil type du Data Scientist. Sans surprise, les premiers titulaires de ce nouveau métier doivent savoir travailler en groupe, maîtriser la gestion des Big Data et s’appuyer sur une réelle maîtrise de la communication. Mais qu’englobe exactement le terme « Data Scientist » ? Les analystes de Gartner ont tenté de répondre à cette question en appliquant les techniques d’analyse textuelle à un grand nombre de descriptions de postes et d’offres d’emplois publiées dans la presse, puis de comparer les résultats ainsi obtenus pour les termes « Data Scientist », « statisticien » et « expert en Business Intelligence ».
Les mots clés les plus fréquemment utilisés pour les Data Scientists
sont : expérience, équipe, Hadoop, modélisation, analyse… Les trois
compétences principales qui se dégagent sont le management de données,
la modélisation analytique et l’analyse métier. D’autres termes
apparaissent également fréquemment : communication, collaboration,
créativité. Le même type d’approche a été conduit par la société
Indeed.com (moteur de recherche d’offres d’emploi) qui publie le
résultat de son étude en décembre 2011 (cf graphe « Indeed.com » infra):
- les offres d’emplois comportant l’expression exacte « Data Scientist » sont pratiquement inexistantes avant 2010.
- la croissance des offres d’emploi de « Data Scientist » sont montés
en flèche à partir de Février 2010 et jusqu’en décembre 2011 (date de
publication de l’étude) pour dépasser les 6500% !
Et pour cause, puisqu’il faudra attendre Mars 2011 pour que le phénomène « Big Data » soit révélé et évangélisé auprès des entreprises américaines avec la parution du rapport McKinsey... A ce stade, il nous semble important de nous pencher sur le profil et la rémunération des Data Scientist, sujet sur lesquels Davenport et Patil sont silencieux.
Pour ce faire, nous avons repéré une étude disponible sur le web
réalisée par l'éditeur SiSense (spécialiste de BI Agile et qui se
définit le spécialiste du logiciel d’analytics Big Data). Cette étude a
été mené au mois de juillet 2012 et constitue une vaste enquête en ligne
qui permis à plus de 400 professionnels de répondre à une série de
questions afin de comprendre : Qui sont les professionnels de la data
analyse ? Où travaillent-ils ? Quel est leur niveau de rémunération ?
Quelles sont les perspectives du secteur ? Et enfin qui sont les Data
Scientists ? Source : Etude SiSense 2012
Cette étude a mis en évidence que 48 % des répondants étaient basés en
Amérique du Nord et seulement 24 % en Europe. L’étude révèle que les
salaires des professionnels de l'analyse de données sont globalement
assez élevés, même si l'écart-type est important et surtout le niveau
est très inférieur en Europe par rapport aux US. Un analyste de données
gagnera en moyenne 55 000 dollars, un Vice-Président Analytics gagnera
en moyenne 132 000 dollars. Un « Data Scientist » sera entre les deux
avec une moyenne de 89 000 dollars, soit 61 % de plus qu'un « Data
Analyst ».
L’effet de mode et la dite pénurie aura donc un effet haussier sur le salaire. La localisation géographique a également un effet sur la rémunération. Les professionnels de la donnée gagnent en moyenne 32 000 dollars seulement en Asie, et 96 000 dollars aux Etats-Unis, soit le triple ! Le Canada est assez proche des Etats-Unis avec un salaire moyen de 82 000 dollars et l'Europe dans la moyenne avec 64 000 dollars.Concernant les intitulés de postes, seuls 7 % des répondants à l'enquête portent le titre exact de « Data Scientist ». La majorité se nomment « Business Analyst » pour 34 %, ou « Data Analyst » pour 27 %. Selon SiSense, une des raisons de la faible proportion de Data Scientist serait l'absence de définition claire de cette profession. N'oublions pas également que ces nouveaux termes datent de 2008 seulement. Si le métier de Data Scientist prend de l'ampleur et gagne en reconnaissance, la part des professionnels qui en adopteront le titre ira grandissante.
Même si l'aide à la décision et l'analyse de données datent maintenant de quelques décennies, le marché semble en forte croissance puisque 33 % des professionnels ayant répondu à cette étude affichent moins de 3 années d'expérience professionnelle. Et ils ne sont pas sur-diplômés : 47 % des répondants ne disposent au maximum que d'un « bachelor », correspondant à la licence en France. Seuls 5 % des professionnels de la donnée sont des docteurs (PhD). Mais attention parmi les Data Scientists, le pourcentage de docteurs (PhD) monte à 35 %.D’après une étude d’EMC, les experts de la Business Intelligence ne formeront pas les futurs Data Scientists. Seuls 12% seront des transfuges de la BI: « While most BI professionals do their analysis and data processing in Excel, data science professionals are using SQL, advanced statistical packages, and NoSQL databases ». Les entreprises attendent visiblement (à 34%) que les bataillons d’étudiants informatiques correctement formés s’échappent de leurs écoles d’ingénieurs pour prendre leur programme Big Data en main. Les experts métiers suivent à 27%, l’étudiant « lambda » à 24%.
Les professionnels de la donnée travaillent dans de petites équipes : 65 % des répondants travaillent dans des équipes de moins de six personnes, mais pour les grandes sociétés, de plus de 1 milliard de dollars de chiffre d'affaires, une équipe de plus de 50 professionnels de la donnée est constituée dans 30 % d'entre elles.
Après avoir vu leurs salaires progresser en 2012 (pour 61 % des répondants), les perspectives semblent encore meilleures pour 2013. En effet, 78 % des répondants anticipent une augmentation de salaire en 2013; ils sont même 25 % à espérer voir leur salaire augmenter de plus de 10 % l'an prochain.
A présent, nous aimerions distinguer entre les fonctions de Data Miner et de Data Scientist. Davenport et Patil n’ayant pas jugés utile d’opérer cette démarche, afin d’éclairer la définition du nouveau métier de Data Scientist et marquer fonctionnellement la rupture avec les professions de l’ancienne ou actuelle génération d’analyste de données. Il semblerait qu’une majorité d’auteurs s’intéressant au « job description » des Data Scientist passent sous silence cette distinction, ou bien l’ignore, ou alors considère que le Data Scientist s’inscrit dans une continuité linéaire de l’évolution de la fonction de Data Miner et qu’un simple changement de titre ou de dénomination suffirait à appréhender le déluge informationnel avec une rigueur scientifique et une vision stratégique. Or cette approche distinctive sur le plan conceptuel est aussi cruciale que celle qui consiste à distinguer le CRM, la BI traditionnelle, les données structurées avec le Big Data, les données non structurées, la BI Agile !
Commençons par redéfinir le rôle du Data Miner et ce qu’est le Data Mining. Le Data Miner gère et optimise l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir des données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple dans le secteur de la distribution, à un magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures sur l’analyse des transactions passées. Il permet d’augmenter ainsi la valeur des données contenues dans le DataWarehouse. Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même les associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et de détecter, dans le passé, les données inusuelles, exceptionnelles.
Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles à l’entreprise. Le succès du concept de Data Warehouse et le nombre croissant de bases de données décisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining. Le terme de Data Mining signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire apparaître des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les données en connaissances. L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.
Le Data Miner utilise donc des méthodes statistiques bien établies, mais aussi des développements récents issus de la modélisation informatique. Sans prétendre à l’exhaustivité, on distinguera les méthodes exploratoires où il s’agit pour le Data Miner de découvrir des structures ou des comportements inattendus, de la recherche de modèles prédictifs où une « réponse » est à prédire. On dit alors que le Data Miner mène une « exploration non supervisée » car il utilise des techniques de projection orthogonale sur des sous-espaces : analyse en composantes principales, analyse des correspondances, permettent de réduire efficacement la dimension du point de vue du nombre de variables. Les méthodes de classification visent à former des groupes homogènes d’unités en maximisant des critères liés à la dispersion (« k-means »). Des extensions non-linéaires (« splines », « noyaux », etc.) étendent le champ de ces méthodes classiques.
Mais il peut également employer la méthode de recherche de règles d’association qui est une des innovations du Data Mining : introduite en 1993 par des chercheurs en base de données d’IBM, elle a pour but de rechercher des conjonctions significatives d’évènements. Typiquement une règle de décision s’exprime sous la forme : si (A et B) alors C mais il s’agit d’une règle probabiliste et non déterministe. On définit le support de la règle comme la probabilité d’observer à la fois la prémisse X et la conclusion Y : P(X∩Y) et la confiance comme P(Y/X). Parmi les règles ayant un support et une confiance minimale on s’intéressera à celles où P(Y/X) est très supérieur à P(Y). Les premières applications ont concerné les achats dans les grandes surfaces : parmi les milliers de références disponibles et les millions de croisements, identifier les achats concomitants qui correspondent à des fréquences importantes. Cette méthode s’étend bien au-delà de ce type d’application. L’originalité tient essentiellement à la complexité algorithmique du problème.
Enfin, le Data Miner peut procéder à des prédictions ou « apprentissage supervisé ». Inutile d’évoquer ici les techniques de régression bien connues. La méthode la plus typique est certainement celle des arbres de décision : pour prédire une réponse Y, qu’elle soit numérique ou qualitative, on cherche tout d’abord la meilleure partition de l’ensemble des données (en général en deux sous-ensembles) issue d’une partition effectuées sur les prédicteurs et on itère dans chacun des sous-ensembles : la croissance exponentielle de l’arbre est contrôlée par des critères d’arrêt de type coût-complexité ainsi que par l’usage de données de validation qui permettent d’éliminer les branches non pertinentes.
Cette technique conduit à des règles de décision très lisibles, d’où son succès, et hiérarchise les facteurs explicatifs. A l’opposé en termes de lisibilité, les logiciels de Data Mining proposent souvent des méthodes hautement non-linéaires comme les réseaux de neurones, les machines à vecteurs de support (SVM). Même si les règles de décision ont une forme mathématique explicite, celle-ci est en général très complexe et ces méthodes sont utilisées comme des boîtes noires. Une autre approche consiste à complexifier des méthodes simples : les arbres de décision étant souvent instables, le Data Miner va en utiliser plusieurs obtenus sur des données « ré-échantillonnées » par « bootstrap » : la décision finale s’obtient par une procédure de vote s’il s’agit d’un problème de classification, ou de moyenne pour un problème de régression : c’est le « bagging ». Citons également le « boosting », qui consiste à améliorer des procédures.
Toutes ces méthodes d’analyse ou de « forage des données » par le Data Miner sont aujourd’hui utiles pour optimiser la connaissance client à partir des données structurées, mais ne suffisent plus dans un contexte de tsunami informationnel. Le rôle du Data Scientist va être justement de traiter ce phénomène, en étant capable d’extraire tout le sens et la direction de l’information non structurée provenant du web, des réseaux sociaux, du mobile, de fichiers multimédia (son, photo, vidéo) par une transformation des data brutes (raw data) en connaissance actionnable… Le Data Scientist peut tout d’abord exister et travailler aux côtés de Data Miners et même gérer un périmètre métier, fonctionnel, et technique déconnecté des missions des Data Miners classiques, cantonnés aux traitements des datas structurées dans des environnements connus de l’IT et du métier (au service du CRM, du marketing, du commercial…). Le Data Scientist pourrait être en charge dans le cas d’une banque ou d’une compagnie d’assurance d’assurer le scoring prédictif de la fraude, ou anticiper le départ de clients stratégiques par modélisation statistique avancée. Les Data Miners eux resteraient en charge de l’analyse, du scoring bancaire clients, de la segmentation comportementale et de la gestion de la base de connaissance standard (via les données structurées de l’entreprise).
L’intérêt de recruter un Data Scientist pour lui confier le rôle et les missions d’un Data Miner n’a donc aucun sens. Le Data Scientist doit pouvoir travailler en toute autonomie et en exploitant pleinement ces compétences en modélisation statistique, en exploitation et analyse des bases de données, pour faire de la segmentation clients, produits à la demande. Il doit maitriser totalement le framework Map-Reduce, utiliser et comprendre les langages Perl ou Python ou Java voir Pig qui s’impose. Bien entendu, il va devoir travailler avec les BDD SQL ou NoSQL, et enfin il devra devenir le Michel-Ange de la Data Viz pour être tout à fait complet…On voit bien que le profil de Data Scientist est très pointu, et qu’à l’heure actuelle, très peu de candidats peuvent répondre à ces nombreuses exigences et compétences tout aussi récentes, nouvelles que rares… Et nous pensons que ce profil de Data Scientist conduira inévitablement à créer et recruter un poste clé pour l’Exécutif de demain au sein de grands groupes : le Chief Data Officer à ne pas confondre avec son homologue le « Chief Digital Officer ». Car avec une telle position, le problème du « HIPPO » ne se posera plus dans les organisations qui n’auront pas levé ce préjugé : le Chief Data Officer fera partie intégrante de la « C-suite » et sera considéré comme tel par ses homologues CMO, CTO... Un profil que le cabinet de recrutement de cadres dirigeants Russell Reynolds Associates voit comme critique pour les grands groupes et dont les embauches vont commencer dès 2013. Et il ne s'agit pas d’un nouveau CIO ou CTO mais bien d'un nouveau poste à la jonction du marketing et l’IT. Leur hypothèse est qu'en 2015 la moitié des Fortune 100 auront recruté leur Chief Data Officer…