Les 3 mondes

Les 3 mondes
12 Juin 2017

J’aimerais ici offrir quelques constats sur l’analytique en entreprise en 2016. Toute ressemblance avec des personnes existantes, ou ayant existé, ne serait bien sûr qu’une coïncidence purement fortuite et forcément involontaire de ma part !

N’évoquons que les entreprises ayant déjà une certaine maitrise de leurs données. Lorsque j’échange avec les responsables analystes, après quelques brèves questions j’arrive toujours au même constat : ces personnes managent leurs processus analytiques depuis un grand nombre d’années, et n’ont, par usage ou par habitude, que la perception de ce que j’appelle le premier monde.

Le premier monde ? C’est celui créé par les statisticiens d’il y a 20 ans. Dans ce monde, le « data scientiste » est maitre en sa tour de contrôle : c’est lui qui manipule ses bases de données, lui qui choisit les différents indicateurs et méthodes qu’il souhaite tester pour construire les modèles qui lui permettront d’obtenir des profileurs ou des prédicteurs opérationnels. C’est lui qui évalue la performance de ses constructions, et qui décide de les raffiner ou de tester d’autres méthodes. C’est lui encore qui a toujours validé les méthodes utilisées dans l’entreprise. Il n’utilise qu’un seul type de méthode (les arbres de décisions par exemple), ou bien alors la trousse à outils la plus exhaustive possible. Dans toutes ses variantes, c’est cela, le premier monde :

Comprenez-moi bien : je ne remets aucunement en cause le fait de ne travailler qu’une une petite classe d’algorithmes analytiques, c’est d’ailleurs ce que NEHOOV prône (en ne proposant que de l’analyse topologique couplée aux réseaux de neurones génétiques) car je pense moi aussi que souvent les couteaux suisses ne montrent que des lames faiblement tranchantes ! Non, ce que je cherche à souligner dans le premier monde, c’est le grand nombre de décisions humaines dans ce processus en bouclages, souvent basées sur des évaluations peu maitrisées. Certains utilisent par exemple des corrélations ou des tau de Kendall (j’y reviendrai), d’autres des probabilités conditionnelles en supposant systématiquement les variables explicatives indépendantes.

Le premier monde conforte la rigueur de son approche dans un enchainement d’algorithmes et de tests tous isolément et pertinents par défaut, mais décidés par l’homme à être appliqué sur un contexte précis, sans réelle démonstration de la relevance du processus complet.

Deux exemples : en marketing prédictif on calcule souvent la performance de modèles par un couple de corrélations sur des jeux de données d’apprentissage et de validation, jeux que l’on fait varier. Interclasser la performance de ces modèles avec ces corrélations sans prendre de précautions est alors plus que dangereux. En modélisation de la ressource venteuse d’une région par exemple, on utilise des modèles complexe de diffusion des fluides débouchant sur une approximation par loi de Weibull, mais on calcule les fameux P10 et P90 dans un environnement gaussien par hypothèse !

Le second monde par contre, considère systématiquement la consistance du processus demandé dans son ensemble comme primordial. Et comme l’humain engendre inévitablement du biais, il l’écarte a priori des processus de décision : l’homme n’est là que pour définir le besoin, et fournir les données. Après, c’est la machine qui travaille en toute autonomie. Voilà le second monde :

Dans ce second monde, il n’y a pas de processus de compréhension et d’assimilation du contenu sémantique des données (attention aux charlatans qui vous coupent un bras sur cette étape !) : la machine travaille avec des valeurs, et seulement des valeurs, et il me semble que c’est bien ce que l’on demande à une machine non ? Le processus décrit dans le diagramme ci-dessus est notamment porté par la technologie NEHOOV, via l’usage de méta-algorithmes assurant systématiquement des évaluations probabilistes consistantes sur la chaine globale du processus de construction des modèles.

De fait, le second monde concentre l’expertise humaine à l’amont du besoin : c’est une batterie de mathématiciens, d’informaticiens et autres scientifiques qui créent un système d’inférences intègre et autonome, permettant d’obtenir de l’analytique en automatique. L’expertise humaine ne revient alors qu’en aval, une fois le processus analytique terminé, permettant aux sociétés de faire ce qu’elles font le mieux : améliorer leurs métiers via de nouvelles informations performantes, simplement présentées. Dans les métiers il n’y a alors plus besoin des compétences et des processus du premier monde, et c’est selon moi une bonne chose !

Je n’ai pas un grand don pour l’illustration, mais songeant au premier monde et à ce qu’il offre, souhaiteriez-vous construire manuellement et à chaque requête votre propre moteur de recherche pour aller chercher des informations sur le web ?  Je ne le pense pas, et il faut bien sûr l’oublier ce premier monde, au profit du second.

Mais, c’est surtout le troisième monde qu’il faudrait biffer en premier. Le troisième monde ? C’est celui que cherche à imposer certaines sociétés de services à ses clients. C’est le monde du surdimensionnement, du projet d’envergure avant tout. C’est celui qui susurre à l’oreille que le premier monde est le bon, mais qu’il doit continuellement grossir, grossir… si vous travaillez en société de services, saurez-vous détecter si vous en faites partie ?

J’ai interagi avec ce troisième monde, je n’en donnerai qu’un exemple. Un jour de janvier pour un client RH je suis intervenu en seconde partie d’un projet qui avait été drivé par un directeur data science de la société « baudruche » (en effet, si cette société gonfle souvent le poitrail, c’est toujours avec du vent). L’objet était de construire un prédicteur sur le taux d’absentéisme le mois à venir pour une certaine classe d’effectifs. Cette seconde phase consistait en la reconstruction de ce prédicteur, qui avait été produit en phase « baudruche no1 ». Comme j’habite maintenant dans le second monde, j’ai demandé les bases de données sans prendre plus d’informations que cela et ai pu remettre au client un prédicteur sous la forme d’un code informatique avec un rapport analytique complet en 4 jours, ce qui était déjà beaucoup trop, mais les fêtes de fin d’année étaient passées par là !

Pourtant le client n’en est pas revenu : la phase 1 avait duré 23 jours, suivant un processus décrit dans un rapport de 48 pages que personne n’avait lu, demandant au client son support pour la phase de qualification des données. Le rendu ? Bien sûr, 48 slides de conclusion, décrivant à la fin un prédicteur de type SARIMA ! Quand je vous disais que le premier monde date de 20 ans !

Pour finir, j’avais promis une allusion au tau de Kendall, que les spécialistes apprécieront : ce tau de Kendall est placé, pour ce directeur data science évoqué plus haut (qui, je le réalise soudainement avec effroi, est aussi professeur dans une école parisienne), dans la liste… des algorithmes & méthodes de data science ! Comme peut-être aussi la fonction somme, ou la soustraction je pense…Pierre Desproges aurait dit effrayant, non ?

Allez , venez nous rejoindre dans le second monde !

Alain Fuser, CEO Nehoov

Share