Data scientists, dataminers : une ressource rare
Le datamining et le machine learning procurent un réel avantage concurrentiel, que soit dans le domaine du risque crédit, très tôt exploré, du churn dans les telecoms, pour la prévision des comportements clients et la personnalisation des offres, ou plus récemment pour la maintenance prédictive ou les ressources humaines. Les entreprises collectent des volumes de données considérables, mettent en place des départements data et engagent des data scientists, pour bénéficier de la puissance du machine learning et de l’analyse prédictive. Mais voilà plusieurs années déjà qu’on annonce la pénurie de ces profils experts. Aux Etats-Unis, on parle d’un manque de 190 000 data scientists d’ici 2018, alors qu’en France, Jérémy Harroch, organisateur du salon Datajob, estime les besoins annuels à 2000 à 3000 data scientists, alors qu’il n’en sort des écoles pas plus de 300.Une réponse possible est l’automatisation de certaines tâches réalisées par les experts. Le questionnement n’est pas nouveau. En 2014, l’université de Cambridge et le MIT créaient le projet « Automatic Statistician », dont le but est « construire une intelligence artificielle pour la data science, pour aider les gens à donner du sens à leur données ».
L’automatisation : tendance lourde de notre époque
Que peut apporter l’automatisation du datamining ?
- la préparation automatique des données : les dataminers utilisent leur expertise métier pour traiter et préparer les données brutes, et décider de comment les utiliser dans, par exemple, un modèle prédictif. L’automatisation améliore et raccourcit drastiquement cette étape. Lors de la construction de modèles prédictifs, le dataminer construit différents échantillons pour modéliser puis valider les résultats obtenus. L’automatisation de ces process permet de garantir la représentativité des échantillons et de gagner du temps
- la modélisation des comportements : les logiciels de datamining sont globalement des bibliothèques d’algorithmes, parmi lesquels choisir et paramétrer celui qui semble le plus adapté. A ceci s’ajoutent la sélection des variables initiales et l’analyse des corrélations, qui réservent l’utilisation de ces solutions à des experts. L’automatisation du datamining permet de sélectionner l’algorithme le plus adapté et effectue sans intervention humaine tous les tests de validation nécessaires.
- transparence : si certains modèles prédictifs peuvent être appliqués directement, il n’en va pas de même pour ceux ayant une implication stratégique importante. Automatiser la modélisation, c’est aussi permettre aux dataminers mais aussi aux utilisateurs métier de comprendre et d’évaluer les résultats d’un modèle
- facilité de déploiement : les meilleurs modèles ne sont d’aucune utilité s’ils ne peuvent être mis en production rapidement et facilement. Les ressources nécessaires à leur déploiement ne doivent pas dépasser les gains qu’on en espère. L’automatisation a tout son rôle à jouer dans cette étape cruciale, qu’elle soit effectuée en batch ou en temps réel.
- l’élargissement du profil utilisateur : l’automatisation du datamining permet à des profils différents de prendre part à la valorisation des données de l’entreprise : outre les dataminers et data scientists, ce seront des analystes statistiques confirmés ayant peu de possibilité de programmer, ou des analystes métier qui veulent comprendre les comportements clients.