Google Trends montre que les recherches sur les termes Machine Learning explosent alors que celles relatives au Big Data s’essoufflent. Peut-on en déduire que le Smart Data est, enfin, en passe de prendre le pas sur la centralisation et le simple reporting des données dans l’entreprise ? Pourquoi ce changement après deux décennies de résistance à un usage plus intelligent des données ?
Bientôt la fin du Big Data ?
Un graphique intéressant a été publié sur kdnuggets la semaine passée. Ce graphique montre les tendances de recherche des mots clés « Big Data » et « Machine Learning ».
On y voit que les recherches Big Data affichent un plateau alors que celles relatives au Machine Learning sont en croissance exponentielle. D’autres mots clé (Deep learning, IA … ) ainsi que les tendances monde donnent des évolutions similaires.
Serait-ce la fin du Big data ? Le Machine learning serait-il le nouvel hype des DSI ?
20 ans de centralisation des données
Le hype de l’époque s’appelait Base de données clients et Datawarehouse. Les entreprises se sont alors massivement lancées dans des POC puis des projets de construction de datawarehouse.
Ca ne vous rappelle pas quelque chose ? Remplacez Base de données clients et Datawarehouse par Big Data et Data Lake …
Bien sûr les technologies sont différentes. Bien sûr les puissances de stockage et de traitement sont sans commune mesure. Néanmoins ces technologies s’inscrivent dans la même philosophie. Celle de centraliser et stocker les données. Le Big Data n’est que la composante la plus récente, en passe de devenir une technologie mainstream.
La centralisation des données au détriment de l’analytique
Ce qui est particulièrement intéressant, c’est que si les mots (et les technologies) employés pour le stockage et le traitement ont changé, ce n’est pas le cas de ceux relatifs à l’utilisation intelligente de ces données : segmentation clients, prédictif, machine learning …
Ceci n’est pas anodin car si les algorithmes ont progressé en sophistication et, un peu, en efficacité (rapportée au CPU disponible), leur philosophie et leur mise en œuvre sont restées essentiellement les mêmes. Si leur performance a bondi c’est principalement du côté de la croissance exponentielle de la puissance de calcul (merci Mr Moore) qu’il faut aller en chercher la raison. L’exemple peut être le plus frappant est évidemment le Deep learning qui n’est pas essentiellement différent des réseaux de neurones des années 90 si ce n’est le nombre de couches de traitement plus important qu’autorise le calcul intensif d’aujourd’hui.A quoi a-t-on assisté au cours des deux décennies qui ont suivi l’introduction des datawarehouses ? Si la centralisation des données a été effective, elle a donné lieu en revanche à un usage largement limité à du factuel, reporting et tableaux de bord. L’usage intelligent et sophistiqué des données, tel qu’il avait été imaginé initialement, c’est à dire celui qui aurait permis de comprendre en profondeur et d’anticiper les comportements clients, a finalement été peu mis en œuvre et limité aux entreprises les plus consommatrices de données et plus encore … aux plus importantes. Si on en doute il suffit de mettre en regard les 240M€ du marché de data mining estimé en France et les 140000 entreprises de 10 salariés et plus, ce qui fait moins de 2000€ par an et par entreprise !
Les raisons sont connues et tiennent essentiellement à la complexité inhérente à la démarche analytique. Une forte expertise est nécessaire, les coûts associés sont élevés, et prohibitifs pour une entreprise qui n’a pas la culture nécessaire pour apprécier pleinement la valeur de l’investissement.
Alors va-t-on assister à la poursuite de la course effrénée à la centralisation des données et leur stockage ? A une démarche qui fera encore fi d’un traitement intelligent des données? L’histoire analytique serait-elle un éternel recommencement ?
La majorité des entreprises analytiquement illettrées
Cette démarche serait une erreur, la même que celle qui a conduit à passer 20 ans à stocker et organiser des données et a laissé la majorité des entreprises analytiquement illettrées.
D’une part il n’y a pas de limites à la diversité et au volume de données stockées aujourd’hui. Cette fuite en avant serait une course sans fin.
D’autre part, des données aussi classiques que, par exemple, les données d’achat ont une richesse analytique de premier plan qui permet des analyses sophistiquées opérationnelles. Nul besoin de téraoctets pour anticiper finement les comportements clients. Et dans la pratique, l’intelligence, la valeur ajoutée et l’information surprenante extraites d’1 To de données sont souvent bien inférieures à celles contenues dans 1 Go! Les entreprises n’ont nul besoin d’attendre d’hypothétiques téraoctets pour analyser intelligemment leurs données. Elles pourront simplement raffiner au fur et à mesure de leur disponibilité.
L’automatisation : passage obligé pour la data science
L’automatisation sera ainsi naturellement la solution puisque de même que la croissance matérielle est finie alors que celle de l’information ne l’est pas, la croissance de production de data scientists est limitée, à la différence de celle du besoin d’analyser toujours plus de données de plus en plus finement.Bien sûr les données de l’entreprise vont être de plus en plus diverses et volumineuses. Bien sûr elles seront stockées massivement donc plus aisément disponibles. Mais les gisements d’efficacité et de croissance ne passeront pas par le big data, du moins pas exclusivement. Seul le traitement intelligent de ces données, le smart data, permettra à l’entreprise d’améliorer son efficacité. Et l’automatisation de la data science sera très certainement le déclencheur qui permettra à toutes les entreprises d’entrer de plain-pied dans l’ère de l’optimisation par la data et de sortir enfin de l’illettrisme analytique.