L’ INSEE fournit depuis longtemps des données socio-économiques localisées provenant du recensement de la population française et des déclarations d’impôt. Ces données, en open data et gratuites, constituent une formidable opportunité data marketing pour les entreprises qui veulent mieux connaitre leurs clients. Elles sont surtout un beau terrain de jeux pour data scientists.
Les données géolocalisées INSEE
L’ INSEE fournit depuis longtemps des données socio-économiques localisées provenant du recensement de la population française et des déclarations d’impôt, mais aussi par exemple de la Banque Permanente des Equipements.
Le niveau de diffusion le plus fin jusqu’il y a peu, l’IRIS, a été enrichi il y a quelques années par le carroyage. Le carroyage est un quadrillage systématique du territoire en carreaux de 200 mètres sur 200 mètres. A la différence de l’IRIS , un regroupement homogène de population, le carreau peut être inhabité ou compter de 1 à plusieurs milliers d’habitants, voire concerner plusieurs communes… Avec en moyenne 35 ménages par carreau, là où l’IRIS avoisine le millier, il a le grand avantage d’affiner sensiblement la qualification géomarketing. La résolution est infiniment supérieure à celle de l’IRIS. On compte 2.2 millions de carreaux, et 700000 rectangles de 11 ménages ou plus, briques de base de diffusion des données INSEE , vs 50 000 IRIS et communes non découpées.
Open data INSEE : un matériau brut
Ces données, en open data et gratuites, constituent une formidable opportunité pour les entreprises qui veulent mieux connaitre leurs clients. Mais attention, une donnée INSEE n’est pas en général une information. Savoir qu’il y a 10 propriétaires dans un carreau ne donnera pas la même information selon que la zone compte 12 ou 200 foyers.
Le cas du revenu par foyer est un exemple des limites des données INSEE. Cette donnée sensible, fait l’objet d’un traitement particulier, la winsorisation, visant à respecter la règle du secret statistique. Ceci pour éviter qu’on puisse estimer avec trop de précision, le revenu des foyers dans les zones peu peuplées. Cette contrainte a de fait pour effet de moyenner les revenus en écrêtant à les revenus par unité de consommation inférieurs à 40% de la médiane et supérieurs au 8 ème décile. Il en résulte très peu de variations sur le revenu au niveau des rectangles.
Par ailleurs les données diffusées au niveau rectangle sont plus restreintes que celles au niveau de l’IRIS : la CSP, la répartition fine par tranche d’âge, la composition des familles, le taux de chômage et la détention de voitures sont absentes au niveau géographique du carroyage.
On le voit les bases de données INSEE géolocalisées en open data sont surtout un beau terrain de jeux pour data scientists.
Le référentiel Kaliscope
Le référentiel géolocalisé Kaliscope intègre différentes sources de données et des modèles prédictifs.
Les dénombrements fournis au niveau du rectangle (population, propriétaires…), ont été normés. Les données disponibles au niveau IRIS uniquement ont été modélisées pour pouvoir être projetées au niveau du rectangle. Enfin, pour contourner la restriction liée à la diffusion du revenu, nous avons développé un modèle exclusif qui donne une estimation réaliste du revenu par foyer. Il est ainsi possible de distinguer au sein même d’un quartier IRIS ou petite commune, des zones plus ou moins aisées.
Kaliscope donne par exemple une estimation de la CSP, mais apporte aussi des informations patrimoniales telles que le statut propriétaire, ou encore la détention d’un patrimoine, ou la valeur du logement… Plus de 40 informations socio-économiques sont disponibles pour qualifier précisément chaque client via son adresse postale.
Kaliscope permet de profiler des bases clients ou comparer des points de vente. Ou encore d’enrichir des bases marketing pour augmenter la connaissance client et améliorer la performance des outils de ciblage.
Kaliscope est une solution unique de valorisation de l’open data INSEE.