La data quality est un des nombreux défis liés à la croissance exponentielle des données que toute organisation doit affronter. Si on écarte les problématiques liées au stockage et à la protection des données, les enjeux les plus importants sont les suivants :
l’analyse des données : les organisations doivent être en mesure d'analyser les données pour les transformer en informations utiles et exploitables, améliorer les opérations et prendre des décisions éclairées,
la qualité des données, préalable indispensable à l’analyse : il est essentiel de s’assurer de l'intégrité des données afin de garantir des résultats justes, pertinents et appropriés.
Sommaire
Qu'est ce que la data quality, la qualité des données ? 🤔
La data quality, ou qualité des données, est un ensemble de métriques permettant de juger de la pertinence et l’utilisabilité de ses données. La traiter, c’est être capable de mesurer l’exactitude, la complétude, l'intégrité et l’actualité de ses données :
l'exactitude signifie que les données sont correctes et cohérentes,
la complétude signifie que les données ne sont pas partielles,
l'intégrité signifie que les données sont protégées contre les modifications, les suppressions et les ajouts non autorisés,
l'actualité signifie que les données sont à jour.
Dans de nombreuses organisations, les données sont aujourd'hui produites à grande vitesse et à grande échelle, rendant difficile leur gestion et leur contrôle. En effet, ces données peuvent être :
incomplètes ou incorrectes voire aberrantes,
enregistrées dans différents formats et dans différents systèmes de stockage, ce qui complique leur interprétation.
Pour remédier à ces difficultés, la conduite d’une politique de qualité des données est un enjeu majeur. C’est parce que les données seront de qualité, que les décisions prises seront éclairées, et ce dans tous les secteurs d'activité ou disciplines. Essentiels à la confiance et la précision, les processus de data quality se révèlent déterminants, à la fois pour la quantité d'information recueillie que pour sa fiabilité.
Plus vos données seront efficacement collectées, contrôlées, corrigées et harmonisées, meilleures seront vos conclusions et plus pertinentes seront vos décisions.
Il est donc fondamental de déterminer comment contrôler et améliorer la qualité des données afin de mettre en place les règles de gouvernance permettant de garantir cette qualité de façon pérenne.
Pourquoi la data quality est un problème en entreprise ?
La data quality est en réalité un problème récurrent pour ces principales raisons :
Les saisies d’informations par des humains créent régulièrement de nouvelles incohérences ou des doublons (dans les CRM, les ERP, les logiciels RH...). Une partie de ces erreurs peuvent être évitée par des contrôles saisie avancés (ex : vérification immédiate d’un nom de ville, d’un code postal).
Cependant toutes les erreurs ne peuvent pas être évitées, notamment celles qui impliquent la cohérence entre des informations saisies dans des champs / zones différents. Ce type d'erreurs est principalement identifié par nos clients dans des situations de migrations des données vers un nouvel outil.
Par exemple, dans le domaine de l'IOT, les capteurs ne sont pas exempts de défaillance : ils peuvent émettre des valeurs aberrantes, ou avoir un comportement erratique dans l’écart de temps entre deux mesures.
En apprentissage Machine (Machine Learning), les modèles prédictifs ont pu, certes, être entraînés sur des données de qualité, mais lorsqu’on les met en production, c’est pour les confronter à des données que ces modèles n’ont jamais vues. Si la qualité des données d’entrée baisse dans le temps (données manquantes, aberrantes), la précision des prédictions, par nature très sensible à la data quality, va baisser notablement. Le modèle prédictif peut en arriver à faire n’importe quoi.
La mise en production d’IA nécessite donc un contrôle continu de la qualité des données.
Data quality : comment détecter les erreurs de saisie ?
La première étape vers un processus de contrôle de la qualité des données, c'est la détection des erreurs afin de corriger des données incomplètes, incorrectes ou aberrantes.
Les principales sources d’anomalies dans les données
Les erreurs dans les données, même marginales, peuvent avoir un impact énorme sur les décisions de l’entreprise, dès lors que ces décisions reposent sur :
des tableaux de bords construits à partir de données de qualité insuffisante présentant éventuellement des doublons (ex : des doublons dans une base clients sont un obstacle majeur à l’identification des meilleurs clients - Absence de Single Customer View),
des modèles prédictifs, plus techniques (réseau de neurones, random forest, régression logistique) sont par essence extrêmement sensibles, en phase d’apprentissage, aux données inexactes ou incomplètes.
Les anomalies dans les données peuvent avoir des sources très diverses : saisies manuelles erronées ou illisibles, échecs de transmission, problèmes de conversion, processus incomplets ou inadaptés, etc. Il est important de pouvoir identifier les sources et les types d'erreurs afin de pouvoir les comprendre, les prévenir et les corriger.
Mettre en place des règles de contrôle automatisés et réguliers de la qualité permet ensuite de s'assurer que les erreurs sont repérées et qu'elles peuvent être corrigées avant qu'elles n'affectent la prise de décision.
Travailler sur la qualité des données, c’est reconnaître qu'elle peut être influencée par l’humain, mais pas uniquement. Les erreurs de saisie peuvent aussi provenir de ce que l’on appelle un « mauvais encodage » ou d'une mauvaise transcription.
Il peut s’avérer délicat de détecter les erreurs de saisie, notamment lorsque que l’on se trouve en présence de doublons, mais surtout de « presque doublons ». Par exemple, comme lorsqu'une lettre est mal tapée (la coquille) il est extrêmement difficile, voire impossible de le détecter avec des outils comme Excel ou même du SQL.
Pour améliorer la qualité des données, il faut être dans un certain état d’esprit : reconnaître que ces erreurs peuvent exister, même si on ne les voit pas au premier abord 😇.
Détecter les problèmes de data quality dans les données grâce à des fonctionnalités spécialisées
Pour passer de l'étape "aveugle" à "voyant", il est possible d'utiliser des solutions disposant de fonctions d'intelligence artificielle, comme la logique floue. Cette technique permet de détecter des erreurs de saisie, lorsque les données sont approchantes. C’est ce que nous appelons des « presque doublons ». La logique floue permet de comparer des noms de personnes qui ont été saisis différemment comme :
‘Emma Dupont’ et ‘Emma Dupond’
‘Emma Dupond’ et ‘Emma née Dupond’ (le mot ‘née’ est en plus)
‘Malaurie’ ou ‘Malorie’ voire même ‘Mallorie’
Les outils traditionnels, tels que Excel, sont très peu adaptés pour identifier les données ‘approchantes’. En utilisant des solutions plus avancées, faisant appel à de l'intelligence artificielle, il est possible de :
détecter beaucoup plus efficacement les anomalies, les corriger, normaliser les données textuelles, dédoublonner et donc améliorer la qualité des données,
d’automatiser ces opérations de détections/corrections afin de les intégrer dans des pipelines de données.
Si la toute première étape est la prise de conscience, c’est-à-dire admettre que l’on a des anomalies dans ses données, il faut aussi admettre que cela a un coût pour l’organisation.
Or, le coût réel des problèmes de qualité de données peut-être difficile à évaluer.
Chez Tale of Data, nous proposons de découper ces coûts sur deux dimensions. Cela peut vous permettre de mesurer plus facilement l’impact des problèmes de data quality sur votre entreprise :
La dimension : coût cachés / coûts directs (directs dans le sens de visible)
La dimension : opérationnelle / stratégique
Voici une matrice pour illustrer nos propos :
"Les entreprises doivent prendre des mesures pragmatiques et ciblées pour améliorer la qualité des données de leur entreprise s'ils veulent accélérer la transformation numérique de leur organisation", affirme le cabinet Gartner, dont une récente étude estime que la mauvaise qualité des données coûte en moyenne 12,9 millions de dollars par an aux entreprises.
Mais la détection des anomalies n’est pas le seul enjeu de la data quality : travailler avec des données hétérogènes est aussi un défi qu’il faut savoir relever.
Comment traiter des données hétérogènes pour améliorer la data quality ?
La gestion des données hétérogènes est devenue de plus en plus nécessaire avec l'explosion des données et la prolifération des sources de données dans les organisations.
Une donnée n’est que très rarement analysée seule. Pour l’analyser, il faut souvent la combiner avec d’autres, pour la regrouper ou l'enrichir.
Pour traiter les données hétérogènes, les rendre plus cohérentes, homogènes entre elles, et donc faciliter leur utilisation à travers leur combinaison, deux analyses sont nécessaires:
identifier les sources : il est important de d'abord identifier toutes les sources de données et leurs formats respectifs. Ce n’est pas l’étape la plus passionnante à réaliser, mais c’est celle qui dictera la réussite de votre projet de mise en qualité de ces données hétérogènes.
harmoniser le format : cette étape consiste à créer un format commun à toutes les données, d’où qu’elles proviennent. Le choix de ce format peut s'avérer délicat, mais crucial. Il sera alors utilisé pour que toutes vos données puissent être interprétées par un système informatique. Sans cette harmonisation de format, impossible de relier des données entre elles. C'est une problématique importante lorsque l'on doit réaliser des actions comme mettre en qualité les données d'un catalogue produit. Il est donc indispensable de transformer, on parle aussi de ‘normaliser’ ses données, selon le standard que vous aurez choisi.
Pour illustrer l'harmonisation, prenons l’exemple, dans une société, de la collecte des références produits, provenant de différents fournisseurs. Harmoniser les données consistera à utiliser le même format pour chaque type d'information.
Il vous faudra peut-être trancher sur :
Le nombre de caractères que devra contenir une référence produit : 8 ou 12 ou plus?
Est-ce que la chaîne de caractères comportera exclusivement des chiffres ? ou des lettres ? ou un mix des deux ?
Est-ce que le début de la chaîne de caractère aura une signification particulière : 2 premières lettres seront le pays de fabrication, un code d'entrepôt, le code d’un fournisseur ?
Lorsque vous manipulez des sources de données hétérogènes (i.e; issues de “silos” différents), vous avez besoin de créer des tables de correspondances et des “référentiels de référentiels”. La logique floue est indispensable pour apparier deux représentations de la même entité. Par exemple dans le cas d’une base produits, la solution que vous utiliserez doit être capable d’apparier automatiquement (avec si possible un coefficient de confiance) les deux produits suivants :
HUAWEI MediaPad M5 10.8
HUAWEI M5 10.8"
Traiter des données hétérogènes est donc indispensable pour exploiter la richesse des data de l’entreprise et réaliser des ponts entre les informations issues de différentes sources.
Une politique de data quality avec les bonnes métriques pour évaluer l’exactitude et la complétude, est nécessaire, mais pas suffisante. Pour garantir une qualité durable, et donc une politique pérenne, il est indispensable de réussir l’étape de son industrialisation. Pas de politique de data quality sans automatisation de la mise en qualité des données incomplètes, incorrectes, issues de différents systèmes de stockage.
Data quality : pourquoi automatiser le traitement de ses données ? 🤷♂️
La première réponse qui vient à l’esprit est qu’automatiser la mise en qualité des données permet de réduire la pénibilité et l’inefficacité d’un nettoyage manuel.
Il y a cependant d’autres raisons pour lesquelles l’automatisation du Data Quality Management (le DQM) est fondamentale. Une erreur communément répandue est de penser que l’on va pouvoir régler une fois pour toutes les problèmes de data quality et passer à autre chose. Malheureusement, il n'en est rien.
Avec l’accroissement exponentiel du volume de données produites par les entreprises, l’automatisation du Data Quality Management n’est en fait plus une option.
Une autre erreur lourde de conséquences consiste à se dire que s’il faut automatiser le traitement de la data quality, autant développer des scripts ou des programmes informatiques pour régler les problèmes de qualité de données. Cela est contreproductif pour plusieurs raisons :
Tout d’abord, la data quality concerne au moins autant, si ce n’est plus, la DSI que les métiers. Un informaticien pourra identifier et corriger des problèmes de dates, mais les problèmes spécifiques au métiers de l’entreprise lui échapperont. Il ne pourra pas identifier qu’une valeur est aberrante sans expertise métier. Souvent ce sont des corrélations de plusieurs champs qui sont aberrantes (ex : si le champs C1 contient la valeur V1 et le champ C2 contient la valeur V2, alors la valeur du champ C3 doit être supérieure ou égale à V3)
Ensuite, les besoins métiers évoluent, les règles métier changent (réglementation, directive, stratégie) : le fait qu’il faille faire évoluer le code à chaque fois devient vite problématique. Dans le temps, cela devient extrêmement cher, d’autant qu’une DSI a plein d’autres tâches et pas toujours les ressources disponibles pour répondre aux besoins immédiats des métiers.
Enfin, les métiers ne comprennent pas le code, ils n’ont donc aucune possibilité de faire évoluer la solution. Ils sont donc totalement dépendant d’une DSI souvent débordée par ses autres tâches.
Chez Tale of Data, nous pensons qu’une solution de data quality doit être utilisable par les métiers et la DSI. C’est pourquoi, bien la choisir est fondamental.
Les solutions de data quality, comment bien choisir son outil de qualité des données ?
Aujourd’hui, la plupart des entreprises souhaitent devenir « data driven », c’est-à-dire pilotées par la donnée.
A l'inverse, aucune ne peut y parvenir sans être d’abord Data-Quality-Driven, nous vous invitons à lire notre témoignage client sur la mise en place d’une stratégie data driven avec Tale of Data.
Il existe dorénavant des plateformes de nouvelle génération qui rendent cela possible en dépensant bien moins de temps et d’argent qu’il y a seulement quelques années.
Une plateforme de data quality moderne devrait offrir, à minima, les fonctionnalités suivantes :
se connecter à toutes vos sources de données : bases de données, fichiers, CRM, ERP,
découvrir / auditer automatiquement les données disponibles au sein de l’entreprise,
détecter automatiquement les anomalies (avec, entre autres, de la logique floue pour les données textuelles),
offrir des puissantes fonctions de redressement, de standardisation et de dédoublonnage des données,
permettre à des utilisateurs métier de rajouter des règles de contrôle et de validation personnalisées,
permettre à la DSI et aux métiers de collaborer, car sur le sujet data quality, ils ne peuvent réussir l’un sans l’autre,
automatiser et planifier des chaînes de traitement : détections / corrections / maintien de la qualité,
alerter en temps réel en cas de détection d’anomalies : les données se dégradent forcément dans le temps.
👉 La data quality n’est pas une opération “One shot”, mais bien une politique durable à mener et à inscrire sur le long terme.