Par Jean-Christophe Bouramoué
La capacité à surveiller efficacement ses données est devenue indispensable pour anticiper les anomalies et garantir une qualité constante. En enrichissant ses fonctionnalités avec des statistiques avancées et des natures personnalisées, Tale of Data renforce votre observabilité des données. Ces outils vous permettent de mieux comprendre l’état de santé de vos données, d’identifier rapidement des écarts significatifs et de configurer des alertes adaptées à vos besoins. Grâce à ces innovations, vous avez désormais un contrôle plus précis et proactif sur vos systèmes d’information.
I - Statistiques avancées dans le module de Mass Discovery
Nous avons ajouté au module de découverte de données de Tale of Data un calcul de statistiques avancées.
Concrètement, lorsque vous lancez une analyse sur des milliers, voire des millions de tables, Tale of Data collecte, pour chaque colonne, le nombre de valeurs distinctes, le minimum, le maximum, la moyenne, l'écart type ainsi que différents percentiles. Ces informations viennent s'ajouter aux statistiques de qualité de données et à l'analyse sémantique (e.g. Identification de données sensibles ou personelles) qui étaient déjà proposées par le module de découverte de données.
Cette nouvelle fonctionnalité offre deux avantages :
Une photographie instantanée beaucoup plus précise (par colonne) de l'état réel de vos données.
Un nouvel éventail de possibilités en termes de Data Observability : l'un des objectifs de la Data Observability est de fournir une cartographie précise de la santé de vos données et de déclencher des alertes quand les indicateurs de qualité dépassent certains seuils.
Vous pouvez désormais dans Tale of Data déclencher des alertes sur des événements beaucoup plus pointus. Voici quelques exemples :
Je veux recevoir une alerte lorsque le nombre de modalités dans une colonne est inférieur à une vingtaine de valeurs, ce qui indique que quelque chose s'est mal passé au niveau d'un processus d'importation de données.
Je veux recevoir une alerte lorsque le seuil des 5% de valeurs les plus élevées pour ma colonne s'élève au-dessus d'un certain seuil, cela signifie qu’un certain nombre d’outliers est apparu dans mon jeu de données.
Je veux recevoir une alerte quand l'écart-type pour une colonne donnée (de type numérique ou date) a fortement diminué. Cela peut signifier que certains traitements ont conduit à une régression qui a produit une distribution inhabituelle sur cette colonne.
II - Ajout des natures personnalisées
En standard, Tale of Data est capable de reconnaître près d'une cinquantaine de « natures » de données. En effet, en analysant des milliers de fichiers structurés ou de tables de base de données, Tale of Data fournit automatiquement une cartographie précise des colonnes dans lesquelles sont présents des numéros de téléphone, des emails, des IBANs, des noms de famille, des prénoms, …etc.
Tale of data fournit également des statistiques de qualité sur ces colonnes : le pourcentage de données manquantes et le pourcentage de données invalides (e.g. emails mal formés).
La nouveauté est qu'il est maintenant possible de définir vos propres natures de données et de bénéficier, sur ces natures, de l'analyse massive et des statistiques offertes par Tale of Data.
Tale of data propose trois manières de définir des natures personnalisées :
Spécifier une liste de valeurs : vous pouvez par exemple définir la nature « Couleur » pour laquelle la liste des valeurs autorisées est blanc, jaune, orange, rouge, bleu, vert, marron, gris et noir. Tale of data sera capable d'identifier les colonnes de type « Couleur » et de fournir le nombre de cellules ayant une valeur n'appartenant pas à la liste de couleurs spécifiée.
Spécifier une expression régulière : par exemple, si la détection de plaques d'immatriculation dans des jeux de données, disséminées sur votre système d'information, est un sujet important pour vous, vous pouvez spécifier dans Tale of data qu'une plaque d'immatriculation française est constituée de 2 lettres suivies d'un tiret, suivi de 3 lettres, d'un autre tiret, puis de 2 chiffres. Tale of data sera alors capable de rechercher dans des dizaines de milliers de jeux de données les colonnes dans lesquelles se trouvent des plaques d'immatriculation.
Fournir un script : cette dernière option est importante lorsque certains calculs sont à effectuer pour s'assurer de la validité de la donnée. Si vous recherchez, par exemple, les jeux de données contenant des numéros de TVA intracommunautaire, un certain nombre de règles d'écriture sont à vérifier pour identifier et valider de façon rigoureuse ce type de données. Par exemple, en France, le N° de TVA intracommunautaire est constitué du code FR puis de 11 chiffres : une clé informatique de 2 chiffres (à vérifier avec un algorithme) suivi du numéro de SIREN à 9 chiffres de l'entreprise).
Les natures personnalisées vous permettent d'adapter les capacités d'analyse et de surveillance de Tale of Data à votre typologie de données. Vous disposez ainsi d'un moyen puissant de déclencher des alertes sur des anomalies de données propres à votre métier avant qu’elles n’impactent le bon fonctionnement de votre entreprise.
Conclusion : une surveillance proactive pour une qualité de données optimale et sans risques
Les fonctionnalités de statistiques avancées et de natures personnalisées apportent une nouvelle dimension à la Data Observability en vous permettant d'examiner vos données avec une précision accrue. Grâce à ces outils, vous pouvez non seulement surveiller l'évolution de vos données en temps réel, mais aussi configurer des alertes spécifiques basées sur des critères définis, comme des anomalies dans les écarts types ou des valeurs aberrantes. Ce niveau de surveillance permet d’anticiper les problèmes potentiels avant qu’ils n’impactent vos processus métier, garantissant ainsi une qualité de données optimale tout en réduisant les risques.
Tale of Data vous offre ainsi un moyen proactif de maîtriser vos données, améliorant la prise de décision et limitant les interruptions dues aux anomalies. Pour en savoir plus sur l’importance de la qualité des données dans la gouvernance et son rôle stratégique, consultez notre article sur la qualité des données, un pilier majeur de la Data Gouvernance.