
Le lexique Tale of Data
Un mot que vous ne comprenez pas ?
Nous sommes conscients que tout le monde ne parle pas le langage de la data.
Retrouvez, ci-dessous les définitions des mots suivis d'une *.
Et si vous pouviez enfin maîtriser le vocabulaire de la Data Quality ?
La qualité des données est essentielle, mais sans un langage commun, les projets data et les initiatives liées à l’IA peuvent rapidement devenir complexes. "Le Langage de la Data Quality" a été conçu pour que tous, des équipes métiers aux experts techniques, puissent parler le même langage.
Téléchargez gratuitement Le Langage de la Data Quality en remplissant ce formulaire et simplifiez votre compréhension, améliorez la collaboration entre vos équipes et optimisez vos décisions.
.png)
Recevez gratuitement votre glossaire
Data Quality
Algorithme
Ensemble des règles opératoires propres à un calcul ; suite de règles formelles (source : Le Robert).
Algorithme de matching / fuzzy matching
Procédé algorithmique basé sur une correspondance approximative de deux entrées, plutôt que sur une correspondance exacte. En pratique, différents algorithmes sont mis à disposition dans Tale of Data pour prendre appui par exemple sur les spécificités de la phonétique française ou anglaise. D’autres approches sont proposées comme de donner davantage de poids aux consonnes ou d’utiliser des procédés mathématiques éprouvés comme la distance de Levenshtein*.
API ou Interface de programmation d’applications
Interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d'échanger des données et des fonctionnalités.
API Call
Demande de service faite à une API pour récupérer ou envoyer des données entre différentes applications.
BAN - Base Adresse Nationale
La Base Adresse Nationale est la base regroupant les adresses officielles du territoire français. Cette base est dite « ouverte » : son accès et l'usage sont laissés libres aux usagers, qui peuvent être d'origine privée ou publique.
Base de données relationnelle
En informatique, une base de données relationnelle est une base de données où l'information est organisée dans des tableaux à deux dimensions appelés des relations ou tables. Selon ce modèle relationnel, une base de données consiste en une ou plusieurs relations (Source Wikipédia).
BCBS 239
Norme bancaire visant à augmenter les capacités des banques en matière d’agrégation de données de risques financiers ; à produire des reportings et à améliorer la qualité de ces données risques.
Churn
Utilisé pour désigner la perte de clients ou d’abonnés. On retrouve l’emploi de ce terme principalement dans l’univers des entreprises de télécom et dans celui des banques. Il sert notamment à mesurer la durée moyenne d’un abonnement à une offre ou à un service (abonnement à un bouquet TV sport, à un magazine, à un journal, etc.). Il fait partie des principaux indicateurs de la satisfaction clientèle (source : journal du net).
Cluster
Mode de fonctionnement distribué sur plusieurs serveurs, qui permet de traiter en parallèle un grand nombre de données.
Code IRIS
Les « Ilots Regroupés pour l'Information Statistique » sont des briques de découpage du territoire créées par l’INSEE de taille homogène. Chaque maille élémentaire regroupe 2 000 habitants.
Connecteurs
Moyen pour se connecter à une source de données d’un type particulier (par exemple une base de données SQL Server, ou un serveur de fichiers de type Azure Blob Storage, etc) -> cf section Architecture.
Core banking legacy
Un système legacy, appelé encore système "hérité" est un système informatique (comme un ERP) répondant toujours aux besoins mais il ne pouvant plus évoluer. L'organisation s'appuie toujours sur ce système, mais pourra être limitée car il ne peut pas interagir pas avec les outils analytiques les plus récents, comme ceux hébergés sur le cloud.
Crowd sourcing
Mode d’organisation faisant appel à des contributions d’un grand nombre de personnes pour enrichir et améliorer un contenu. Par exemple, Wikipédia est une encyclopédie dont le contenu est enrichi à l’aide d’un très grand nombre de contributeurs.
Data Catalog
Un référentiel centralisé de métadonnées, qui permet de gérer, rechercher et documenter les données disponibles dans une organisation, facilitant ainsi leur découverte et leur utilisation.
Data Discovery
Procédé permettant d’explorer les données disponibles dans un système informatique pour en découvrir la structure, le contenu et les interrelations, facilitant ainsi la compréhension et l'analyse des données.
Data driven
Adjectif anglais qui peut se traduire par « pilotée par les données ». Autrement dit, il s’agit d’une entreprise qui s’appuie sur l’analyse de ses données pour prendre des décisions et orienter son évolution plutôt que sur l'intuition.
Data lake
Un espace de stockage centralisé qui permet de conserver des données structurées, semi-structurées et non structurées à grande échelle, facilitant leur analyse et traitement ultérieurs.
Data Lineage
Représentation permettant de tracer l'origine et le parcours des données à travers différents systèmes et processus, assurant ainsi la transparence et facilitant la conformité et l'analyse des impacts.
Data Observability
Capacité à surveiller et comprendre l'état des données dans un système, en utilisant des métriques et des visualisations pour assurer leur qualité, intégrité et performance.
Data Product
Ensemble de données organisées et prêtes à être consommées, souvent associées à des outils et interfaces permettant de les exploiter efficacement pour répondre à des besoins spécifiques.
Data Quality
Ensemble des processus et techniques visant à assurer que les données sont précises, complètes, fiables et pertinentes pour leur utilisation prévue.
Data scientist
Spécialiste de la donnée, il recueille, traite, analyse et fait parler les données pour améliorer les performances de l’entreprise.
Data Stories
Narrations basées sur les données, utilisant des visualisations et des analyses pour communiquer des informations et des insights de manière claire et engageante.
Datavisualisation (dataviz)
Méthode qui consiste à communiquer des chiffres ou des informations brutes en les transformant en objets visuels faciles à lire : points, barres, courbes, cartographies. A noter que la nouvelle version de Tale of Data contiendra un module de DataViz. Il sera accessible à tous les utilisateurs de la solution et à ceux ne souhaitant disposer que de ce module.
Databases
Collections organisées de données, stockées et accessibles électroniquement à partir d'un système informatique, permettant de gérer, manipuler et interroger les données efficacement.
Dédoublonnage
Méthode qui permet d'éliminer les doublons.
Distance de Levenshtein
Mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre (source : Wikipedia).
Données à enrichir
Il s’agit du jeu de données en votre possession (par exemple, la liste des prospects de votre CRM), sur lequel vous souhaitez ajouter de l’information non présente sous la forme de nouvelles colonnes (par exemple l’effectif de la société).
Données d’enrichissement
Il s’agit d’un jeu de données de référence, interne (ex : disponible dans votre outil MDM) ou externe (ex : la base SIRENE) qui contient des informations supplémentaires dont vous avez besoin pour augmenter votre capacité d’analyse.
Données PI (Plant Information)
Ces données, produites sur des sites industriels, sont issues de capteurs installés sur des sites de production et envoyés dans un système de stockage.
Enregistrement
Lignes dans une base ou un fichier (par opposition aux colonnes).
Enrichissement des données
Consiste à compléter les données, à les améliorer et à les structurer via l’utilisation d’une autre source (référentiel, fichier base …).
Flow
Traitement construit par l’utilisateur, permettant d'effectuer des tâches de remédiation, de préparation et de monitoring de données. Un flow est par construction conçu pour la production.
Flow Designer
Environnement dans le logiciel Tale of Data pour mettre au point des Flows* dans le but de concevoir des transformations sur les données.
Géolocalisation
Technologie permettant de déterminer la localisation d'un objet ou d'une personne avec une certaine précision (source CNIL).
Intelligence artificielle
Ensemble de techniques qui permettent à des ordinateurs de simuler et de reproduire l’intelligence humaine.
Jointures floues
Assemblage de plusieurs sources en faisant des correspondances entre elles à l’aide d’algorithmes de fuzzy matching.
Jointure full-text
Assemblage de plusieurs sources en faisant une recherche approfondie dans toutes les données textuelles spécifiées. Ceci permet par exemple de découvrir des liens entre des enregistrements dans deux tables pour lesquels les différences sont reliées à un ordre des mots différent. Un algorithme conventionnel ne pourra pas détecter ce type de correspondance alors qu’elle peut être évidente pour un opérateur humain et pour un algorithme de jointure full-text.
Langage naturel
Signifie que l’utilisateur n’a pas besoin de connaître de langages informatiques pour utiliser la solution. Les fonctions sont toutes utilisables via des menus explicites.
Machine Learning
Apprentissage automatique qui consiste à laisser les algorithmes découvrir des patterns dans l’ensemble des données. Une fois cet entraînement réalisé, l’algorithme pourra retrouver les patterns dans un nouveau jeu de données.
Mass Data Discovery
Procédé d’exploration du système informatique permettant de découvrir et cartographier toutes les données présentes dans le-dit système. Ceci permet notamment d’établir un atlas des données sensibles stockées (comme les données personnelles). Il permet aussi la génération d’un rapport analysant la qualité des données stockées.
Métadonnées
Données servant à caractériser une autre donnée, physique ou numérique (source Larousse). Ce sont les données permettant de décrire d’autres données. Exemples : taille d’un fichier, date de création, date de modification, …
N-gramme ou N-Gram
Méthode utilisée dans Tale of Data pour évaluer la similarité entre plusieurs mots ou entre plusieurs phrases. Plus généralement, il s’agit de la succession de N éléments de même type extraits d’un texte, d’une séquence ou d’un signal ; les éléments pouvant notamment être des mots ou des lettres (source : Wikidictionnaire).
Open Data
Littéralement, « données ouvertes », se dit des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. La Base des Adresses Nationales ou encore la base des SIRET sont des illustrations d’information consultables en Open Data.
Pattern
Un motif défini par l’utilisateur et qui peut être recherché dans les données, ou utilisé dans le cadre de leur transformation.
Phonétique / Algorithme phonétique / Analyse phonétique
Rapprochement de termes selon une identité de son. Exemple : recherche de similarité entre des Noms de famille avec le son [o], pouvant s’orthographier o, ô, au, eau.
Préparation de données (ou Data Preparation)
Étape précédant l'analyse de données. Elle est constituée de plusieurs tâches comme le nettoyage des données, l'enrichissement des données. Les données brutes sont soumises à un certain nombre de traitement permettant de les rendre fiables et donc exploitables. La préparation des données est l'étape clé pour une analyse des données valides conduisant à leur maîtrise.
Record Lineage
Représentation proposée par Tale of Data qui permet de voir pour un jeu de données particulier la liste et la structure d’enchaînement des données qui servent à alimenter ce jeu de données (les “flux aval”), ainsi que tous les jeux de données et les enchaînements qui sont dépendants du jeu de données sélectionné (les “flux amont”). Ce mode de visualisation permet de comprendre l’origine des données (=vision amont) et d’établir l’impact d’un changement au sein des données concernées sur d’autres jeux de données qui en dépendent (=vision aval).
Réconciliation des données
Processus relatif à l’homogénéisation des données, à leur regroupement en fonction de leur nature ou de leur source.
Redressement
Phase pendant laquelle les données « brutes » sont analysées pour être corrigées. Une des actions de la préparation de données.
Référentiel
Liste d'éléments formant un système de référence. Exemple : un référentiel produit est la liste de tous les produits contenant un certain nombre d’attributs pour chaque produit.
Règles de gestion
Directives qui régissent les activités d'une organisation ou d'un système. Elles visent à assurer la cohérence et la conformité des opérations, minimiser les risques d'erreurs ou de fraudes et améliorer la qualité des produits ou des services.
Règles métier
Ensemble d’opérations de transformation sur des données, qui est défini par l’utilisateur de Tale of Data sans écriture de code, c’est-à-dire avec une interface intuitive et permettant de spécifier des conditions pour chaque opération pouvant être aussi complexes que nécessaire. Tale of Data permet d’obtenir un résumé lisible des règles qui ont été définies et de les réutiliser dans d’autres Flows* et d’autres opérations de transformation des données.
Remédiation
Résolution des problèmes de qualité présents dans les données.
Runtime
Environnement dans le logiciel Tale of Data pour exécuter des Flows* dans le but d’opérer des transformations sur les données. L’exécution des Flows* peut être déclenchée directement par l’utilisateur, ou être planifiée de manière extrêmement flexible.
Runtime Environment
Environnement logiciel dans lequel les programmes s'exécutent. Cela inclut le système d'exploitation, les bibliothèques, et les outils nécessaires pour exécuter les applications.
SaaS ou Software as a Service
Système de mise à disposition de logiciel, sous forme de service, accessible via un navigateur Internet.
SaaS or Premise Single Server or Big Data Cluster
Modèles de déploiement de logiciels. SaaS (Software as a Service) permet un accès via internet, tandis que les solutions sur site (On-Premise) sont installées localement sur un serveur unique ou sur un cluster de serveurs pour gérer de grandes quantités de données.
Script
Programme informatique qui, en s’exécutant, permet de réaliser une action ou afficher une page Web.
Séries temporelles
Série de données indexées par le temps. Le PIB d’un pays ou l’évolution de la population sont des séries temporelles.
Shadow IT
Ensemble des données et traitements s’effectuant en marge de la DSI (ex : Bases MS Access non officielles, fichiers Excel avec des macros, …). Ces données et ces logiciels sont invisibles pour la DSI, ce qui génère un risque de sécurité et non-conformité (RGPD).
.png)