top of page
bande about us.png

Le lexique Tale of Data

Un mot que vous ne comprenez pas ?

 

Nous sommes conscients que tout le monde ne parle pas le langage de la data. 

 

Retrouvez, ci-dessous les définitions des mots suivis d'une *.

Et si vous pouviez enfin maîtriser le vocabulaire de la Data Quality ?

La qualité des données est essentielle, mais sans un langage commun, les projets data et les initiatives liées à l’IA peuvent rapidement devenir complexes. "Le Langage de la Data Quality" a été conçu pour que tous, des équipes métiers aux experts techniques, puissent parler le même langage.

​​

Téléchargez gratuitement Le Langage de la Data Quality en remplissant ce formulaire et simplifiez votre compréhension, améliorez la collaboration entre vos équipes et optimisez vos décisions.

Mokup Le language de la data quality (2).png

Recevez gratuitement votre glossaire
Data Quality

Algorithme

Ensemble des règles opératoires propres à un calcul ; suite de règles formelles (source : Le Robert).

Algorithme de matching / fuzzy matching

Procédé algorithmique basé sur une correspondance approximative de deux entrées, plutôt que sur une correspondance exacte. En pratique, différents algorithmes sont mis à disposition dans Tale of Data pour prendre appui par exemple sur les spécificités de la phonétique française ou anglaise. D’autres approches sont proposées comme de donner davantage de poids aux consonnes ou d’utiliser des procédés mathématiques éprouvés comme la distance de Levenshtein*.

API ou Interface de programmation d’applications

Interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d'échanger des données et des fonctionnalités.

API Call

Demande de service faite à une API pour récupérer ou envoyer des données entre différentes applications.

BAN - Base Adresse Nationale

La Base Adresse Nationale est la base regroupant les adresses officielles du territoire français. Cette base est dite « ouverte » : son accès et l'usage sont laissés libres aux usagers, qui peuvent être d'origine privée ou publique.

Base de données relationnelle

En informatique, une base de données relationnelle est une base de données où l'information est organisée dans des tableaux à deux dimensions appelés des relations ou tables. Selon ce modèle relationnel, une base de données consiste en une ou plusieurs relations (Source Wikipédia).

BCBS 239

Norme bancaire visant à augmenter les capacités des banques en matière d’agrégation de données de risques financiers ; à produire des reportings et à améliorer la qualité de ces données risques.

Churn

Utilisé pour désigner la perte de clients ou d’abonnés. On retrouve l’emploi de ce terme principalement dans l’univers des entreprises de télécom et dans celui des banques. Il sert notamment à mesurer la durée moyenne d’un abonnement à une offre ou à un service (abonnement à un bouquet TV sport, à un magazine, à un journal, etc.). Il fait partie des principaux indicateurs de la satisfaction clientèle (source : journal du net).

Cluster

Mode de fonctionnement distribué sur plusieurs serveurs, qui permet de traiter en parallèle un grand nombre de données.

Code IRIS

Les « Ilots Regroupés pour l'Information Statistique » sont des briques de découpage du territoire créées par l’INSEE de taille homogène. Chaque maille élémentaire regroupe 2 000 habitants.

Connecteurs

Moyen pour se connecter à une source de données d’un type particulier (par exemple une base de données SQL Server, ou un serveur de fichiers de type Azure Blob Storage, etc) -> cf section Architecture.

Core banking legacy

Un système legacy, appelé encore système "hérité" est un système informatique (comme un ERP) répondant toujours aux besoins mais il ne pouvant plus évoluer. L'organisation s'appuie toujours sur ce système, mais pourra être limitée car il ne peut pas interagir pas avec les outils analytiques les plus récents, comme ceux hébergés sur le cloud.

Crowd sourcing

Mode d’organisation faisant appel à des contributions d’un grand nombre de personnes pour enrichir et améliorer un contenu. Par exemple, Wikipédia est une encyclopédie dont le contenu est enrichi à l’aide d’un très grand nombre de contributeurs.

Data Catalog

Un référentiel centralisé de métadonnées, qui permet de gérer, rechercher et documenter les données disponibles dans une organisation, facilitant ainsi leur découverte et leur utilisation.

Data Discovery

Procédé permettant d’explorer les données disponibles dans un système informatique pour en découvrir la structure, le contenu et les interrelations, facilitant ainsi la compréhension et l'analyse des données.

Data driven

Adjectif anglais qui peut se traduire par « pilotée par les données ». Autrement dit, il s’agit d’une entreprise qui s’appuie sur l’analyse de ses données pour prendre des décisions et orienter son évolution plutôt que sur l'intuition.

Data lake

Un espace de stockage centralisé qui permet de conserver des données structurées, semi-structurées et non structurées à grande échelle, facilitant leur analyse et traitement ultérieurs.

Data Lineage

Représentation permettant de tracer l'origine et le parcours des données à travers différents systèmes et processus, assurant ainsi la transparence et facilitant la conformité et l'analyse des impacts.

Data Observability

Capacité à surveiller et comprendre l'état des données dans un système, en utilisant des métriques et des visualisations pour assurer leur qualité, intégrité et performance.

Data Product

Ensemble de données organisées et prêtes à être consommées, souvent associées à des outils et interfaces permettant de les exploiter efficacement pour répondre à des besoins spécifiques.

Data Quality

Ensemble des processus et techniques visant à assurer que les données sont précises, complètes, fiables et pertinentes pour leur utilisation prévue.

Data scientist

Spécialiste de la donnée, il recueille, traite, analyse et fait parler les données pour améliorer les performances de l’entreprise.

Data Stories

Narrations basées sur les données, utilisant des visualisations et des analyses pour communiquer des informations et des insights de manière claire et engageante.

Datavisualisation (dataviz)

Méthode qui consiste à communiquer des chiffres ou des informations brutes en les transformant en objets visuels faciles à lire : points, barres, courbes, cartographies. A noter que la nouvelle version de Tale of Data contiendra un module de DataViz. Il sera accessible à tous les utilisateurs de la solution et à ceux ne souhaitant disposer que de ce module.

Databases

Collections organisées de données, stockées et accessibles électroniquement à partir d'un système informatique, permettant de gérer, manipuler et interroger les données efficacement.

Dédoublonnage

Méthode qui permet d'éliminer les doublons.

Distance de Levenshtein

Mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre (source : Wikipedia).

Données à enrichir

Il s’agit du jeu de données en votre possession (par exemple, la liste des prospects de votre CRM), sur lequel vous souhaitez ajouter de l’information non présente sous la forme de nouvelles colonnes (par exemple l’effectif de la société).

Données d’enrichissement

Il s’agit d’un jeu de données de référence, interne (ex : disponible dans votre outil MDM) ou externe (ex : la base SIRENE) qui contient des informations supplémentaires dont vous avez besoin pour augmenter votre capacité d’analyse.

Données PI (Plant Information)

Ces données, produites sur des sites industriels, sont issues de capteurs installés sur des sites de production et envoyés dans un système de stockage.

Enregistrement

Lignes dans une base ou un fichier (par opposition aux colonnes).

Enrichissement des données

Consiste à compléter les données, à les améliorer et à les structurer via l’utilisation d’une autre source (référentiel, fichier base …).

Flow

Traitement construit par l’utilisateur, permettant d'effectuer des tâches de remédiation, de préparation et de monitoring de données. Un flow est par construction conçu pour la production.

Flow Designer

Environnement dans le logiciel Tale of Data pour mettre au point des Flows* dans le but de concevoir des transformations sur les données.

Géolocalisation

Technologie permettant de déterminer la localisation d'un objet ou d'une personne avec une certaine précision (source CNIL).

Intelligence artificielle

Ensemble de techniques qui permettent à des ordinateurs de simuler et de reproduire l’intelligence humaine.

Jointures floues

Assemblage de plusieurs sources en faisant des correspondances entre elles à l’aide d’algorithmes de fuzzy matching.

Jointure full-text

Assemblage de plusieurs sources en faisant une recherche approfondie dans toutes les données textuelles spécifiées. Ceci permet par exemple de découvrir des liens entre des enregistrements dans deux tables pour lesquels les différences sont reliées à un ordre des mots différent. Un algorithme conventionnel ne pourra pas détecter ce type de correspondance alors qu’elle peut être évidente pour un opérateur humain et pour un algorithme de jointure full-text.

Langage naturel

Signifie que l’utilisateur n’a pas besoin de connaître de langages informatiques pour utiliser la solution. Les fonctions sont toutes utilisables via des menus explicites.

Machine Learning

Apprentissage automatique qui consiste à laisser les algorithmes découvrir des patterns dans l’ensemble des données. Une fois cet entraînement réalisé, l’algorithme pourra retrouver les patterns dans un nouveau jeu de données.

Mass Data Discovery

Procédé d’exploration du système informatique permettant de découvrir et cartographier toutes les données présentes dans le-dit système. Ceci permet notamment d’établir un atlas des données sensibles stockées (comme les données personnelles). Il permet aussi la génération d’un rapport analysant la qualité des données stockées.

Métadonnées

Données servant à caractériser une autre donnée, physique ou numérique (source Larousse). Ce sont les données permettant de décrire d’autres données. Exemples : taille d’un fichier, date de création, date de modification, …

N-gramme ou N-Gram

Méthode utilisée dans Tale of Data pour évaluer la similarité entre plusieurs mots ou entre plusieurs phrases. Plus généralement, il s’agit de la succession de N éléments de même type extraits d’un texte, d’une séquence ou d’un signal ; les éléments pouvant notamment être des mots ou des lettres (source : Wikidictionnaire).

Open Data

Littéralement, « données ouvertes », se dit des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. La Base des Adresses Nationales ou encore la base des SIRET sont des illustrations d’information consultables en Open Data.

Pattern

Un motif défini par l’utilisateur et qui peut être recherché dans les données, ou utilisé dans le cadre de leur transformation.

Phonétique / Algorithme phonétique / Analyse phonétique

Rapprochement de termes selon une identité de son. Exemple : recherche de similarité entre des Noms de famille avec le son [o], pouvant s’orthographier o, ô, au, eau.

Préparation de données (ou Data Preparation)

Étape précédant l'analyse de données. Elle est constituée de plusieurs tâches comme le nettoyage des données, l'enrichissement des données. Les données brutes sont soumises à un certain nombre de traitement permettant de les rendre fiables et donc exploitables. La préparation des données est l'étape clé pour une analyse des données valides conduisant à leur maîtrise.

Record Lineage

Représentation proposée par Tale of Data qui permet de voir pour un jeu de données particulier la liste et la structure d’enchaînement des données qui servent à alimenter ce jeu de données (les “flux aval”), ainsi que tous les jeux de données et les enchaînements qui sont dépendants du jeu de données sélectionné (les “flux amont”). Ce mode de visualisation permet de comprendre l’origine des données (=vision amont) et d’établir l’impact d’un changement au sein des données concernées sur d’autres jeux de données qui en dépendent (=vision aval).

Réconciliation des données

Processus relatif à l’homogénéisation des données, à leur regroupement en fonction de leur nature ou de leur source.

Redressement

Phase pendant laquelle les données « brutes » sont analysées pour être corrigées. Une des actions de la préparation de données.

Référentiel

Liste d'éléments formant un système de référence. Exemple : un référentiel produit est la liste de tous les produits contenant un certain nombre d’attributs pour chaque produit.

Règles de gestion

Directives qui régissent les activités d'une organisation ou d'un système. Elles visent à assurer la cohérence et la conformité des opérations, minimiser les risques d'erreurs ou de fraudes et améliorer la qualité des produits ou des services.

Règles métier

Ensemble d’opérations de transformation sur des données, qui est défini par l’utilisateur de Tale of Data sans écriture de code, c’est-à-dire avec une interface intuitive et permettant de spécifier des conditions pour chaque opération pouvant être aussi complexes que nécessaire. Tale of Data permet d’obtenir un résumé lisible des règles qui ont été définies et de les réutiliser dans d’autres Flows* et d’autres opérations de transformation des données.

Remédiation

Résolution des problèmes de qualité présents dans les données.

Runtime

Environnement dans le logiciel Tale of Data pour exécuter des Flows* dans le but d’opérer des transformations sur les données. L’exécution des Flows* peut être déclenchée directement par l’utilisateur, ou être planifiée de manière extrêmement flexible.

Runtime Environment

Environnement logiciel dans lequel les programmes s'exécutent. Cela inclut le système d'exploitation, les bibliothèques, et les outils nécessaires pour exécuter les applications.

SaaS ou Software as a Service

Système de mise à disposition de logiciel, sous forme de service, accessible via un navigateur Internet.

SaaS or Premise Single Server or Big Data Cluster

Modèles de déploiement de logiciels. SaaS (Software as a Service) permet un accès via internet, tandis que les solutions sur site (On-Premise) sont installées localement sur un serveur unique ou sur un cluster de serveurs pour gérer de grandes quantités de données.

Script

Programme informatique qui, en s’exécutant, permet de réaliser une action ou afficher une page Web.

Séries temporelles

Série de données indexées par le temps. Le PIB d’un pays ou l’évolution de la population sont des séries temporelles.

Shadow IT

Ensemble des données et traitements s’effectuant en marge de la DSI (ex : Bases MS Access non officielles, fichiers Excel avec des macros, …). Ces données et ces logiciels sont invisibles pour la DSI, ce qui génère un risque de sécurité et non-conformité (RGPD).

Mokup Le language de la data quality (2).png

Le Langage de la Data Quality - Maîtrisez la Data Quality avec notre glossaire 

nouvelle bande cta.png

Exploitez tout le potentiel de vos données en programmant une démonstration

bottom of page