Complétez vos données sur des millions de lignes
Enrichissez vos données selon différentes méthodes, pour ajouter de la valeur à vos données et sélectionnez la stratégie qui correspond le mieux à votre contexte et à votre besoin du moment :
-
enrichissement à l'aide de référentiels,
-
enrichissement par jointure entre 2 sources,
-
enrichissement par logique floue et/ou phonétique.
Enrichissez vos données à l'aide de référentiels
Les référentiels sont par essence, des données d’enrichissement.
L'enrichissement de données à partir de référentiels vous permet de croiser et de compléter vos données avec des informations internes ou externes. C'est une étape importante dans la mise en qualité des données.
Augmentez le contenu de vos données en quelques clics, sans jamais écrire une seule ligne de code est une des forces et des spécificités de Tale of data.
Exploitez tous les référentiels disponibles
-
les vôtres, en croisant les informations provenant de différentes sources,
-
les référentiels internes à votre organisation, produits par d'autres services,
-
ou encore, les référentiels externes à votre organisation. Il peut s’agir de base de données commerciales ou encore de jeux de données accessibles en open data. Tale of Data met à votre disposition de ses utilisateurs un grand nombre de données publiques dans son catalogue (bases SIRENE, IBAN, LEI, ...).
La réconciliation par référentiel dans Tale of Data permet d’utiliser plusieurs stratégies de correspondance :
-
Des correspondance exactes : c’est idéal. Dans ce cas, vous disposez d’une information commune entre les deux sources et vous pouvez créer facilement un pont entre vos informations et ce référentiel.
-
Des correspondances floues (ex : phonétiques, taux de similarité) : c’est l’option à choisir si vous disposez de données susceptibles de contenir des inexactitudes d’orthographe.
Exploitez pleinement vos référentiels avec Tale of Data
Les référentiels Tale of Data présentent deux avantages majeurs :
-
ils peuvent être partagés avec d’autres utilisateurs,
-
ils offrent d’excellentes performances car ils sont automatiquement indexés.
Une information peut être retrouvée en quelques millisecondes dans un référentiel contenant des centaines de millions de lignes.
Il est donc possible d’enrichir des données en masse, dans un temps réduit.
Connecter > Auditer > Corriger > Normaliser > Enrichir > Automatiser > Visualiser > Documenter
Enrichissement par jointure
L'enrichissement par jointure est une solution qui permet d'assembler plusieurs les fichiers à l'aide d'une clé commune.
La facilité d'utilisation de cette fonction offre une richesse de combinaison à l'utilisateur :
-
les types de jointure (voir illustration ci-contre)
-
les conditions de jointure : égale, différent, supérieur (strictement ou non) ou inférieur (strictement ou non), ...
Grâce à cette fonction, vous pouvez facilement enrichir vos données avec des informations complémentaires provenant de sources différentes, et ce sans avoir besoin d'écrire de script. En effet, Tale of Data vous permet de croiser, dans un même traitement, des fichiers Excel ou CSV avec celles d’une Base de données.
Cette fonctionnalité offre à des utilisateurs, pas ou peu techniques, la possibilité de traiter rapidement et efficacement des ensembles de données volumineux, sans compétences techniques en programmation.
Enrichissement par logique floue
La logique floue est une méthode complémentaire à l'enrichissement de données par jointure.
Si la stratégie par jointure nécessite une clé commune entre vos jeux de données, la logique floue permet de s'affranchir de cette contrainte.
Appliquez des rapprochements et des enrichissements avec des données approchantes, toujours sans écrire une ligne de code.
Orthographe approchante (1 ou plusieurs différences), phonétique, ignorer la casse, les accents, les espaces, ... quelle que soit la stratégie et la fonction que vous utiliserez, Tale of data détecte des termes 'approchants' et corrèle des données de différentes sources, même sans clé commune.
L'avantage de l'indice de confiance dans les rapprochements
Enfin, l'indice de confiance permet de mesurer la fiabilité d'une jointure floue. Cet indice va de 0 à 1.
-
Si l'indice = 1, la jointure est fiable à 100% entre vos deux sources et tous les champs joints/rapprochés sont identiques.
-
Si l'indice est compris entre 0,99 et 0,85, les rapprochements proposés par la solution sont à étudier et la décision sera prise au cas par cas.Il peut y avoir, par exemple, une seule lettre d'écart (Dupond et Dupont) et malgré cette différence, ce sont bien les mêmes données. Il sera donc logique de les assembler.
-
Finalement, si l'indice est inférieur à 85%, la jointure est peu fiable. Elle présente de grandes différences sur les champs rapprochés et il est peu probable que leur étude soit pertinente. Tale of Data vous permet de ne pas rapprocher ces données.
Dans d'autres cas, 1 seule lettre d'écart est normal et ne provient pas d'une erreur de saisie. C'est le cas par exemple, de Vitalis et Vitalys. Votre indice de confiance sera fort, si vous n'utilisez que le nom pour rapprocher les informations, alors qu'il s'agit bien de deux sociétés différentes.
L'indice de confiance permet donc à l'utilisateur de faciliter ses décisions de rapprochement.