top of page
agregation-bases-de-donnees

Agrégation de plusieurs bases de données avec Record Lineage

L'agrégation de plusieurs bases de données avec Record Lineage permet de regrouper et d'unifier les données provenant de différentes sources tout en conservant les liens entre les enregistrements et leurs sources d'origine.

Bande-frise-taleofdata

Le besoin 

agregation-bases-de-donnees

Notre client souhaitait publier, sur un portail unique, une base de données résultant de la mise en commun d’enregistrements issus de 12 bases de données sources.


Des recouvrements existant entre les différentes bases de données sources, il était nécessaire de dédoublonner afin que les visiteurs du portail disposent d’une vue unique de chaque enregistrement.


Par ailleurs, les utilisateurs du portail ayant la possibilité de corriger et/ou d’enrichir les informations publiées (=Crowdsourcing), il était nécessaire de conserver, pour chaque entrée de la base agrégée, un lien vers le ou les enregistrements correspondants dans les bases de données sources (= Record Lineage), ceci afin de répercuter les corrections à la source.


Ce use case portait sur des lieux culturels. Il est toutefois déclinable à l’identique avec des listings d’entreprises ou de particuliers (CRM), avec des bases produits, etc.

Solution proposée

agregation-bases-de-donnees

Vérification + géolocalisation* des adresses postales.


Vérification des codes postaux, traduction des codes postaux en codes INSEE.


Harmonisation des données de chacune des 12 bases sources afin d’obtenir un format cible unique.


Dédoublonnage multicritères (nom, adresse) et multi-stratégies (phonétiques, distance de Levenshtein, N-gramme, …).


Record Lineage : conservation tout au long de la chaîne de traitement de l’identifiant de chaque enregistrement ainsi que de sa base source d’origine.


Automatisation de l’ensemble de la chaîne de traitements dans les 2 sens (bases sources → base agrégée ET base agrégée → bases sources) afin de propager les mises à jour et les enrichissements pouvant survenir de chaque côté.

agregation-bases-de-donnees

Gains obtenus

Une vue unique de chaque enregistrement sur le portail, grâce au dédoublonnage.


La possibilité pour les propriétaires des 12 bases sources de récupérer des corrections par crowdsourcing*, afin de les appliquer sur leur base.


Des données à jour sur le portail incluant à la fois les dernières modifications effectuées dans les bases sources ET les corrections / enrichissements par crowdsourcing.


Une automatisation complète du processus qui permet de propager les corrections dans les deux sens à intervalles réguliers.

bande témoignage.png

Restez à jour avec nos derniers articles captivants !

nouvelle bande cta.png

Exploitez tout le potentiel de vos données en programmant une démonstration

bottom of page