Le Data Mesh : organisez et exploitez vos données

Par Jean-Christophe Bouramoué

Alors que la quantité de données générées par les entreprises continue d'augmenter de façon exponentielle, l'approche traditionnelle centralisée de la gestion de ces données est de moins en moins adaptée.

Jusqu’à présent les méthodologies employées impliquaient une équipe centralisée responsable de la collecte, du stockage et de la maintenance des données, ainsi qu'un ensemble de consommateurs de données qui utilisaient ces données pour prendre des décisions.

L’approche centralisée a atteint ses limites pour de nombreuses organisations, car elle conduit à :

Des silos de données, rendant complexe, voire impossible, la réutilisation des données dans d’autres contextes.
Une qualité de données insuffisante, voire incohérente, car les données sont mises en qualité par des équipes centralisées indépendamment de tout contexte d’utilisation. En réalité, la qualité des données n'a aucun sens dans l'absolu : elle est dépendante du contexte et des besoins des consommateurs de ces données.
Des difficultés et des délais excessifs pour les consommateurs lorsqu’il s’agit de trouver et de récupérer les données dont ils ont besoin. Cela signifie que l’approche centralisée devient impraticable quand la quantité de jeux de données augmente (i.e. échec du passage à l’échelle).

Ces dernières années, un nouveau paradigme d'organisation des données est apparu, connu sous le nom de Data Mesh (littéralement : le "maillage" des données).

Zhamak Dehghani a fondé le concept de Data Mesh en 2018 en étant la première à proposer un changement de paradigme dans la gestion des big data, basé sur la décentralisation des données.

Sommaire

1. Qu'est-ce que le Data Mesh ?

2. Data Mesh vs. Data Lake

3. Les avantages du Data Mesh

4. Les nouvelles problématiques causées par le Data Mesh

Qu'est-ce que le Data Mesh ?

Le Data Mesh est une nouvelle façon d'organiser les données qui vise à surmonter les limitations des approches traditionnelles. Plutôt que d'avoir une équipe centralisée en charge de la gestion de toutes les données, le Data Mesh propose une approche décentralisée en transférant la propriété des données aux producteurs de ces données, car en la matière, ce sont eux les véritables experts.

Les producteurs de données sont regroupés par domaine fonctionnel. Chaque domaine fonctionnel est responsable de la gestion de ses propres données.

Dans ce contexte, l’expression domaine fonctionnel doit être comprise au sens métier. Il s’agit par exemple du marketing, des ventes, du service client, des ressources humaines, des services risque ou conformité, des services anti-fraude, de la direction financière, etc.

Chaque domaine fonctionnel a sa propre équipe data, qui est responsable de la collecte, du stockage et de la maintenance des données relatives à ce domaine. Cette équipe data travaille en étroite collaboration avec les experts métier du domaine pour s'assurer que les données sont exactes, pertinentes et à jour.

Le Data Mesh introduit le concept de Data as a Product (littéralement : la "donnée en tant que produit"). Au lieu d'utiliser la donnée comme un sous-produit d'un processus, la donnée devient LE produit.

Un Data as a Product est une unité de données autonome et réutilisable.

Autonome signifiant que le produit contient tout ce qu’il faut pour être directement exploitable : le jeu de données lui-même, ses métadonnées (i.e. des informations sur les données), des informations sur sa qualité, ainsi que l'infrastructure nécessaire à son fonctionnement (= mise-à-jour et accessibilité en continu).

Exemple de Data as a Product :

Un jeu de données brut.
Un jeu de données préparé (standardisé, enrichi,…)
Un jeu de données résultant d’un traitement consistant à prendre en entrée plusieurs jeux de données et à effectuer une série de transformations et de calculs.
Un jeu de données résultant de l’application d’un modèle prédictif obtenu par apprentissage automatique : il s’agit d’un processeur capable de classer automatiquement une donnée qui lui est présentée. Par exemple à partir d’informations sur un client donné, le modèle prédictif vous dira si ce client est un bon candidat pour l’achat d’un produit particulier ou encore s’il est susceptible d’aller acheter un produit similaire chez votre concurrent.
Tout autre type d'actif de données qui peut être packagé et livré aux consommateurs de données au sein d'une organisation.

Attention à la confusion entre Data as a Product et Data Product. Le premier concept désigne, dans un contexte Data Mesh, un jeu de données publié et réutilisable : la donnée EST le produit. Le second concept désigne un produit numérique permettant de résoudre un problème métier grâce à des données d’entrée (ex : un tableau de bord permettant de suivre les données de vente : le tableau de bord EST le produit).

Un Data as a Product est conçu pour être facilement découvert et consommé par différentes équipes au sein de l'organisation.

Un Data as a Product est publié (on pourrait dire 'mis sur étagère') sur une plateforme unifiée qui fournit un moyen normalisé pour accéder à l’ensemble des Data as a Product de l'entreprise. Chaque équipe de domaine fonctionnel créant un Data as a Product en devient le propriétaire. Elle est responsable de sa qualité et de sa cohérence et il incombe à cette équipe de s'assurer que les données sont exactes et à jour.

La définition des standards de découvrabilité, de sécurité et d’interopérabilité des Data as a Product est réalisée sur un modèle de gouvernance fédérée, c'est à dire décentralisée.

Data Mesh vs. Data Lake

Qu'est ce qu'un Data Lake ?

Les Data Lakes (littéralement "lacs de données") sont une approche de la gestion des données qui met l'accent sur le stockage des données sous une forme brute et non traitée. Ils sont utilisés pour ingérer des données qui n'ont pas encore d'objectif défini.

Quel est le rôle du Data Lake ?

Comme le Data Mesh, les Data Lakes visent à réduire les silos de données et à améliorer leur accessibilité. Cependant, les Data Lakes ont toujours une équipe data centralisée responsable de la gestion des données, contrairement au Data Mesh qui, lui, décentralise la gestion des données.

Data Mesh vs. Data Lake : incompatibles ?

Data Mesh et Data Lake ne sont pas des notions incompatibles. Le Data Mesh est une approche architecturale et organisationnelle de la gestion des données. En tant que système de stockage adapté aux très grosses volumétries de données, un Data Lake peut tout-à-fait faire partie d’un Data Mesh, au même titre qu’un entrepôt de données ou un système de stockage cloud.

⚙️ Contrairement aux Data Lakes, le Data Mesh est intrinsèquement conçu, par le biais des Data as a Product, pour élargir l'accès aux données à des populations non-techniques, au premier rang desquelles se trouvent les utilisateurs métiers.

Quels sont les avantages du Data Mesh ?

Le Data Mesh offre plusieurs avantages par rapport aux approches centralisées de gestion des données. En voici quelques exemples.

Réduction des silos de données :

L'un des plus grands problèmes posés par les approches traditionnelles de gestion des données est la création de silos, au sein desquels les données sont stockées dans différents systèmes et ne sont pas facilement accessibles par d'autres équipes au sein de l'organisation.

Le Data Mesh aide à réduire ces silos de données en rendant les Data as a Product :

Interopérables : les Data as a Product sont standardisés de façon à ce qu’il soit aisé d’utiliser, dans un Data as a Product, les données d’autres Data as a Product, sans avoir à se préoccuper des détails techniques du stockage physique de ces données (qui pourraient aussi bien se trouver dans une base de données de l’entreprise que dans le cloud).
Facilement découvrables et consommables par d'autres équipes.

Amélioration de la qualité des données :

Dans une approche centralisée, les équipes Data Quality n’ont d’autre choix que de préparer les données "à l’aveugle", sans avoir la moindre idée de leur utilisation réelle.

En pratique, on s’aperçoit que cela ne fonctionne pas car la gestion de la qualité des données est fortement dépendante du contexte et des besoins des consommateurs de ces données.

Dans l’approche Data Mesh, chaque équipe de domaine fonctionnel est responsable de la gestion de ses propres données et des Data as a Product. Le problème de la qualité et de l'exactitude des données est donc beaucoup plus facile à gérer.

En effet, les équipes travaillant sur un Data as a Product connaissent parfaitement le contexte d’utilisation des données car elles travaillent en étroite collaboration avec les experts métiers du domaine.

Elles savent donc exactement quelles opérations de remédiation et de transformation sont pertinentes pour qu’un Data as a Product délivre des résultats à la hauteur des attentes.

Agilité accrue :

En décentralisant la gestion des données, le Data Mesh permet aux organisations d'être plus agiles et plus réactives face à l'évolution des besoins de l'entreprise. Les équipes de domaine fonctionnel sont en mesure d'apporter des modifications à leurs Data as a Product rapidement et facilement, sans avoir à passer par une équipe data centralisée

Délai de mise sur le marché plus court :

Le découpage en domaines métiers avec des équipes plus compactes portant elles-mêmes la responsabilité de la gestion de leurs données permet des délais de traitement des demandes beaucoup plus courts. Les équipes de domaine fonctionnel peuvent par conséquent livrer des Data as a Product (ou des évolutions de Data as a Product existants) plus rapidement et plus efficacement.

Amélioration de la collaboration :

Le Data Mesh encourage la collaboration entre les équipes de domaine fonctionnel et les consommateurs de données. Cela permet une meilleure compréhension des données et de leur utilisation au sein de l'organisation.

Les nouvelles problématiques causées par le Data Mesh

Si le Data Mesh offre plusieurs avantages par rapport aux approches classiques de gestion des données, il amène également un certain nombre de difficultés inhérentes aux approches décentralisées. Difficultés qu’il convient de prendre en considération.

Complexité accrue :

De par sa nature décentralisée, le Data Mesh introduit un nouveau niveau de complexité dans la gestion des données.

Le fait que chaque équipe de domaine fonctionnel soit en charge de la gestion de ses Data as a Product peut entraîner des problèmes de gouvernance et de coordination des données.

Il est important de comprendre que le Data Mesh n'élimine pas le besoin d'une équipe d'ingénierie de données centralisée. Cependant, leur responsabilité doit se concentrer davantage sur :

la détermination des meilleures solutions d'infrastructure de données pour publier partager, réutiliser les Data as a Product,
la définition des standards d’interopérabilité entre les Data as a Product créés par différentes équipes de domaine fonctionnel,
la protection des informations sensibles.

Compétences requises :

Le découpage en domaines métiers autogérés amène une multiplication du nombre des équipes en charge des Data as a Product.

Chaque équipe de domaine fonctionnel a besoin de compétences data, notamment en matière de modélisation, d'architecture, d'ingénierie et de gouvernance des données. Cela peut s'avérer difficile pour les organisations qui ne disposent pas d'un large éventail de talents techniques.

Les petites entreprises ont peu de chances de tirer avantage d’une approche Data Mesh. En effet :

leurs données ne sont pas aussi complexes que celles des grandes organisations,
leurs effectifs ne leur permettent pas de créer des équipes data dédiées par domaine métier.

Sécurité des données et protection de la vie privée :

La division en équipes dédiées chacune à un domaine métier, accroît le risque de problèmes liés à la sécurité et à la confidentialité des données.

Il est important que les organisations mettent en place des mesures de sécurité et de confidentialité solides pour protéger les données sensibles.

Conclusion

Le Data Mesh représente un changement majeur dans la façon dont les organisations abordent la gestion et l'analyse des données.

Il s’agit d’un changement plus organisationnel que technologique qui repose sur une approche décentralisée avec un découpage des données par domaine fonctionnel (e.g. Marketing, Ventes, RH, Conformité…).

Un des aspects les plus novateurs du Data Mesh est que la donnée est considérée comme un produit à part entière, désigné par le vocable Data as a Product.

Un Data as a Product respecte certaines caractéristiques fondamentales : il est découvrable, documenté, fiable, interopérable et sécurisé.

Le Data Mesh permet aux organisations de libérer le plein potentiel de leurs actifs de données :

en brisant les silos de données, grâce à l’interopérabilité des Data as a Product,
en augmentant l'agilité et l'autonomie des équipes, car ces équipes sont plus petites et spécialisées chacune sur un domaine fonctionnel précis,
en améliorant l'efficacité de la gestion de la qualité des données : cette dernière est en effet gérée, au sein de chaque domaine fonctionnel, par une équipe qui comprend en profondeur la donnée et en connaît parfaitement le contexte d’utilisation.

Cependant, l'adoption du Data Mesh n'est pas sans poser de problèmes.

Les entreprises doivent être prêtes à investir du temps et de l'argent dans l'infrastructure, les outils et les processus nécessaires pour soutenir une architecture de données décentralisée. Elles doivent également être prêtes à donner aux équipes Data et métiers les moyens de collaborer pour garantir la qualité, la cohérence et la sécurité des données.

Malgré ces défis, les avantages potentiels du Data Mesh sont considérables. En permettant aux organisations de démocratiser l'accès aux données, de faciliter la découverte, la réutilisation et l'exploitation des données, le Data Mesh a le potentiel de révolutionner la façon dont nous concevons les données et leur rôle dans la réussite de l'entreprise. Il est donc probable que nous continuerons à voir l'intérêt et l'adoption du Data Mesh croître dans les années à venir. Pour en savoir plus sur comment Tale of Data intègre cette approche novatrice, découvrez notre page dédiée au Data Mesh.

Le Data Mesh : une nouvelle approche pour l'organisation et l’exploitation des données