Data Fabric vs Data Mesh : la différence

Publié: 2022-03-14

Dans la recherche du développement de la meilleure architecture de données pour les besoins actuels et futurs d'une organisation, les entreprises peuvent opter pour de nombreuses options. En raison de l'emballage de la structure logicielle du logiciel, ces options sont nombreuses pour les organisations. Les entreprises peuvent avoir du mal à choisir la bonne option, c'est pourquoi il y a eu récemment l'émergence de modèles de la gueule, permettant aux organisations de les aider dans le voyage de la gestion des données, qui comprend les tissus de données et le maillage de données.

Dans le premier cas, la structure de données et la base de données reflètent la similitude d'un point de vue conceptuel. Les mailles sont généralement fabriquées à partir de tissus et peuvent avoir différentes formes selon les besoins. Cela permet aux services informatiques de placer ces maillages au-dessus d'autres systèmes, qui sont continuellement en train de traiter des données.

Peu importe à quel point ces deux approches semblent similaires, il existe des différences distinctes, qui ne peuvent être perceptibles que si nous approfondissons ces deux approches.

Qu'est-ce que Data Fabric

La première définition de Data Fabric est apparue au milieu des années 200, lorsque Noel Yuhanna, un analyste de Forrester, a été le premier à le faire. D'un point de vue conceptuel, la structure de données est un moyen basé sur les métadonnées de connecter un ensemble varié d'outils de données. L'objectif est d'aborder les principaux points faibles de certains des projets de mégadonnées, non seulement de manière cohérente, mais également en opérant dans un modèle en libre-service. Les solutions de Data Fabric offrent diverses fonctionnalités, telles que l'accès aux données, la découverte, la transformation, l'intégration, la gouvernance, la lignée et la sécurité.

Il y a un rythme important qui s'est construit dans le concept de la fabrique de données. Cela contribue à simplifier le processus d'accès et de gestion des données dans un environnement hétérogène croissant. Un environnement hétérogène comprend des magasins de données transactionnelles et opérationnelles, des lacs de données, des entrepôts de données et des maisons de lac. Nous voyons un nombre croissant d'organisations développer des silos de données et, en raison du cloud computing, le problème lié à la diversification des données devient de plus en plus important.

En disposant d'une structure de données unique placée au-dessus des référentiels de données, une entreprise peut la regrouper sous la forme d'une gestion unifiée des différentes sources de données, y compris les consommateurs de données en aval tels que les scientifiques des données, les ingénieurs des données et les analystes des données. Cependant, ce qu'il faut noter, c'est que la gestion des données est unifiée et non le stockage proprement dit. Le stockage réel reste toujours dans un modèle distribué. Il existe de nombreux fournisseurs tels qu'Informatica et Talend qui fournissent une structure de données avec les fonctionnalités décrites ci-dessus.

Qu'est-ce que le maillage de données

Alors que le maillage de données résout la plupart des problèmes rencontrés par une structure de données, tels que le défi de la gestion des données dans un environnement hétérogène. Cependant, la méthode de traitement et de résolution de ce problème est différente dans une approche de maillage de données. Alors que la structure de données crée une couche unique de gestion virtuelle au-dessus du stockage de données qui héberge les données distribuées, l'approche de maillage de données concerne davantage un groupe distribué d'équipes qui géreront les données conformément aux exigences malgré certains protocoles de gouvernance.

Le concept de maillage de données a été défini par Zhamak Dehgani. Zhamak est directeur de l'incubation technologique chez Thoughtworks North America. Le principe fondamental qui régit l'approche du maillage de données dans la résolution de l'incompatibilité entre le lac de données et l'entrepôt de données. L'entrepôt de données de première génération est conçu pour stocker des quantités massives de données structurées, qui sont principalement consommées par les analystes de données.

Cependant, le lac de données de deuxième génération est utilisé pour stocker d'énormes quantités de données non structurées, qui sont principalement utilisées pour créer des modèles d'apprentissage automatique prédictifs. Dans cette définition, Zhamak a expliqué un entrepôt de données de troisième génération (connu sous le nom de Kappa), qui concerne les flux de données en temps réel en adoptant des services cloud. Cependant, cela ne résout pas l'écart entre les systèmes de première et de deuxième génération du point de vue de l'utilisation.

Afin d'assurer la synchronisation des données, de nombreuses entreprises développent et maintiennent un pipeline de données ETL exhaustif. En conséquence, cela crée un besoin d'ingénieurs de données extrêmement spécialisés qui ont la compétence pour maintenir le fonctionnement de tels systèmes.

Un point critique que Zhamak a mis en avant concernait le problème selon lequel la transformation des données ne peut pas être câblée dans les données par les ingénieurs. Au contraire, cela devrait être quelque chose comme un filtre qui est appliqué à un ensemble commun de données, qui est disponible pour tous les utilisateurs.

Ainsi, au lieu de développer un pipeline complexe de données ETL, les données sont stockées dans leur forme d'origine. La propriété des données est prise par une équipe composée d'experts du domaine. L'architecture de la nouvelle approche de maillage de données expliquée par Zhamak comprend les caractéristiques suivantes :

Propriété basée sur le domaine des données et de l'architecture décentralisées
Les données en tant que produit
La plate-forme d'infrastructure de données est proposée dans un modèle en libre-service
Gouvernance informatique fédérée

En un mot, l'approche de maillage de données identifie que seuls les lacs de données possèdent la flexibilité et l'évolutivité nécessaires pour gérer les besoins d'analyse.

Data Mesh vs Data Fabric

Comme nous l'avons observé ci-dessus, il existe de nombreuses similitudes entre le maillage de données et l'approche de la structure de données. Cependant, examinons également les différences entre les deux.

Selon Noel Yuhanna, analyste chez Forrester, la principale différence entre l'approche du maillage de données et l'approche de la structure de données réside dans la manière dont les API sont traitées.

Un maillage de données est principalement basé sur une API pour les développeurs, contrairement à la structure de données. La structure de données est essentiellement l'opposé du maillage de données, où les développeurs écriront du code pour les API à l'interface de l'application. Contrairement au maillage de données, la structure de données est une méthode sans code ou à faible code, où l'intégration de l'API est exécutée dans la structure sans l'exploiter directement.

Selon un autre analyste, James Serra, qui travaille avec Ernst & Young en tant qu'architecte de données volumineuses et d'entreposage de données, la différence entre le maillage de données et la structure de données réside dans le type d'utilisateurs qui y accèdent.

Le maillage de données et la structure de données fournissent tous deux un accès aux données sur différentes technologies et plates-formes. La différence est que la structure de données est plus centrée sur la technologie, tandis que le maillage de données dépend davantage du changement organisationnel.

Selon un analyste du groupe Eckerson, David Wells, une entreprise peut utiliser ensemble un maillage de données, une structure de données et même un hub de données. Wells ajoute en outre que ces deux concepts sont et ne s'excluent pas techniquement mutuellement.

Les produits Data Fabric sont principalement développés sur des modèles d'utilisation de production, tandis que les produits Data Mesh sont conçus par domaines d'activité. La découverte des métadonnées est continue et l'analyse est un processus continu dans le cas de Data Fabric, tandis que dans le cas du maillage de données, les métadonnées fonctionnent dans un domaine métier localisé et sont de nature statique.

Du point de vue du déploiement, la structure de données exploite l'infrastructure actuelle disponible, tandis que le maillage de données extrapole l'infrastructure actuelle avec de nouveaux déploiements dans les domaines commerciaux.

Le maillage de données et les tissus de données trouvent tous deux leur place dans la salle de conférence du Big Data. Quand il s'agit de trouver le bon cadre d'architecture ou la bonne architecture.

Autres ressources utiles :

5 étapes pour créer une culture axée sur les données | TechFunnel

Qu'est-ce que l'analyse du Big Data ? Guide pour débutants | Entonnoir technologique

Pourquoi une culture axée sur les données est essentielle à la transformation numérique

Exploration de données - Tout ce que vous devez savoir | Entonnoir technologique