Data Fabric vs. Data Mesh: Der Unterschied

Veröffentlicht: 2022-03-14

Bei der Suche nach der Entwicklung der besten Datenarchitektur für die gegenwärtigen und zukünftigen Anforderungen eines Unternehmens gibt es viele Optionen, die Unternehmen wählen können. Aufgrund der Paketierung der Softwarestruktur der Software stehen diese Optionen Unternehmen zur Auswahl. Unternehmen finden es möglicherweise schwierig, die richtige Option auszuwählen, weshalb in letzter Zeit Muster aus dem Schlund aufgetaucht sind, die es Organisationen ermöglichen, sie auf dem Weg des Datenmanagements zu unterstützen, das Datenstrukturen und Datennetze umfasst.

In erster Linie spiegeln sowohl die Datenstruktur als auch die Datenbank vom konzeptionellen Standpunkt aus Ähnlichkeiten wider. Maschen werden normalerweise aus Stoffen hergestellt und können je nach Anforderung unterschiedliche Formen erhalten. Auf diese Weise können IT-Abteilungen diese Meshes auf anderen Systemen platzieren, die ständig Daten verarbeiten.

Unabhängig davon, wie ähnlich diese beiden Ansätze aussehen, gibt es einige deutliche Unterschiede, die nur auffallen können, wenn wir uns weiter mit diesen beiden Ansätzen befassen.

Was ist Data Fabric

Die erste Definition von Data Fabric kam Mitte der 200er Jahre, als Noel Yuhanna, ein Analyst von Forrester, die erste Person war, die dies tat. Aus konzeptioneller Sicht ist Data Fabric eine metadatenbasierte Möglichkeit, eine Vielzahl von Datenwerkzeugen zu verbinden. Ziel ist es, die Hauptschmerzpunkte in einigen der Big-Data-Projekte anzugehen, und zwar nicht nur auf kohärente Weise, sondern auch in einem Self-Service-Modell. Es gibt verschiedene Funktionen, die Data-Fabric-Lösungen bieten, wie z. B. Datenzugriff, Erkennung, Transformation, Integration, Governance, Herkunft und Sicherheit.

Beim Konzept der Data Fabric hat sich ein erhebliches Tempo entwickelt. Dies trägt dazu bei, den Prozess des Zugriffs und der Verwaltung von Daten in einer wachsenden heterogenen Umgebung zu vereinfachen. Eine heterogene Umgebung umfasst Transaktions- und Betriebsdatenspeicher, Data Lakes, Data Warehouses und Lake Houses. Wir sehen eine wachsende Zahl von Organisationen, die Datensilos aufbauen, und durch Cloud Computing wird das Problem der Diversifizierung von Daten immer größer.

Wenn eine einzelne Datenstruktur über den Datenspeichern platziert wird, kann ein Unternehmen sie in Form einer einheitlichen Verwaltung für die verschiedenen Datenquellen packen, einschließlich nachgelagerter Datenkonsumenten wie Datenwissenschaftler, Dateningenieure und Datenanalysten. Zu beachten ist jedoch, dass die Datenverwaltung vereinheitlicht wird und nicht die eigentliche Speicherung. Der eigentliche Speicher verbleibt weiterhin in einem verteilten Modell. Es gibt viele Anbieter wie Informatica und Talend, die Data Fabric mit den oben beschriebenen Funktionen bereitstellen.

Was ist Data Mesh

Während Data Mesh die meisten Probleme löst, die eine Data Fabric löst, wie z. B. die Herausforderung, Daten in einer heterogenen Umgebung zu verwalten. Die Methode zur Handhabung und Lösung dieses Problems ist jedoch bei einem Data-Mesh-Ansatz anders. Während Data Fabric eine einzelne Schicht virtueller Verwaltung über dem Datenspeicher erstellt, der verteilte Daten enthält, geht es beim Data-Mesh-Ansatz eher um eine verteilte Gruppe von Teams, die die Daten trotz einiger Governance-Protokolle gemäß den Anforderungen verwalten.

Das Konzept des Data Mesh wurde von Zhamak Dehgani definiert. Zhamak ist Director of Tech Incubation bei Thoughtworks North America. Das grundlegende Prinzip, das den Data-Mesh-Ansatz bei der Lösung der Inkompatibilität zwischen Data Lake und Data Warehouse bestimmt. Das Data Warehouse der ersten Generation ist darauf ausgelegt, riesige Mengen strukturierter Daten zu speichern, die hauptsächlich von Datenanalysten verwendet werden.

Der Data Lake der zweiten Generation wird jedoch zum Speichern enormer Mengen unstrukturierter Daten verwendet, die hauptsächlich zum Erstellen von Vorhersagemodellen für maschinelles Lernen verwendet werden. In dieser Definition hat Zhamak über ein Data Warehouse der dritten Generation (bekannt als Kappa) gesprochen, bei dem es um Echtzeit-Datenflüsse durch die Einführung von Cloud-Diensten geht. Damit wird jedoch die Lücke zwischen Systemen der ersten und zweiten Generation aus Nutzungssicht nicht geschlossen.

Um die Synchronisierung von Daten sicherzustellen, entwickeln und pflegen viele Unternehmen eine umfassende ETL-Datenpipeline. Infolgedessen werden extrem spezialisierte Dateningenieure benötigt, die über die Kompetenz verfügen, das Funktionieren solcher Systeme aufrechtzuerhalten.

Ein kritischer Punkt, den Zhamak vorbrachte, war das Problem, dass die Datentransformation von Ingenieuren nicht fest in die Daten integriert werden kann. Im Gegenteil, es sollte so etwas wie ein Filter sein, der auf einen gemeinsamen Datensatz angewendet wird, der allen Benutzern zur Verfügung steht.

Anstatt also eine komplexe Pipeline von ETL-Daten zu entwickeln, werden die Daten in ihrer ursprünglichen Form gespeichert. Das Eigentum an den Daten wird von einem Team übernommen, das sich aus Domänenexperten zusammensetzt. Die Architektur des von Zhamak erläuterten neuen Data-Mesh-Ansatzes besteht aus den folgenden Merkmalen:

Domänenbasiertes Eigentum an dezentralen Daten und Architekturen
Daten als Produkt
Die Dateninfrastrukturplattform wird in einem Self-Service-Modell angeboten
Föderierte Computational Governance

Kurz gesagt, der Data-Mesh-Ansatz zeigt, dass nur Data Lakes die Flexibilität und Skalierbarkeit besitzen, um die Analyseanforderungen zu erfüllen.

Data Mesh vs. Data Fabric

Wie wir oben festgestellt haben, gibt es einige Ähnlichkeiten zwischen dem Data-Mesh- und dem Data-Fabric-Ansatz. Lassen Sie uns jedoch auch die Unterschiede zwischen den beiden untersuchen.

Laut Noel Yuhanna, einem Analysten von Forrester, besteht der Hauptunterschied zwischen dem Data-Mesh- und dem Data-Fabric-Ansatz in der Art und Weise, wie die APIs verarbeitet werden.

Ein Data Mesh ist für Entwickler in erster Linie API-basiert, Data Fabric hingegen nicht. Data Fabric ist im Wesentlichen das Gegenteil von Data Mesh, bei dem die Entwickler Code für die APIs zur Schnittstelle der Anwendung schreiben. Anders als Data Mesh ist Data Fabric eine No-Code- oder Low-Code-Methode, bei der die API-Integration in der Fabric ausgeführt wird, ohne sie direkt zu nutzen.

Laut einem anderen Analysten, James Serra, der mit Ernst & Young als Big Data- und Data Warehousing-Architekt zusammenarbeitet, liegt der Unterschied zwischen Data Mesh und Data Fabric in der Art der Benutzer, die darauf zugreifen.

Data Mesh und Data Fabric bieten beide Zugriff auf Daten über verschiedene Technologien und Plattformen hinweg. Der Unterschied besteht darin, dass Data Fabric stärker technologiezentriert ist, während Data Mesh stärker von organisatorischen Veränderungen abhängig ist.

Laut einem Analysten der Eckerson Group, David Wells, kann ein Unternehmen Data Mesh, Data Fabric und sogar einen Data Hub gemeinsam nutzen. Wells fügt weiter hinzu, dass diese beiden Konzepte sind und sich technisch nicht gegenseitig ausschließen.

Data-Fabric- Produkte werden hauptsächlich anhand von Produktionsnutzungsmustern entwickelt, während Data-Mesh-Produkte von Geschäftsdomänen entworfen werden. Die Erkennung von Metadaten ist kontinuierlich, und die Analyse ist im Fall von Data Fabric ein fortlaufender Prozess, während im Fall von Data Mesh die Metadaten in einer lokalisierten Geschäftsdomäne operieren und statischer Natur sind.

Vom Standpunkt der Bereitstellung aus nutzt Data Fabric die derzeit verfügbare Infrastruktureinrichtung, während Data Mesh die aktuelle Infrastruktur mit neuen Bereitstellungen in Geschäftsdomänen extrapoliert.

Sowohl Data Mesh als auch Data Fabrics finden ihren Platz im Boardroom von Big Data. Wenn es darum geht, das richtige Architektur-Framework oder die richtige Architektur zu finden.

Andere nützliche Ressourcen:

5 Schritte zur Schaffung einer datengesteuerten Kultur | TechFunnel

Was ist Big-Data-Analyse? Leitfaden für Anfänger | Techfunnel

Warum eine datengesteuerte Kultur entscheidend für die digitale Transformation ist

Data Mining – Alles, was Sie wissen müssen | Techfunnel