Data Fabric vs Data Mesh: różnica

Opublikowany: 2022-03-14

W poszukiwaniu najlepszej architektury danych dla obecnych i przyszłych wymagań organizacji istnieje wiele opcji, które przedsiębiorstwa mogą wybrać. Ze względu na pakiet struktury oprogramowania oprogramowania, te opcje są do wyboru dla organizacji. Przedsiębiorstwom może być trudno wybrać odpowiednią opcję, dlatego ostatnio pojawiły się wzorce, które pozwalają organizacjom pomóc im w podróży związanej z zarządzaniem danymi, które obejmuje tkaniny danych i siatkę danych.

Po pierwsze, zarówno struktura danych, jak i baza danych odzwierciedlają podobieństwo z koncepcyjnego punktu widzenia. Siatki są zwykle wykonane z tkanin i mogą mieć różne kształty zgodnie z wymaganiami. Dzięki temu działy IT mogą umieszczać te siatki na innych systemach, które nieustannie przechodzą proces przetwarzania danych.

Bez względu na to, jak podobne wyglądają oba te podejścia, istnieją pewne wyraźne różnice, które można zauważyć tylko wtedy, gdy zagłębimy się w te dwa podejścia.

Co to jest Data Fabric

Pierwsza definicja struktury danych pojawiła się w połowie XX wieku, kiedy Noel Yuhanna, analityk z firmy Forrester, był pierwszą osobą, która to zrobiła. Z punktu widzenia koncepcji, struktura danych to oparty na metadanych sposób łączenia zróżnicowanego zestawu narzędzi do przetwarzania danych. Celem jest zajęcie się głównymi problemami w niektórych projektach big data, nie tylko w sposób spójny, ale także działając w modelu samoobsługowym. Istnieją różne możliwości oferowane przez rozwiązania Data Fabric, takie jak dostęp do danych, wykrywanie, transformacja, integracja, nadzór, pochodzenie i zabezpieczenia.

Koncepcja struktury danych nabrała znacznego tempa. Pomaga to uprościć proces uzyskiwania dostępu do danych i zarządzania nimi w rosnącym, heterogenicznym środowisku. Heterogeniczne środowisko obejmuje transakcyjne i operacyjne magazyny danych, jeziora danych, hurtownie danych i domy nad jeziorem. Obserwujemy rosnącą liczbę organizacji, które rozwijają silosy danych, a dzięki cloud computing problem związany z dywersyfikacją danych staje się coraz większy.

Mając pojedynczą strukturę danych umieszczoną nad repozytoriami danych, przedsiębiorstwo może umieścić ją w formie ujednoliconego zarządzania dla różnych źródeł danych, które obejmują dalszych odbiorców danych, takich jak naukowcy danych, inżynierowie danych i analitycy danych. Należy jednak zauważyć, że zarządzanie danymi jest ujednolicone, a nie faktyczne przechowywanie. Rzeczywista pamięć masowa nadal pozostaje w modelu rozproszonym. Istnieje wielu dostawców, takich jak Informatica i Talend, które zapewniają strukturę danych z opisanymi powyżej możliwościami.

Co to jest siatka danych

Podczas gdy siatka danych rozwiązuje większość problemów związanych z siecią danych, takich jak zarządzanie danymi w heterogenicznym środowisku. Jednak sposób obsługi i rozwiązywania tego problemu jest inny w podejściu siatki danych. Podczas gdy sieć danych tworzy pojedynczą warstwę wirtualnego zarządzania poza magazynem danych, w którym przechowywane są dane rozproszone, podejście siatki danych dotyczy bardziej rozproszonej grupy zespołów, które będą zarządzać danymi zgodnie z wymaganiami, pomimo posiadania pewnych protokołów zarządzania.

Koncepcję siatki danych zdefiniował Zhamak Dehgani. Zhamak jest dyrektorem inkubacji technologii w Thoughtworks North America. Podstawowa zasada, która rządzi podejściem do siatki danych w rozwiązywaniu niezgodności między jeziorem danych a hurtownią danych. Hurtownia danych pierwszej generacji jest przeznaczona do przechowywania ogromnych ilości uporządkowanych danych, które są wykorzystywane głównie przez analityków danych.

Jednak jezioro danych drugiej generacji służy do przechowywania ogromnych ilości nieustrukturyzowanych danych, które są wykorzystywane głównie do tworzenia predykcyjnych modeli uczenia maszynowego. W tej definicji Zhamak wyjaśnił o hurtowni danych trzeciej generacji (znanej jako Kappa), która polega na przepływie danych w czasie rzeczywistym poprzez zastosowanie usług w chmurze. Nie rozwiązuje to jednak luki między systemami pierwszej i drugiej generacji z punktu widzenia użytkowania.

W procesie zapewniania synchronizacji danych wiele przedsiębiorstw opracowuje i utrzymuje wyczerpujący potok danych ETL. W rezultacie stwarza to zapotrzebowanie na niezwykle wyspecjalizowanych inżynierów danych, którzy mają kompetencje do utrzymania działania takich systemów.

Punkt krytyczny, który przedstawił Zhamak, dotyczył problemu polegającego na tym, że inżynierowie nie mogą na stałe połączyć transformacji danych z danymi. Wręcz przeciwnie, powinno to być coś w rodzaju filtra stosowanego do wspólnego zestawu danych, który jest dostępny dla wszystkich użytkowników.

Dlatego zamiast opracowywać złożony potok danych ETL, dane są przechowywane w ich oryginalnej formie. Własność danych przejmuje zespół składający się z ekspertów dziedzinowych. Architektura nowego podejścia do siatki danych wyjaśniona przez Zhamaka składa się z następujących cech:

Oparta na domenie własność zdecentralizowanych danych i architektury
Dane jako produkt
Platforma infrastruktury danych oferowana jest w modelu samoobsługowym
Sfederowane zarządzanie obliczeniowe

W skrócie, podejście oparte na siatce danych wskazuje, że tylko jeziora danych mają elastyczność i skalowalność, aby sprostać wymaganiom analitycznym.

Siatka danych a sieć danych

Jak zauważyliśmy powyżej, istnieje wiele podobieństw między siatką danych a podejściem do sieci danych. Przyjrzyjmy się jednak również różnicom między nimi.

Według Noela Yuhanny, analityka z firmy Forrester, główną różnicą między podejściem do siatki danych a podejściem do struktury danych jest sposób przetwarzania interfejsów API.

Data Mesh jest głównie oparta na interfejsie API dla programistów, podczas gdy sieć danych nie jest. Tkanina danych jest zasadniczo przeciwieństwem siatki danych, w której programiści będą pisać kod dla interfejsów API do interfejsu aplikacji. W przeciwieństwie do siatki danych, struktura danych jest metodą bez kodu lub z niską zawartością kodu, w której integracja API jest wykonywana w sieci bez bezpośredniego jej wykorzystania.

Według innego analityka, Jamesa Serra, który współpracuje z Ernst & Young jako architekt big data i hurtowni danych, różnica między siatką danych a strukturą danych polega na typie użytkowników, którzy mają do nich dostęp.

Zarówno siatka danych, jak i struktura danych zapewniają dostęp do danych w różnych technologiach i platformach. Różnica polega na tym, że struktura danych jest bardziej skoncentrowana na technologii, podczas gdy siatka danych jest bardziej zależna od zmian organizacyjnych.

Według analityka Eckerson Group, Davida Wellsa, przedsiębiorstwo może wspólnie korzystać z siatki danych, sieci danych, a nawet koncentratora danych. Wells dodaje ponadto, że te dwa pojęcia są pojęciami i technicznie nie wykluczają się wzajemnie.

Produkty Data Fabric są opracowywane głównie na podstawie wzorców wykorzystania produkcji, podczas gdy produkty z siatki danych są projektowane przez domeny biznesowe. Odkrywanie metadanych ma charakter ciągły, a analiza jest procesem ciągłym w przypadku Data Fabric, natomiast w przypadku siatki danych metadane działają w zlokalizowanej domenie biznesowej i mają charakter statyczny.

Z punktu widzenia wdrożenia, Data Fabric wykorzystuje obecną dostępną infrastrukturę, podczas gdy siatka danych ekstrapoluje obecną infrastrukturę z nowymi wdrożeniami w domenach biznesowych.

Zarówno data mesh, jak i data fabrics znajdują swoje miejsce w sali konferencyjnej big data. Jeśli chodzi o znalezienie odpowiedniej architektury lub architektury.

Inne przydatne zasoby:

5 kroków do stworzenia kultury opartej na danych | TechFunnel

Co to jest analiza Big Data? Przewodnik dla początkujących | Techfunnel

Dlaczego kultura oparta na danych ma kluczowe znaczenie dla transformacji cyfrowej

Eksploracja danych – wszystko, co musisz wiedzieć | Techfunnel