Data Fabric e Data Mesh: la differenza

Pubblicato: 2022-03-14

Nella ricerca dello sviluppo della migliore architettura di dati per i requisiti presenti e futuri di un'organizzazione, ci sono molte opzioni che le aziende possono scegliere. A causa della confezione della struttura software del software, queste opzioni sono molte tra le quali le organizzazioni possono scegliere. Le aziende potrebbero avere difficoltà a selezionare l'opzione giusta, motivo per cui ultimamente sono emersi modelli dalle buche, consentendo alle organizzazioni di aiutarle nel percorso di gestione dei dati, che include data fabric e data mesh.

In primo luogo, sia il data fabric che il database riflettono la somiglianza da un punto di vista concettuale. Le maglie sono solitamente realizzate con tessuti e possono essere date forme diverse secondo il requisito. Ciò consente ai reparti IT di posizionare queste mesh su altri sistemi, che sono continuamente in fase di elaborazione dei dati.

Non importa quanto siano simili entrambi gli approcci, ci sono alcune differenze distinte, che possono essere notate solo se approfondiamo ulteriormente questi due approcci.

Che cos'è Data Fabric

La prima definizione di data fabric è arrivata a metà degli anni 200, quando Noel Yuhanna, un analista di Forrester, è stato il primo individuo a farlo. Da un punto di vista concettuale, il data fabric è un modo basato sui metadati per collegare un insieme variegato di strumenti di dati. L'obiettivo è affrontare i principali punti deboli di alcuni dei progetti di big data, non solo in modo coeso ma anche operando in un modello self-service. Esistono varie funzionalità offerte dalle soluzioni di data fabric, come l'accesso ai dati, l'individuazione, la trasformazione, l'integrazione, la governance, il lignaggio e la sicurezza.

C'è un ritmo significativo che si è accumulato nel concetto di data fabric. Ciò contribuisce a semplificare il processo di accesso e gestione dei dati in un ambiente sempre più eterogeneo. Un ambiente eterogeneo comprende archivi di dati transazionali e operativi, data lake, data warehouse e lake house. Stiamo assistendo a un numero crescente di organizzazioni che stanno sviluppando silos di dati e, grazie al cloud computing, il problema relativo alla diversificazione dei dati sta diventando sempre più grande.

Avendo un unico data fabric posizionato sopra i repository di dati, un'azienda può impacchettarlo sotto forma di gestione unificata per le diverse fonti di dati, che include consumatori di dati a valle come data scientist, ingegneri di dati e analisti di dati. Tuttavia, ciò che va notato è che la gestione dei dati è unificata e non l'effettiva archiviazione. L'archiviazione effettiva rimane ancora in un modello distribuito. Esistono molti fornitori come Informatica e Talend che forniscono data fabric con le funzionalità sopra descritte.

Cos'è la rete di dati

Sebbene il data mesh risolva la maggior parte dei problemi di un data fabric, come la sfida della gestione dei dati in un ambiente eterogeneo. Tuttavia, il metodo per gestire e risolvere questo problema è diverso in un approccio a mesh di dati. Sebbene il data fabric crei un unico livello di gestione virtuale oltre all'archiviazione dei dati che ospita i dati distribuiti, l'approccio della mesh di dati riguarda più un gruppo distribuito di team che gestirà i dati secondo il requisito nonostante disponga di alcuni protocolli di governance.

Il concetto di data mesh è stato definito da Zhamak Dehgani. Zhamak è il direttore dell'incubazione tecnologica presso Thoughtworks North America. Il principio fondamentale che governa l'approccio data mesh nel risolvere l'incompatibilità tra data lake e data warehouse. Il data warehouse di prima generazione è progettato per archiviare enormi quantità di dati strutturati, utilizzati principalmente dagli analisti di dati.

Tuttavia, il data lake di seconda generazione viene utilizzato per archiviare enormi quantità di dati non strutturati, utilizzati principalmente per la creazione di modelli di apprendimento automatico predittivo. In quella definizione Zhamak ha spiegato di un data warehouse di terza generazione (noto come Kappa), che riguarda tutti i flussi di dati in tempo reale adottando servizi cloud. Tuttavia, ciò non risolve il divario tra i sistemi di prima e seconda generazione dal punto di vista dell'utilizzo.

Nel processo per garantire la sincronizzazione dei dati, molte aziende sviluppano e mantengono una pipeline di dati ETL esaustiva. Di conseguenza, ciò crea la necessità di ingegneri di dati estremamente specializzati che abbiano la competenza per mantenere il funzionamento di tali sistemi.

Un punto critico avanzato da Zhamak riguardava il problema che la trasformazione dei dati non può essere cablata nei dati dagli ingegneri. Al contrario, dovrebbe essere qualcosa come un filtro applicato a un insieme comune di dati, disponibile per tutti gli utenti.

Quindi, invece di sviluppare una complessa pipeline di dati ETL, i dati vengono archiviati nella loro forma originale. La proprietà dei dati è assunta da un team composto da esperti di dominio. L'architettura del nuovo approccio data mesh spiegato da Zhamak, consiste nelle seguenti caratteristiche:

  • Proprietà basata sul dominio di dati e architettura decentralizzati
  • I dati come prodotto
  • La piattaforma dell'infrastruttura dati è offerta in un modello self-service
  • Governance computazionale federata

In poche parole, l'approccio della mesh di dati identifica che solo i data lake possiedono la flessibilità e la scalabilità per gestire i requisiti di analisi.

Data Mesh vs Data Fabric

Come abbiamo osservato sopra, ci sono alcune somiglianze tra il data mesh e l'approccio del data fabric. Tuttavia, esaminiamo anche le differenze tra i due.

Secondo Noel Yuhanna, analista di Forrester, la principale differenza tra l'approccio data mesh e data fabric è il modo in cui vengono elaborate le API.

Un Data Mesh è principalmente basato su API per gli sviluppatori, mentre il data fabric non lo è. Il data fabric è essenzialmente l'opposto del data mesh, in cui gli sviluppatori scriveranno il codice per le API nell'interfaccia dell'applicazione. A differenza del data mesh, il data fabric è un metodo no-code o low-code, in cui l'integrazione dell'API viene eseguita nel fabric senza sfruttarla direttamente.

Secondo un altro analista, James Serra, che lavora con Ernst & Young come architetto di big data e data warehousing, la differenza tra data mesh e data fabric sta nel tipo di utenti che vi accedono.

Data mesh e data fabric forniscono entrambi l'accesso ai dati attraverso diverse tecnologie e piattaforme. La differenza è che il data fabric è più incentrato sulla tecnologia mentre il data mesh è più dipendente dal cambiamento organizzativo.

Secondo un analista di Eckerson Group, David Wells, un'azienda può utilizzare insieme data mesh, data fabric e persino un data hub. Wells aggiunge inoltre che questi due sono concetti e non si escludono tecnicamente a vicenda.

I prodotti Data Fabric sono sviluppati principalmente in base a modelli di utilizzo della produzione, mentre i prodotti Data Mesh sono progettati per domini aziendali. La scoperta dei metadati è continua e l'analisi è un processo continuo nel caso di Data Fabric, mentre nel caso di data mesh i metadati operano in un dominio aziendale localizzato ed sono di natura statica.

Dal punto di vista dell'implementazione, il data fabric sfrutta l'attuale struttura dell'infrastruttura disponibile, mentre il data mesh estrapola l'attuale infrastruttura con le nuove implementazioni nei domini aziendali.

Sia il data mesh che i data fabric trovano posto nella sala riunioni dei big data. Quando si tratta di trovare la giusta struttura o architettura dell'architettura.

Altre risorse utili:

5 passaggi per creare una cultura basata sui dati | TechFunnel

Che cos'è l'analisi dei big data? Guida per principianti | Techfunnel

Perché una cultura basata sui dati è fondamentale per la trasformazione digitale

Data mining: tutto ciò che devi sapere | Techfunnel