Data Fabric vs. Data Mesh: a diferença

Publicados: 2022-03-14

Na busca pelo desenvolvimento da melhor arquitetura de dados para os requisitos presentes e futuros de uma organização, existem muitas opções que as empresas podem escolher. Devido ao empacotamento da estrutura de software do software, essas opções são muitas para as organizações escolherem. As empresas podem achar difícil selecionar a opção certa, e é por isso que ultimamente tem havido o surgimento de padrões da boca, permitindo que as organizações as ajudem na jornada de gerenciamento de dados, que inclui malhas de dados e malhas de dados.

Em primeira instância, tanto a malha de dados quanto o banco de dados refletem a semelhança do ponto de vista conceitual. As malhas geralmente são feitas de tecidos e podem receber formas diferentes conforme a necessidade. Isso permite que os departamentos de TI coloquem essas malhas em cima de outros sistemas, que estão continuamente no processo de processamento de dados.

Não importa o quão semelhantes essas duas abordagens pareçam, existem algumas diferenças distintas, que podem ser perceptíveis apenas se nos aprofundarmos nessas duas abordagens.

O que é Data Fabric

A primeira definição de tecido de dados veio em meados dos anos 200, onde Noel Yuhanna, analista da Forrester, foi o primeiro indivíduo a fazê-lo. Do ponto de vista do conceito, a malha de dados é uma maneira baseada em metadados de conectar um conjunto variado de ferramentas de dados. O objetivo é abordar os principais pontos problemáticos em alguns dos projetos de big data, não apenas de forma coesa, mas também operando em modelo de autoatendimento. Existem vários recursos que as soluções de malha de dados oferecem, como acesso a dados, descoberta, transformação, integração, governança, linhagem e segurança.

Há um ritmo significativo que se acumulou no conceito de malha de dados. Isso está ajudando a simplificar o processo de acesso e gerenciamento de dados em um ambiente cada vez mais heterogêneo. Um ambiente heterogêneo compreende armazenamentos de dados transacionais e operacionais, data lakes, data warehouses e lake houses. Estamos vendo um número crescente de organizações que estão desenvolvendo silos de dados e, devido à computação em nuvem, o problema relacionado à diversificação de dados está ficando cada vez maior.

Tendo uma única malha de dados colocada sobre os repositórios de dados, uma empresa pode empacotá-la na forma de gerenciamento unificado para as diferentes fontes de dados, que incluem consumidores de dados downstream, como cientistas de dados, engenheiros de dados e analistas de dados. No entanto, o que deve ser observado é que o gerenciamento de dados é unificado e não o armazenamento real. O armazenamento real ainda permanece em um modelo distribuído. Existem muitos fornecedores, como Informatica e Talend, que fornecem malha de dados com os recursos descritos acima.

O que é malha de dados

Embora a malha de dados resolva a maioria dos problemas que uma malha de dados resolve, como o desafio de gerenciar dados em um ambiente heterogêneo. No entanto, o método de lidar e resolver esse problema é diferente em uma abordagem de malha de dados. Embora a malha de dados crie uma única camada de gerenciamento virtual em cima do armazenamento de dados que hospeda dados distribuídos, a abordagem de malha de dados é mais sobre um grupo distribuído de equipes que gerenciarão os dados conforme o requisito, apesar de ter alguns protocolos de governança.

O conceito de malha de dados foi definido por Zhamak Dehgani. Zhamak é o diretor de incubação de tecnologia da Thoughtworks North America. O princípio fundamental que rege a abordagem de malha de dados para resolver a incompatibilidade entre o data lake e o data warehouse. O data warehouse de primeira geração foi projetado para armazenar grandes quantidades de dados estruturados, que são consumidos principalmente por analistas de dados.

No entanto, o data lake de segunda geração é usado para armazenar enormes quantidades de dados não estruturados, que são predominantemente usados ​​para construir modelos de aprendizado de máquina preditivos. Nessa definição, Zhamak explicou sobre um data warehouse de terceira geração (conhecido como Kappa), que trata de fluxos de dados em tempo real adotando serviços em nuvem. No entanto, isso não resolve a lacuna entre os sistemas de primeira e segunda geração do ponto de vista de uso.

No processo de garantir a sincronização de dados, muitas empresas desenvolvem e mantêm um pipeline de dados ETL exaustivo. Como resultado, isso cria a necessidade de engenheiros de dados extremamente especializados que tenham competência para manter o funcionamento de tais sistemas.

Um ponto crítico que Zhamak apresentou foi em torno do problema de que a transformação de dados não pode ser conectada aos dados pelos engenheiros. Pelo contrário, deve ser algo como um filtro aplicado a um conjunto comum de dados, disponível para todos os usuários.

Portanto, em vez de desenvolver um pipeline complexo de dados ETL, os dados são armazenados em sua forma original. A propriedade dos dados é assumida por uma equipe composta por especialistas do domínio. A arquitetura da nova abordagem de malha de dados explicada por Zhamak consiste nas seguintes características:

  • Propriedade baseada em domínio de dados e arquitetura descentralizados
  • Dados como um produto
  • Plataforma de infraestrutura de dados é oferecida em modelo de autoatendimento
  • Governança computacional federada

Em poucas palavras, a abordagem de malha de dados identifica que apenas os data lakes possuem flexibilidade e escalabilidade para lidar com os requisitos de análise.

Malha de dados versus malha de dados

Como observamos acima, existem algumas semelhanças entre a malha de dados e a abordagem de malha de dados. No entanto, vamos também olhar para as diferenças entre os dois.

De acordo com Noel Yuhanna, analista da Forrester, a principal diferença entre a abordagem de malha de dados e malha de dados é a forma como as APIs são processadas.

Uma malha de dados é principalmente baseada em API para desenvolvedores, enquanto a malha de dados não é. A malha de dados é essencialmente o oposto da malha de dados, onde os desenvolvedores escreverão código para as APIs na interface do aplicativo. Ao contrário da malha de dados, a malha de dados é um método sem código ou de baixo código, em que a integração da API é executada na malha sem aproveitá-la diretamente.

De acordo com outro analista, James Serra, que trabalha com a Ernst & Young como arquiteto de big data e data warehousing, a diferença entre malha de dados e malha de dados está no tipo de usuário que os acessa.

A malha de dados e a malha de dados fornecem acesso a dados em diferentes tecnologias e plataformas. A diferença é que a malha de dados é mais centrada na tecnologia, enquanto a malha de dados é mais dependente da mudança organizacional.

De acordo com um analista do Eckerson Group, David Wells, uma empresa pode usar malha de dados, malha de dados e até mesmo um hub de dados juntos. Wells acrescenta ainda que esses dois são conceitos e não são tecnicamente mutuamente exclusivos.

Os produtos de malha de dados são desenvolvidos principalmente em padrões de uso de produção, enquanto os produtos de malha de dados são projetados por domínios de negócios. A descoberta de metadados é contínua e a análise é um processo contínuo no caso do Data Fabric, enquanto no caso do data mesh os metadados operam em um domínio de negócios localizado e são de natureza estática.

Do ponto de vista de implantação, a malha de dados aproveita o recurso de infraestrutura atual disponível, enquanto a malha de dados extrapola a infraestrutura atual com novas implantações em domínios de negócios.

Tanto a malha de dados quanto as malhas de dados encontram um lugar na sala de reuniões do big data. Quando se trata de encontrar a estrutura ou arquitetura certa.

Outros recursos úteis:

5 etapas para criar uma cultura orientada a dados | TechFunnel

O que é Big Data Analytics? Guia para Iniciantes | Techfunnel

Por que uma cultura orientada a dados é fundamental para a transformação digital

Mineração de dados – tudo o que você precisa saber | Techfunnel