データ ファブリックとデータ メッシュ: 違い

公開: 2022-03-14

組織の現在および将来の要件に最適なデータ アーキテクチャを開発するために、企業が利用できる多くのオプションがあります。 ソフトウェアのソフトウェア構造のパッケージ化により、これらのオプションは組織が選択するのに十分です. 企業は適切なオプションを選択するのが難しいと感じるかもしれません。そのため、最近、組織がデータ ファブリックやデータ メッシュを含むデータ管理の過程で企業を支援できるパターンが明らかになりました。

最初の例では、データ ファブリックとデータベースの両方が、概念的な観点からの類似性を反映しています。 メッシュは通常布でできており、要件に応じてさまざまな形状にすることができます。 これにより、IT 部門はこれらのメッシュを他のシステムの上に配置できます。これらのシステムは継続的にデータ処理を行っています。

これら 2 つのアプローチがどれほど似ていても、いくつかの明確な違いがあり、これら 2 つのアプローチをさらに掘り下げて初めて気付くことができます。

データ ファブリックとは

データ ファブリックの最初の定義が登場したのは 200 年代半ばで、Forrester のアナリストである Noel Yuhanna が最初に定義した人物です。 概念の観点から見ると、データ ファブリックは、さまざまなデータ ツールのセットを接続するためのメタデータ ベースの方法です。 目的は、まとまりのある方法だけでなく、セルフサービス モデルで運用することによって、一部のビッグ データ プロジェクトの主な問題点に対処することです。 データ アクセス、検出、変換、統合、ガバナンス、系統、セキュリティなど、データ ファブリック ソリューションが提供するさまざまな機能があります。

データ ファブリックの概念は急速に発展しています。 これは、成長する異種環境でデータにアクセスして管理するプロセスを簡素化するのに役立ちます。 異種環境は、トランザクションおよび運用データ ストア、データ レイク、データ ウェアハウス、およびレイク ハウスで構成されます。 データのサイロ化を進める組織が増えており、クラウドコンピューティングにより、データの多様化に関する問題はますます大きくなっています。

単一のデータ ファブリックをデータ リポジトリの上に配置することで、企業は、データ サイエンティスト、データ エンジニア、データ アナリストなどのダウンストリーム データ コンシューマーを含む、さまざまなデータ ソースに対する統合管理の形式でそれをパッケージ化できます。 ただし、注意すべきことは、実際のストレージではなく、データ管理が一元化されていることです。 実際のストレージは分散モデルのままです。 Informatica や Talend など、データ ファブリックに上記の機能を提供するベンダーは多数あります。

データメッシュとは

データ メッシュは、異種環境でのデータ管理の課題など、データ ファブリックが解決する問題のほとんどを解決します。 ただし、この問題を処理および解決する方法は、データ メッシュ アプローチでは異なります。 データ ファブリックは、分散データを格納するデータ ストレージの上に仮想管理の単一レイヤーを作成しますが、データ メッシュ アプローチは、いくつかのガバナンス プロトコルがあるにもかかわらず、要件に従ってデータを管理するチームの分散グループに関するものです。

データ メッシュの概念は、Zhamak Dehgani によって定義されました。 Zhamak は、Thoughtworks North America の技術インキュベーション担当ディレクターです。 データ レイクとデータ ウェアハウスの間の非互換性を解決するためのデータ メッシュ アプローチを管理する基本原則。 第 1 世代のデータ ウェアハウスは、主にデータ アナリストが使用する大量の構造化データを格納するように設計されています。

ただし、第 2 世代のデータ レイクは、予測機械学習モデルの構築に主に使用される膨大な量の非構造化データの保存に使用されます。 その定義の中で、Zhamak は、クラウド サービスを採用することによるリアルタイムのデータ フローがすべてである、第 3 世代のデータ ウェアハウス (Kappa として知られる) について説明しています。 しかし、これでは第1世代システムと第2世代システムの使用上のギャップは解消されません。

データの同期を確保する過程で、多くの企業は徹底的な ETL データ パイプラインを開発および維持しています。 その結果、このようなシステムの動作を維持する能力を持つ非常に専門的なデータ エンジニアが必要になります。

Zhamak 氏が提唱した重要な点は、エンジニアがデータ変換をデータに組み込むことができないという問題についてでした。 それどころか、すべてのユーザーが利用できる共通のデータ セットに適用されるフィルターのようなものであるべきです。

そのため、ETL データの複雑なパイプラインを開発する代わりに、データは元の形式で保存されます。 データの所有権は、ドメインの専門家で構成されるチームによって取得されます。 Zhamak によって説明された新しいデータ メッシュ アプローチのアーキテクチャは、次の特徴で構成されています。

  • 分散型データとアーキテクチャのドメインベースの所有権
  • 製品としてのデータ
  • セルフサービス モデルで提供されるデータ インフラストラクチャ プラットフォーム
  • 連合計算ガバナンス

簡単に言えば、データ メッシュ アプローチは、データ レイクだけが分析要件を処理するための柔軟性とスケーラビリティを備えていることを示しています。

データ メッシュ vs データ ファブリック

上記で見たように、データ メッシュとデータ ファブリックのアプローチにはかなりの類似点があります。 ただし、両者の違いについても見てみましょう。

Forrester のアナリストである Noel Yuhanna 氏によると、データ メッシュとデータ ファブリックのアプローチの主な違いは、API の処理方法です。

データ メッシュは主に開発者向けの API ベースですが、データ ファブリックはそうではありません。 データ ファブリックは基本的にデータ メッシュの反対であり、開発者は API のコードをアプリケーションのインターフェイスに記述します。 データ メッシュとは異なり、データ ファブリックはノーコードまたはローコードの方法であり、API 統合はファブリックを直接活用せずにファブリックで実行されます。

Ernst & Young でビッグ データおよびデータ ウェアハウジング アーキテクトとして働いている別のアナリスト、James Serra 氏によると、データ メッシュとデータ ファブリックの違いは、それらにアクセスするユーザーのタイプにあります。

データ メッシュとデータ ファブリックはどちらも、さまざまなテクノロジとプラットフォームにわたるデータへのアクセスを提供します。 違いは、データ ファブリックはテクノロジー中心であるのに対し、データ メッシュは組織の変化により依存することです。

Eckerson Group のアナリストである David Wells によると、企業はデータ メッシュ、データ ファブリック、さらにはデータ ハブを一緒に使用できます。 Wells はさらに、これら 2 つは概念であり、技術的に相互に排他的ではないと付け加えています。

データ ファブリック製品は主に本番環境の使用パターンに基づいて開発されますが、データ メッシュ製品はビジネス ドメインによって設計されます。 メタデータの発見は継続的であり、データ ファブリックの場合は分析が進行中のプロセスですが、データ メッシュの場合、メタデータはローカライズされたビジネス ドメインで動作し、本質的に静的です。

展開の観点から見ると、データ ファブリックは利用可能な現在のインフラストラクチャ機能を利用しますが、データ メッシュは現在のインフラストラクチャをビジネス ドメインへの新しい展開で推定します。

データ メッシュとデータ ファブリックはどちらも、ビッグ データの会議室で使用されます。 適切なアーキテクチャ フレームワークまたはアーキテクチャを見つける場合。

その他の役立つリソース:

データ駆動型の文化を構築するための 5 つのステップ | テックファネル

ビッグデータ分析とは? 初心者向けガイド | テクファネル

データ主導の文化がデジタルトランスフォーメーションに不可欠な理由

データ マイニング – 知っておくべきことすべて | テクファネル