データファブリックとデータメッシュ: 違い

公開: 2022-03-14

組織の現在および将来の要件に最適なデータアーキテクチャを開発するために、企業が利用できる多くのオプションがあります。ソフトウェアのソフトウェア構造のパッケージ化により、これらのオプションは組織が選択するのに十分です. 企業は適切なオプションを選択するのが難しいと感じるかもしれません。そのため、最近、組織がデータファブリックやデータメッシュを含むデータ管理の過程で企業を支援できるパターンが明らかになりました。

最初の例では、データファブリックとデータベースの両方が、概念的な観点からの類似性を反映しています。メッシュは通常布でできており、要件に応じてさまざまな形状にすることができます。これにより、IT 部門はこれらのメッシュを他のシステムの上に配置できます。これらのシステムは継続的にデータ処理を行っています。

これら 2 つのアプローチがどれほど似ていても、いくつかの明確な違いがあり、これら 2 つのアプローチをさらに掘り下げて初めて気付くことができます。

データファブリックとは

データファブリックの最初の定義が登場したのは 200 年代半ばで、Forrester のアナリストである Noel Yuhanna が最初に定義した人物です。概念の観点から見ると、データファブリックは、さまざまなデータツールのセットを接続するためのメタデータベースの方法です。目的は、まとまりのある方法だけでなく、セルフサービスモデルで運用することによって、一部のビッグデータプロジェクトの主な問題点に対処することです。データアクセス、検出、変換、統合、ガバナンス、系統、セキュリティなど、データファブリックソリューションが提供するさまざまな機能があります。

データファブリックの概念は急速に発展しています。これは、成長する異種環境でデータにアクセスして管理するプロセスを簡素化するのに役立ちます。異種環境は、トランザクションおよび運用データストア、データレイク、データウェアハウス、およびレイクハウスで構成されます。データのサイロ化を進める組織が増えており、クラウドコンピューティングにより、データの多様化に関する問題はますます大きくなっています。

単一のデータファブリックをデータリポジトリの上に配置することで、企業は、データサイエンティスト、データエンジニア、データアナリストなどのダウンストリームデータコンシューマーを含む、さまざまなデータソースに対する統合管理の形式でそれをパッケージ化できます。ただし、注意すべきことは、実際のストレージではなく、データ管理が一元化されていることです。実際のストレージは分散モデルのままです。 Informatica や Talend など、データファブリックに上記の機能を提供するベンダーは多数あります。

データメッシュとは

データメッシュは、異種環境でのデータ管理の課題など、データファブリックが解決する問題のほとんどを解決します。ただし、この問題を処理および解決する方法は、データメッシュアプローチでは異なります。データファブリックは、分散データを格納するデータストレージの上に仮想管理の単一レイヤーを作成しますが、データメッシュアプローチは、いくつかのガバナンスプロトコルがあるにもかかわらず、要件に従ってデータを管理するチームの分散グループに関するものです。

データメッシュの概念は、Zhamak Dehgani によって定義されました。 Zhamak は、Thoughtworks North America の技術インキュベーション担当ディレクターです。データレイクとデータウェアハウスの間の非互換性を解決するためのデータメッシュアプローチを管理する基本原則。第 1 世代のデータウェアハウスは、主にデータアナリストが使用する大量の構造化データを格納するように設計されています。

ただし、第 2 世代のデータレイクは、予測機械学習モデルの構築に主に使用される膨大な量の非構造化データの保存に使用されます。その定義の中で、Zhamak は、クラウドサービスを採用することによるリアルタイムのデータフローがすべてである、第 3 世代のデータウェアハウス (Kappa として知られる) について説明しています。しかし、これでは第1世代システムと第2世代システムの使用上のギャップは解消されません。

データの同期を確保する過程で、多くの企業は徹底的な ETL データパイプラインを開発および維持しています。その結果、このようなシステムの動作を維持する能力を持つ非常に専門的なデータエンジニアが必要になります。

Zhamak 氏が提唱した重要な点は、エンジニアがデータ変換をデータに組み込むことができないという問題についてでした。それどころか、すべてのユーザーが利用できる共通のデータセットに適用されるフィルターのようなものであるべきです。

そのため、ETL データの複雑なパイプラインを開発する代わりに、データは元の形式で保存されます。データの所有権は、ドメインの専門家で構成されるチームによって取得されます。 Zhamak によって説明された新しいデータメッシュアプローチのアーキテクチャは、次の特徴で構成されています。

分散型データとアーキテクチャのドメインベースの所有権
製品としてのデータ
セルフサービスモデルで提供されるデータインフラストラクチャプラットフォーム
連合計算ガバナンス

簡単に言えば、データメッシュアプローチは、データレイクだけが分析要件を処理するための柔軟性とスケーラビリティを備えていることを示しています。

データメッシュ vs データファブリック

上記で見たように、データメッシュとデータファブリックのアプローチにはかなりの類似点があります。ただし、両者の違いについても見てみましょう。

Forrester のアナリストである Noel Yuhanna 氏によると、データメッシュとデータファブリックのアプローチの主な違いは、API の処理方法です。

データメッシュは主に開発者向けの API ベースですが、データファブリックはそうではありません。データファブリックは基本的にデータメッシュの反対であり、開発者は API のコードをアプリケーションのインターフェイスに記述します。データメッシュとは異なり、データファブリックはノーコードまたはローコードの方法であり、API 統合はファブリックを直接活用せずにファブリックで実行されます。

Ernst & Young でビッグデータおよびデータウェアハウジングアーキテクトとして働いている別のアナリスト、James Serra 氏によると、データメッシュとデータファブリックの違いは、それらにアクセスするユーザーのタイプにあります。

データメッシュとデータファブリックはどちらも、さまざまなテクノロジとプラットフォームにわたるデータへのアクセスを提供します。違いは、データファブリックはテクノロジー中心であるのに対し、データメッシュは組織の変化により依存することです。

Eckerson Group のアナリストである David Wells によると、企業はデータメッシュ、データファブリック、さらにはデータハブを一緒に使用できます。 Wells はさらに、これら 2 つは概念であり、技術的に相互に排他的ではないと付け加えています。

データファブリック製品は主に本番環境の使用パターンに基づいて開発されますが、データメッシュ製品はビジネスドメインによって設計されます。メタデータの発見は継続的であり、データファブリックの場合は分析が進行中のプロセスですが、データメッシュの場合、メタデータはローカライズされたビジネスドメインで動作し、本質的に静的です。

展開の観点から見ると、データファブリックは利用可能な現在のインフラストラクチャ機能を利用しますが、データメッシュは現在のインフラストラクチャをビジネスドメインへの新しい展開で推定します。

データメッシュとデータファブリックはどちらも、ビッグデータの会議室で使用されます。 適切なアーキテクチャフレームワークまたはアーキテクチャを見つける場合。

その他の役立つリソース:

データ駆動型の文化を構築するための 5 つのステップ | テックファネル

ビッグデータ分析とは? 初心者向けガイド | テクファネル

データ主導の文化がデジタルトランスフォーメーションに不可欠な理由

データマイニング – 知っておくべきことすべて | テクファネル

データ ファブリックとデータ メッシュ: 違い

データ ファブリックとは

データメッシュとは

データ メッシュ vs データ ファブリック

その他の役立つリソース:

データファブリックとデータメッシュ: 違い

データファブリックとは

データメッシュ vs データファブリック