Data Fabric против Data Mesh: разница

Опубликовано: 2022-03-14

В поисках наилучшей архитектуры данных для текущих и будущих требований организации существует множество вариантов, на которые могут пойти предприятия. Из-за упаковки структуры программного обеспечения у организаций есть из чего выбирать. Предприятиям может быть трудно выбрать правильный вариант, поэтому в последнее время из пасти появились шаблоны, позволяющие организациям помочь им в управлении данными, включая структуры данных и сетку данных.

Во-первых, и структура данных, и база данных отражают сходство с концептуальной точки зрения. Сетки обычно изготавливаются из тканей, и им можно придать различную форму в соответствии с требованиями. Это позволяет ИТ-отделам размещать эти сетки поверх других систем, которые постоянно находятся в процессе обработки данных.

Какими бы похожими ни выглядели оба этих подхода, есть некоторые явные различия, которые можно заметить, только если мы углубимся в эти два подхода.

Что такое фабрика данных

Первое определение структуры данных появилось в середине 200-х годов, когда Ноэль Юханна, аналитик из Forrester, был первым, кто это сделал. С концептуальной точки зрения фабрика данных — это основанный на метаданных способ подключения разнообразного набора инструментов обработки данных. Цель состоит в том, чтобы устранить основные болевые точки в некоторых проектах по работе с большими данными не только комплексно, но и в рамках модели самообслуживания. Существуют различные возможности, предоставляемые решениями Data Fabric, такие как доступ к данным, обнаружение, преобразование, интеграция, управление, происхождение и безопасность.

Существует значительный темп развития концепции структуры данных. Это помогает упростить процесс доступа к данным и управления ими в растущей гетерогенной среде. Гетерогенная среда включает в себя хранилища транзакционных и операционных данных, озера данных, хранилища данных и дома-озера. Мы наблюдаем растущее число организаций, которые разрабатывают хранилища данных, и из-за облачных вычислений проблема, связанная с диверсификацией данных, становится все больше и больше.

Имея единую фабрику данных, размещенную поверх репозиториев данных, предприятие может упаковать ее в форме унифицированного управления для различных источников данных, включая нижестоящих потребителей данных, таких как ученые, инженеры данных и аналитики данных. Однако следует отметить, что унифицировано управление данными, а не фактическое хранилище. Фактическое хранилище по-прежнему остается в распределенной модели. Многие поставщики, такие как Informatica и Talend, предоставляют фабрику данных с описанными выше возможностями.

Что такое сетка данных

В то время как сетка данных решает большинство проблем, которые решает фабрика данных, например, проблема управления данными в гетерогенной среде. Однако метод обработки и решения этой проблемы отличается в подходе сетки данных. В то время как структура данных создает единый уровень виртуального управления поверх хранилища данных, в котором хранятся распределенные данные, подход с сеткой данных больше касается распределенной группы команд, которые будут управлять данными в соответствии с требованиями, несмотря на наличие некоторых протоколов управления.

Концепция сетки данных была определена Жамаком Дехгани. Жамак — директор технологического инкубатора Thoughtworks North America. Фундаментальный принцип, лежащий в основе подхода сетки данных при устранении несовместимости между озером данных и хранилищем данных. Хранилище данных первого поколения предназначено для хранения больших объемов структурированных данных, которые в основном используются аналитиками данных.

Однако озеро данных второго поколения используется для хранения огромных объемов неструктурированных данных, которые преимущественно используются для построения прогнозных моделей машинного обучения. В этом определении Жамак объяснил о хранилище данных третьего поколения (известном как Kappa), которое полностью связано с потоками данных в реальном времени за счет внедрения облачных сервисов. Однако это не устраняет разрыв между системами первого и второго поколения с точки зрения использования.

В процессе обеспечения синхронизации данных многие предприятия разрабатывают и поддерживают полный конвейер данных ETL. В результате это создает потребность в чрезвычайно специализированных инженерах по данным, которые обладают компетенцией для поддержания работы таких систем.

Критический момент, который выдвинул Жамак, касался проблемы, заключающейся в том, что преобразование данных не может быть встроено в данные инженерами. Наоборот, это должно быть что-то вроде фильтра, применяемого к общему набору данных, который доступен всем пользователям.

Таким образом, вместо разработки сложного конвейера данных ETL данные хранятся в исходной форме. Право собственности на данные берет на себя команда, состоящая из экспертов в предметной области. Архитектура нового подхода к сетке данных, объясненная Жамаком, состоит из следующих характеристик:

Владение децентрализованными данными и архитектурой на основе домена
Данные как продукт
Платформа инфраструктуры данных предлагается в модели самообслуживания
Федеративное управление вычислениями

В двух словах, подход с сеткой данных определяет, что только озера данных обладают гибкостью и масштабируемостью для удовлетворения требований аналитики.

Сетка данных против структуры данных

Как мы заметили выше, между сеткой данных и подходом к фабрике данных есть много общего. Однако давайте также посмотрим на различия между ними.

По словам Ноэля Юханна, аналитика из Forrester, основное различие между сеткой данных и подходом к фабрике данных заключается в способе обработки API.

Сетка данных в первую очередь основана на API для разработчиков, а структура данных — нет. Структура данных, по сути, противоположна сетке данных, где разработчики будут писать код для API для интерфейса приложения. В отличие от сетки данных, фабрика данных — это метод без кода или с малым количеством кода, при котором интеграция API выполняется в фабрике без ее непосредственного использования.

По словам другого аналитика, Джеймса Серра, который работает в Ernst & Young в качестве архитектора больших данных и хранилищ данных, разница между сеткой данных и структурой данных заключается в типе пользователей, которые к ним обращаются.

Сетка данных и структура данных обеспечивают доступ к данным с помощью различных технологий и платформ. Разница в том, что структура данных больше ориентирована на технологии, а сетка данных больше зависит от организационных изменений.

По словам аналитика Eckerson Group Дэвида Уэллса, предприятие может одновременно использовать сетку данных, фабрику данных и даже концентратор данных. Далее Уэллс добавляет, что эти два понятия являются технически не исключающими друг друга.

Продукты Data Fabric в основном разрабатываются на основе шаблонов производственного использования, тогда как продукты Data Mesh разрабатываются с учетом бизнес-доменов. Обнаружение метаданных является непрерывным, и анализ представляет собой непрерывный процесс в случае Data Fabric, в то время как в случае сетки данных метаданные работают в локализованной бизнес-области и являются статическими по своей природе.

С точки зрения развертывания фабрика данных использует текущую доступную инфраструктуру, тогда как сетка данных экстраполирует текущую инфраструктуру с новыми развертываниями в бизнес-доменах.

И сетка данных, и фабрика данных находят свое место в зале заседаний совета директоров, занимающемся большими данными. Когда дело доходит до поиска правильного архитектурного каркаса или архитектуры.

Другие полезные ресурсы:

5 шагов для создания культуры, основанной на данных | TechFunnel

Что такое аналитика больших данных? Руководство для начинающих | Техническая воронка

Почему культура, основанная на данных, имеет решающее значение для цифровой трансформации

Интеллектуальный анализ данных — все, что вам нужно знать | Техническая воронка