Что такое дата-хаб? - Полное руководство

Опубликовано: 2021-08-20

Экосистема вокруг данных — это огромная вселенная. Она настолько разнообразна, что любой организации для того, чтобы разобраться в имеющейся информации, потребуется внедрение систем для управления, мониторинга, анализа и интерпретации данных. Сегодня для предприятий данные являются основным топливом, которое стимулирует принятие всех решений внутри организации. Однако даже при такой критичности мы видим, что данные хранятся в изолированных системах, что затрудняет анализ данных организацией. Часть этих данных хранится в хранилищах данных или концентраторах данных, а часть теряется в так называемых озерах данных.

В этой статье
  • Определить концентратор данных
  • Как это работает?
  • Почему дата-хаб?
  • Типы, которые нужно знать
  • Разница между Data Hub и Data Lake
  • Выгоды
  • Примеры технологий Data Hub

Что такое дата-хаб?

Концентратор данных — это современная система хранения данных, которая помогает организациям консолидировать и хранить данные в масштабе всего предприятия. Это также позволяет компаниям передавать данные в другие системы, такие как системы бизнес-аналитики или механизмы искусственного интеллекта, для дальнейшего анализа. Те предприятия, которые планируют работать с разрозненными данными, должны понимать, что наличие данных полностью упростит их процесс управления данными и упростит поток данных по всему предприятию.

Существует множество технологий, таких как хранилище данных, наука о данных и разработка данных, которые завершаются архитектурой концентратора данных. Это больше, чем технология, ее можно рассматривать как методологию, обеспечивающую эффективность управления данными и способы их хранения, чтобы помочь организациям в дальнейшей обработке.

Как работает Data Hub?

После его внедрения каждый пользователь, партнер по доставке или оператор должны подписать соглашение об использовании, которое дает им разрешение на безопасную передачу данных в репозиторий концентратора данных. Это необходимо для обеспечения конфиденциальности данных, к которым имеют доступ пользователи. Передача данных происходит с помощью безопасной и признанной методологии интеграции.

Собранные данные доступны централизованно и стандартизированы для обеспечения единообразия. Впоследствии будет проведена серия аналитики собранных данных для предоставления значимой информации по отделам, операционным подразделениям и другим секторам. Наконец, данные возвращаются в соответствующие системы для дальнейшего использования. Это объясняется на упрощенной диаграмме, как указано ниже.

Источник диаграммы: Dataversity(1)

Почему дата-хаб?

Основная причина, по которой любой организации нужен концентратор данных, заключается в том, чтобы соединить все точки соприкосновения с данными и сделать данные доступными в центральном расположении, что технически называется интеграцией данных . На базовом уровне он предоставляет возможности подписки. Однако, когда вы реализуете его эффективно, существует множество других факторов, которые делают его основой для предприятий.

  • Безопасность

    Большинство компаний применяют меры безопасности, определяя контроль доступа, определяя, кто и к каким данным имеет доступ. Например, компании не хотят предоставлять доступ к данным по финансам и персоналу определенному набору сотрудников, или, возможно, данные о клиентах должны быть ограничены только отделами продаж и финансов. Его наличие гарантирует, что иерархия вашей организации четко определена, точки доступа к данным хорошо классифицированы, а элементы управления введены в действие.

  • Экономически эффективным

    Представьте, что у вас есть несколько систем, и вы каким-то образом интегрировали эти системы, но это не бесшовно. Вы уже вложили средства в эти отдельные системы и вложили дополнительные средства в интеграцию этих независимых систем. Однако, поскольку это не было полным доказательством, все еще остается проблема отсутствия видимости. Со временем эти инвестиции становятся огромными операционными расходами. Если вы реализуете его, вы избавитесь от нежелательных точек взаимодействия с интеграцией и получите единую двухточечную интеграцию, что сделает проект в целом более рентабельным.

  • Гибкий

    Внедрение концентратора данных делает всю структуру гибкой. Это ускоряет интеграцию других бизнес-систем, а поток данных становится быстрым и беспрепятственным. В его отсутствие также будет сценарий, когда системы попытаются получить или вызвать данные из других систем. Затем идет создание точек соприкосновения и интерфейсов интеграции, добавляя недели и недели времени на реализацию. Его наличие гарантирует, что все данные доступны в центральном расположении благодаря набору API, политик доступа и четко определенному процессу подписки.

Типы концентраторов данных

В этом разделе мы рассмотрим различные типы и типы конечных точек взаимодействия.

  1. Концентратор основных данных: в этом типе конечными точками обычно являются операционные системы. Данные создаются либо в концентраторе, либо в конечной точке
  2. Концентратор данных приложений: и здесь конечной точкой данных является операционная система. Разница заключается в создании данных, поскольку в этом типе данные создаются в концентраторе, а не в конечной точке.
  3. Центр данных интеграции: в этом типе создание данных происходит на конечных точках. Эти конечные точки могут быть различных типов, таких как операционные системы, аналитические инструменты или механизмы или любой внешний объект.
  4. Концентратор справочных данных: в этом типе данные создаются и хранятся либо в концентраторе, либо в конце, в зависимости от бизнес-сценария. Здесь также конечные точки аналогичны концентраторам данных интеграции, таким как операционные системы, аналитические инструменты или механизмы или любой внешний объект.
  5. Концентратор аналитических данных. Концентраторы аналитических данных хранят или создают данные только на конечных точках, которые являются операционными системами.

Концентратор данных и озеро данных

Если мы посмотрим на хранилища данных, озера данных и концентраторы данных, люди говорят, что они взаимозаменяемы. Однако в чем-то они отличаются и обычно дополняют друг друга. Давайте посмотрим на сравнение концентратора данных и озера данных.

Концентратор данных Озеро данных
Основное использование связано с операционными процессами. Озеро данных в основном используется для аналитики, машинного обучения и отчетности.
Обычно это структурированный набор данных. Данные вроде могут быть структурированными и неструктурированными.
Строгий процесс управления для обеспечения соблюдения правил. Отсутствует строгий контроль за соблюдением правил доступа к озерам данных.
Качество данных, управляемых в концентраторе данных, чрезвычайно высокое. Качество данных, хранящихся и управляемых в озере данных, имеет среднее или низкое качество.
Обеспечивает интеграцию в режиме реального времени с двунаправленным потоком данных из/в другие системы. Поток данных является полностью однонаправленным, что обычно представляет собой ETL или ELT в пакетном режиме.

Помимо вышеупомянутых различий, концентратор данных в первую очередь рассматривается как движущая сила бизнес-процессов предприятия, в то время как озера данных в основном сосредоточены на процессах, связанных с машинным обучением.

Преимущества дата-хаба

К настоящему времени мы получили представление о том, что это такое и как оно работает. Мы также знаем, насколько важна эта платформа для всей организации. Вот несколько важных преимуществ внедрения концентратора данных на предприятии.

Основным преимуществом его наличия является возможность обмена данными. Это делается путем соединения создателей или источников данных и пользователей или потребителей данных. Эти точки взаимодействия также называются конечными точками, и они взаимодействуют с концентратором данных, отправляя в него данные или извлекая данные. Концентратор — это соединение, которое дает видимость потока данных.

Еще одним преимуществом является то, что он обеспечивает бесшовное подключение различных бизнес-систем в режиме реального времени. Это гарантирует, что серьезная проблема, связанная с обменом данными, будет решена, особенно если обмен данными требует более быстрого времени отклика.

Подводя итог, преимущества можно разделить на четыре группы.

  • Консолидация данных, хранящихся в разрозненных хранилищах, в единую систему
  • Гибкая и высокопроизводительная система для управления рабочим процессом
  • Улучшение видимости и упрощение доступа к данным в организации
  • Единая система с единым интерфейсом

Примеры технологий Data Hub

Как упоминалось ранее, концентратор данных — это не просто технология, а скорее платформа и подход, принятый организациями для централизованного просмотра данных по всем направлениям. Тем не менее, мы видим много продуктов, которые продаются на рынке. Вот несколько примеров, которые продаются на рынке как технологические продукты.

  • Google Реклама
  • Клаудера, предприятие
  • Совокупность Интернета вещей

Кроме того, мы также видим SAP в качестве еще одного примера. Приведенная ниже диаграмма дает представление о структуре концентратора данных и взаимодействии концентратора данных SAP с другими бизнес-системами и технологиями.

Источник: SAP(2)

Последние мысли

Сегодня, поскольку организации имеют несколько операционных подразделений, разбросанных по разным географическим точкам, для руководства важно централизовать данные, которые помогут им извлекать по мере необходимости и принимать обоснованные решения. Наличие концентратора данных — это больше платформа, чем просто технологическая структура.