Data Hub คืออะไร? – คู่มือฉบับสมบูรณ์

เผยแพร่แล้ว: 2021-08-20

ระบบนิเวศรอบ ๆ ข้อมูลเป็นจักรวาลที่กว้างใหญ่ มีความหลากหลายมากจนสำหรับองค์กรใดๆ ที่จะเข้าใจถึงสิ่งที่มีอยู่จะต้องมีการนำระบบไปใช้เพื่อจัดการ ติดตาม วิเคราะห์ และตีความข้อมูล สำหรับองค์กรในปัจจุบัน ข้อมูลเป็นเชื้อเพลิงหลักที่ขับเคลื่อนการตัดสินใจทั้งหมดภายในองค์กร อย่างไรก็ตาม แม้จะอยู่ในภาวะวิกฤตินี้ เรายังเห็นว่าข้อมูลถูกจัดเก็บไว้ในระบบที่แยกออกมาต่างหาก ทำให้ยากสำหรับองค์กรในการวิเคราะห์ข้อมูล ข้อมูลบางส่วนนี้ถูกเก็บไว้ในคลังข้อมูลหรือฮับข้อมูล และบางส่วนสูญหายไปในสิ่งที่เรียกว่าดาต้าเลค

ในบทความนี้
  • กำหนด Data Hub
  • มันทำงานอย่างไร?
  • ทำไมต้องดาต้าฮับ?
  • ประเภทที่ต้องรู้
  • ความแตกต่างระหว่าง Data Hub กับ Data Lake
  • ประโยชน์
  • ตัวอย่างสำหรับ Data Hub Technologies

ดาต้าฮับคืออะไร?

ศูนย์กลางข้อมูลคือระบบจัดเก็บข้อมูลที่ทันสมัยที่ช่วยให้องค์กรสามารถรวมและจัดเก็บข้อมูลทั่วทั้งองค์กรได้ นอกจากนี้ยังช่วยให้บริษัทต่างๆ สามารถส่งข้อมูลไปยังระบบอื่นๆ เช่น ระบบข่าวกรองธุรกิจหรือเครื่องมือ AI เพื่อการวิเคราะห์เพิ่มเติม องค์กรที่ต้องการดำเนินการข้อมูลในไซโลควรเข้าใจว่าการมีข้อมูลจะทำให้กระบวนการจัดการข้อมูลมีความคล่องตัวขึ้นอย่างสมบูรณ์ และทำให้การไหลของข้อมูลทั่วทั้งองค์กรเป็นไปอย่างราบรื่น

มีเทคโนโลยีหลายอย่าง เช่น คลังข้อมูล วิทยาศาสตร์ข้อมูล และวิศวกรรมข้อมูลที่นำไปสู่สถาปัตยกรรมศูนย์กลางข้อมูล มากกว่าเทคโนโลยี ถือได้ว่าเป็นวิธีการเพื่อให้มั่นใจถึงประสิทธิภาพในการจัดการข้อมูลและวิธีจัดเก็บข้อมูล เพื่อช่วยให้องค์กรประมวลผลต่อไป

Data Hub ทำงานอย่างไร

เมื่อนำไปใช้แล้ว ผู้ใช้แต่ละรายหรือพันธมิตรการจัดส่งหรือผู้ปฏิบัติงานจะต้องดำเนินการข้อตกลงการใช้งานที่อนุญาตให้พวกเขาถ่ายโอนข้อมูลอย่างปลอดภัยไปยังที่เก็บข้อมูลฮับข้อมูล ทั้งนี้เพื่อรักษาความลับของข้อมูลที่ผู้ใช้สามารถเข้าถึงได้ การถ่ายโอนข้อมูลเกิดขึ้นผ่านวิธีการรวมระบบที่ปลอดภัยและเป็นที่ยอมรับ

ข้อมูลที่รวบรวมได้จัดทำขึ้นจากส่วนกลางและเป็นมาตรฐานสำหรับความสม่ำเสมอ ต่อจากนั้น จะมีชุดของการวิเคราะห์ที่ทำงานบนข้อมูลที่เก็บรวบรวมเพื่อให้ข้อมูลที่มีความหมาย ข้ามแผนก หน่วยปฏิบัติการ และภาคส่วนอื่นๆ สุดท้าย ข้อมูลจะถูกส่งกลับไปยังระบบที่เกี่ยวข้องเพื่อการบริโภคต่อไป สิ่งนี้อธิบายไว้ในแผนภาพอย่างง่ายตามที่กล่าวไว้ด้านล่าง

ที่มาของแผนภาพ: Dataversity(1)

ทำไมต้องดาต้าฮับ?

เหตุผลหลักที่องค์กรใดๆ ต้องการฮับข้อมูลคือการเชื่อมต่อจุดสัมผัสข้อมูลทั้งหมด และทำให้ข้อมูลพร้อมใช้งานที่ตำแหน่งศูนย์กลาง ซึ่งในทางเทคนิคเรียกว่า การรวมข้อมูล ในระดับพื้นฐาน มีความสามารถในการสมัครสมาชิก อย่างไรก็ตาม เมื่อคุณนำไปใช้อย่างมีประสิทธิภาพ มีปัจจัยอื่นๆ อีกมาก ซึ่งทำให้องค์กรเป็นไปในกรอบการทำงาน

  • ความปลอดภัย

    บริษัทส่วนใหญ่บังคับใช้มาตรการรักษาความปลอดภัยโดยกำหนดการควบคุมการเข้าถึงว่าใครสามารถเข้าถึงข้อมูลประเภทใดได้บ้าง ตัวอย่างเช่น บริษัทต่างๆ ไม่ต้องการให้สิทธิ์เข้าถึงข้อมูล Finance และ HR แก่พนักงานบางกลุ่ม หรือข้อมูลลูกค้าควรจำกัดเฉพาะทีมขายและการเงินเท่านั้น การมีไว้จะช่วยให้มั่นใจได้ว่าลำดับชั้นขององค์กรของคุณมีการกำหนดไว้อย่างดี จุดเชื่อมต่อข้อมูลได้รับการจัดประเภทอย่างดี และมีการวางการควบคุมไว้

  • คุ้มค่า

    ลองนึกภาพคุณมีหลายระบบและคุณได้รวมระบบเหล่านี้เข้าด้วยกัน แต่ก็ไม่ได้ราบรื่น มีการลงทุนที่คุณทำเพื่อให้ระบบเหล่านี้แต่ละระบบ และคุณได้ลงทุนเพิ่มเติมในการรวมระบบอิสระเหล่านี้ อย่างไรก็ตาม เนื่องจากยังไม่มีหลักฐานครบถ้วน จึงยังมีความท้าทายที่จะมองไม่เห็น ในช่วงเวลาหนึ่ง การลงทุนนี้จะกลายเป็นค่าใช้จ่ายในการดำเนินงานจำนวนมาก หากคุณใช้งาน คุณจะกำจัดจุดสัมผัสในการผสานรวมที่ไม่ต้องการและมีการรวมแบบจุดต่อจุดเดียว ทำให้โครงการโดยรวมมีประสิทธิภาพด้านต้นทุนมากขึ้น

  • เปรียว

    การใช้ฮับข้อมูลทำให้กรอบงานทั้งหมดคล่องตัว ช่วยเร่งการรวมระบบธุรกิจอื่น ๆ และการไหลของข้อมูลเป็นไปอย่างรวดเร็วและราบรื่น ในกรณีที่ไม่มี It จะมีสถานการณ์ที่ระบบจะพยายามดึงหรือเรียกข้อมูลจากระบบอื่น จากนั้นจะมีการสร้างจุดสัมผัสและอินเทอร์เฟซการผสานรวม โดยเพิ่มเวลาใช้งานเป็นสัปดาห์และสัปดาห์ การทำให้แน่ใจว่าข้อมูลทั้งหมดมีอยู่ในตำแหน่งศูนย์กลางผ่านชุดของ API นโยบายการเข้าถึง และกระบวนการสมัครรับข้อมูลที่กำหนดไว้อย่างดี

ประเภทของดาต้าฮับ

ในส่วนนี้ เราจะมาดูประเภทต่าง ๆ และจุดสัมผัสปลายทางประเภทต่าง ๆ มีอะไรบ้าง

  1. Master Data Hub: ในประเภทนี้ จุดปลายมักจะเป็นระบบปฏิบัติการ ข้อมูลถูกเขียนขึ้นในฮับหรือที่จุดสิ้นสุด
  2. Application Data Hub: จุดปลายข้อมูลเป็นระบบปฏิบัติการอีกครั้ง ความแตกต่างอยู่ในการเขียนข้อมูล เนื่องจากในประเภทนี้ ข้อมูลถูกเขียนในฮับ ไม่ใช่ที่ปลายทาง
  3. Integration Data Hub: ในประเภทนี้ การสร้างข้อมูลจะเกิดขึ้นที่ปลายทาง ปลายทางเหล่านี้สามารถมีได้หลายประเภท เช่น ระบบปฏิบัติการ เครื่องมือหรือเอ็นจินในการวิเคราะห์ หรือเอนทิตีภายนอกใดๆ
  4. ฮับข้อมูลอ้างอิง: ในประเภทนี้ ข้อมูลจะถูกสร้างขึ้นและจัดเก็บในฮับหรือในตอนท้าย ขึ้นอยู่กับสถานการณ์ทางธุรกิจ นอกจากนี้ จุดปลายยังคล้ายกับฮับข้อมูลการรวม เช่น ระบบปฏิบัติการ เครื่องมือหรือเครื่องมือวิเคราะห์ หรือเอนทิตีภายนอกใดๆ
  5. Analytical Data Hub: ฮับข้อมูลวิเคราะห์จัดเก็บหรือสร้างข้อมูลบนจุดปลายเท่านั้น ซึ่งเป็นระบบปฏิบัติการ

Data Hub กับ Data Lake

ถ้าเราดูที่คลังข้อมูล ดาต้าเลค และดาต้าฮับ ผู้คนบอกว่ามันใช้แทนกันได้ อย่างไรก็ตาม มีความแตกต่างกันในบางแง่มุม และมักจะเสริมซึ่งกันและกัน ให้เราดูการเปรียบเทียบระหว่างดาต้าฮับและดาต้าเลค

ดาต้าฮับ ดาต้าเลค
การใช้ประโยชน์หลักอยู่รอบกระบวนการปฏิบัติงาน Data Lake ใช้สำหรับการวิเคราะห์ แมชชีนเลิร์นนิง และการรายงานเป็นหลัก
โดยปกติแล้วจะเป็นชุดข้อมูลที่มีโครงสร้าง ข้อมูลเช่นสามารถมีโครงสร้างและไม่มีโครงสร้าง
กระบวนการกำกับดูแลที่เข้มงวดเพื่อบังคับใช้กฎ ไม่มีการกำกับดูแลที่เข้มงวดในการบังคับใช้กฎสำหรับการเข้าถึง data lake
คุณภาพของข้อมูลที่จัดการในดาต้าฮับนั้นสูงมาก คุณภาพของข้อมูลที่จัดเก็บและจัดการใน Data Lake มีคุณภาพปานกลางหรือต่ำ
ให้การรวมแบบเรียลไทม์กับการไหลของข้อมูลจาก/ไปยังระบบอื่นๆ แบบสองทิศทาง การไหลของข้อมูลเป็นไปในทิศทางเดียวโดยสิ้นเชิง ซึ่งมักจะเป็น ETL หรือ ELT เป็นชุดๆ

เหนือและเหนือความแตกต่างที่กล่าวมาข้างต้น ศูนย์กลางข้อมูลถือเป็นตัวขับเคลื่อนกระบวนการทางธุรกิจขององค์กรเป็นหลัก ในขณะที่ Data Lake มุ่งเน้นไปที่กระบวนการที่เกี่ยวข้องกับการเรียนรู้ของเครื่องเป็นหลัก

ประโยชน์ของดาต้าฮับ

ตอนนี้เราเข้าใจแล้วว่ามันคืออะไรและทำงานอย่างไร เรายังทราบถึงความสำคัญของการมีแพลตฟอร์มนี้ทั่วทั้งองค์กร ต่อไปนี้คือประโยชน์ที่สำคัญบางประการของการนำศูนย์ข้อมูลไปใช้ทั่วทั้งองค์กร

ประโยชน์พื้นฐานของการมีมันคือการเปิดใช้งานการแบ่งปันข้อมูล ทำได้โดยการเชื่อมต่อผู้สร้างข้อมูลหรือแหล่งที่มาและผู้ใช้ข้อมูลหรือผู้บริโภค จุดสัมผัสเหล่านี้เรียกอีกอย่างว่าปลายทางและโต้ตอบกับ Data Hub โดยการผลักข้อมูลเข้าไปหรือดึงข้อมูล ฮับเป็นจุดเชื่อมต่อ ซึ่งช่วยให้มองเห็นการไหลของข้อมูล

ข้อดีอีกประการหนึ่งคือสร้างการเชื่อมต่อที่ราบรื่นและเรียลไทม์ของระบบธุรกิจต่างๆ สิ่งนี้ทำให้มั่นใจได้ว่ามีการจัดการความท้าทายที่สำคัญเกี่ยวกับการแลกเปลี่ยนข้อมูล โดยเฉพาะอย่างยิ่งหากจำเป็นต้องแลกเปลี่ยนข้อมูลในเวลาตอบสนองที่เร็วขึ้น

สรุปคุณประโยชน์แบ่งเป็น 4 ถัง

  • การรวมข้อมูลที่เก็บไว้ในไซโลเข้าสู่ระบบแบบครบวงจร
  • ระบบที่ยืดหยุ่นและมีประสิทธิภาพสูงในการจัดการเวิร์กโฟลว์
  • การมองเห็นที่ดีขึ้นและความสะดวกในการเข้าถึงข้อมูลทั่วทั้งองค์กร
  • ระบบที่เป็นหนึ่งเดียวพร้อมอินเทอร์เฟซแบบครบวงจร

ตัวอย่างสำหรับ Data Hub Technologies

ดังที่ได้กล่าวไว้ก่อนหน้านี้ ศูนย์กลางข้อมูลไม่ได้เป็นเพียงเทคโนโลยี แต่เป็นแพลตฟอร์มมากกว่าและเป็นแนวทางที่องค์กรนำไปใช้เพื่อรวมศูนย์มุมมองของข้อมูลทั่วทั้งกระดาน อย่างไรก็ตาม เราเห็นสินค้ามากมายที่จำหน่ายในตลาด ต่อไปนี้คือตัวอย่างบางส่วนที่ขายเป็นผลิตภัณฑ์เทคโนโลยีในตลาด

  • Google Ads
  • Cloudera, Enterprise
  • คิวมูโลซิตี้ IoT

นอกจากนี้ เรายังเห็น SAP เป็นอีกตัวอย่างหนึ่ง แผนภาพด้านล่างให้แนวคิดเกี่ยวกับโครงสร้างของฮับข้อมูลและการโต้ตอบของฮับข้อมูลของ SAP กับระบบธุรกิจและเทคโนโลยีอื่นๆ

ที่มา: SAP(2)

ความคิดสุดท้าย

ในปัจจุบัน เนื่องจากองค์กรต่างๆ มีหน่วยปฏิบัติการหลายหน่วยกระจายอยู่ตามสถานที่ทางภูมิศาสตร์ต่างๆ ฝ่ายบริหารจึงต้องรวมศูนย์ข้อมูล ซึ่งจะช่วยให้พวกเขาสามารถแยกข้อมูลเมื่อจำเป็น เพื่อทำการตัดสินใจอย่างมีข้อมูล การมีดาต้าฮับเป็นมากกว่าแพลตฟอร์มมากกว่าแค่กรอบงานเทคโนโลยี