อ่าน 10 นาที
คลังข้อมูล
ใน ด้านคอมพิวเตอร์ คลัง ข้อมูล ( DW หรือ DWH ) หรือที่รู้จักกันในชื่อ คลังข้อมูลระดับองค์กร ( EDW ) คือระบบที่ใช้สำหรับ การรายงาน และ การวิเคราะห์ข้อมูล และเป็นองค์ประกอบหลักของ...
คลังข้อมูล

ในด้านคอมพิวเตอร์คลังข้อมูล ( DWหรือDWH ) หรือที่รู้จักกันในชื่อคลังข้อมูลระดับองค์กร ( EDW ) คือระบบที่ใช้สำหรับการรายงานและการวิเคราะห์ข้อมูลและเป็นองค์ประกอบหลักของระบบธุรกิจอัจฉริยะ [ 1 ] คลัง ข้อมูลเป็น แหล่งเก็บ ข้อมูล ส่วนกลางที่บูรณาการจากแหล่งข้อมูลที่แตกต่างกัน โดยจะจัดเก็บข้อมูลปัจจุบันและข้อมูลในอดีตในรูปแบบที่เหมาะสมที่สุดสำหรับการวิเคราะห์ข้อมูล การสร้างรายงาน และการพัฒนาข้อมูลเชิงลึกจากข้อมูลที่บูรณาการ[ 2 ]คลังข้อมูลมีจุดประสงค์เพื่อให้ผู้1วิเคราะห์และผู้จัดการใช้เพื่อช่วยในการตัดสินใจขององค์กร[ 3 ]
ข้อมูลที่จัดเก็บในคลังข้อมูลจะถูกอัปโหลดจากระบบปฏิบัติการ (เช่น การตลาดหรือการขาย) ข้อมูลอาจผ่านแหล่งเก็บข้อมูลเชิงปฏิบัติการและอาจต้องมีการทำความสะอาดข้อมูลเพิ่มเติมเพื่อให้มั่นใจในคุณภาพของข้อมูลก่อนที่จะนำไปใช้ในคลังข้อมูลเพื่อการรายงาน
กระบวนการทำงานหลักสองอย่างสำหรับการสร้างระบบคลังข้อมูลคือการดึงข้อมูล การแปลงข้อมูล และการโหลดข้อมูล (ETL) และการดึงข้อมูล การโหลดข้อมูล และการแปลงข้อมูล (ELT)
ส่วนประกอบ
สภาพแวดล้อมสำหรับคลังข้อมูลและศูนย์ข้อมูลย่อยประกอบด้วยสิ่งต่อไปนี้:
- ระบบแหล่งข้อมูล (บ่อยครั้งคือฐานข้อมูลการดำเนินงานของบริษัท เช่น ฐานข้อมูลเชิงสัมพันธ์[ 3 ] )
- เทคโนโลยีและกระบวนการบูรณาการข้อมูลเพื่อดึงข้อมูลจากระบบต้นทาง แปลงข้อมูล และโหลดข้อมูลลงในคลังข้อมูลหรือคลังเก็บข้อมูล[ 3 ]
- สถาปัตยกรรมสำหรับการจัดเก็บข้อมูลในคลังข้อมูลหรือคลังสินค้า;
- เครื่องมือและแอปพลิเคชันสำหรับผู้ใช้หลากหลายกลุ่ม;
- เมตาเดตา คุณภาพข้อมูล และกระบวนการกำกับดูแล เมตาเดตาประกอบด้วยแหล่งข้อมูล (ชื่อฐานข้อมูล ตาราง และคอลัมน์) กำหนดการรีเฟรช และการวัดการใช้งานข้อมูล[ 3 ]
ระบบที่เกี่ยวข้อง
ฐานข้อมูลปฏิบัติการ
ฐานข้อมูลปฏิบัติการได้รับการปรับให้เหมาะสมเพื่อรักษาความสมบูรณ์ของข้อมูลและความเร็วในการบันทึกธุรกรรมทางธุรกิจโดยใช้การทำให้เป็นมาตรฐานของฐานข้อมูลและแบบจำลองความสัมพันธ์ระหว่างเอน ทิ ตี[ 4 ]โดยทั่วไปแล้วนักออกแบบระบบปฏิบัติการจะปฏิบัติตามการทำให้เป็นมาตรฐานของฐานข้อมูลเพื่อให้มั่นใจในความสมบูรณ์ของข้อมูล การออกแบบฐานข้อมูลที่เป็นมาตรฐานอย่างสมบูรณ์มักส่งผลให้ข้อมูลจากธุรกรรมทางธุรกิจถูกจัดเก็บไว้ในตารางหลายสิบถึงหลายร้อยตารางฐานข้อมูลเชิงสัมพันธ์มีประสิทธิภาพในการจัดการความสัมพันธ์ระหว่างตารางเหล่านี้ ฐานข้อมูลมีประสิทธิภาพในการแทรก/อัปเดตที่รวดเร็วมาก เนื่องจากมีเพียงข้อมูลจำนวนเล็กน้อยในตารางเหล่านั้นที่ได้รับผลกระทบจากแต่ละธุรกรรม เพื่อปรับปรุงประสิทธิภาพ ข้อมูลเก่าจะถูกล้างออกเป็นระยะ
คลังข้อมูลได้รับการปรับให้เหมาะสมกับรูปแบบการเข้าถึงข้อมูลเชิงวิเคราะห์ ซึ่งโดยปกติแล้วจะเกี่ยวข้องกับการเลือกฟิลด์เฉพาะเจาะจงมากกว่าการเลือกทุกฟิลด์ดังเช่นที่พบได้ทั่วไปในฐานข้อมูลเชิงปฏิบัติการ เนื่องจากความแตกต่างในการเข้าถึงนี้ ฐานข้อมูลเชิงปฏิบัติการ (เรียกอย่างคร่าวๆ ว่า OLTP) จึงได้รับประโยชน์จากการใช้ระบบจัดการฐานข้อมูล (DBMS) แบบเน้นแถว ในขณะที่ฐานข้อมูลเชิงวิเคราะห์ (เรียกอย่างคร่าวๆ ว่า OLAP) จะได้รับประโยชน์จากการใช้ระบบจัดการฐานข้อมูลแบบเน้นคอลัมน์ระบบปฏิบัติการจะเก็บรักษาภาพรวมของธุรกิจในขณะที่คลังข้อมูลจะเก็บรักษาข้อมูลในอดีตผ่านกระบวนการ ETL ที่ย้ายข้อมูลจากระบบปฏิบัติการไปยังคลังข้อมูลเป็นระยะๆ
การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) มีลักษณะเฉพาะคืออัตราการทำธุรกรรมต่ำและการสอบถามที่ซับซ้อนซึ่งเกี่ยวข้องกับการรวมกลุ่ม[ 5 ]เวลาตอบสนองเป็นมาตรวัดประสิทธิภาพที่มีประสิทธิภาพของระบบ OLAP แอปพลิเคชัน OLAP ถูกใช้กันอย่างแพร่หลายสำหรับการทำเหมืองข้อมูลฐานข้อมูล OLAP จัดเก็บข้อมูลที่รวมกลุ่มและข้อมูลในอดีตในรูปแบบหลายมิติ (โดยปกติจะเป็นรูปแบบดาว ) ระบบ OLAP โดยทั่วไปมีความหน่วงของข้อมูลไม่กี่ชั่วโมง ในขณะที่ความหน่วงของดาต้ามาทจะใกล้เคียงกับหนึ่งวัน แนวทาง OLAP ใช้ในการวิเคราะห์ข้อมูลหลายมิติจากหลายแหล่งและหลายมุมมอง การดำเนินการพื้นฐานสามอย่างใน OLAP คือ การรวมกลุ่ม (roll-up) การเจาะลึก (drill-down) และการแบ่งส่วน (slicing & dicing)
การประมวลผลธุรกรรมออนไลน์ (OLTP) มีลักษณะเด่นคือการทำธุรกรรมออนไลน์จำนวนมากในระยะเวลาสั้นๆ (INSERT, UPDATE, DELETE) ระบบ OLTP เน้นการประมวลผลคำสั่งค้นหาที่รวดเร็วและการรักษาความสมบูรณ์ของข้อมูลในสภาพแวดล้อมที่มีการเข้าถึงหลายช่องทาง สำหรับระบบ OLTP ประสิทธิภาพจะวัดจากจำนวนธุรกรรมต่อวินาที ฐานข้อมูล OLTP ประกอบด้วยข้อมูลที่ละเอียดและเป็นปัจจุบัน โครงสร้างข้อมูลที่ใช้ในการจัดเก็บฐานข้อมูลธุรกรรมคือแบบจำลองเอนทิตี (โดยปกติคือ3NF ) การทำให้เป็นรูปแบบปกติ (Normalization) เป็นมาตรฐานสำหรับเทคนิคการสร้างแบบจำลองข้อมูลในระบบนี้
การวิเคราะห์เชิงพยากรณ์คือการค้นหาและวัดปริมาณรูปแบบที่ซ่อนอยู่ภายในข้อมูลโดยใช้แบบจำลองทางคณิตศาสตร์ที่ซับซ้อนเพื่อเตรียมพร้อมสำหรับผลลัพธ์ในอนาคตที่แตกต่างกัน รวมถึงความต้องการผลิตภัณฑ์และเพื่อการตัดสินใจที่ดีขึ้น ในทางตรงกันข้าม OLAP มุ่งเน้นไปที่การวิเคราะห์ข้อมูลในอดีตและเป็นการตอบสนองต่อเหตุการณ์ที่เกิดขึ้น ระบบการพยากรณ์ยังถูกนำมาใช้ในการจัดการความสัมพันธ์กับลูกค้า (CRM) ด้วย
ฐานข้อมูล
ฐานข้อมูลคือชุดข้อมูลที่จัดระเบียบซึ่งจัดเก็บและจัดการทางอิเล็กทรอนิกส์[ 6 ]ออกแบบมาเพื่อจัดเก็บ เรียกค้น และจัดการข้อมูลที่มีโครงสร้างโดยใช้ DBMS (ซอฟต์แวร์การจัดการฐานข้อมูล) สำหรับการสอบถามและจัดการข้อมูล
| คุณลักษณะ | คลังข้อมูล | ฐานข้อมูล |
|---|---|---|
| ประเภทข้อมูล | ทางประวัติศาสตร์ | การดำเนินงาน |
| รูปแบบของข้อมูล | โครงสร้างสูง | โครงสร้าง |
| วัตถุประสงค์ | โอลาป | OLTP |
| ปริมาณข้อมูลที่จัดเก็บ | ใหญ่กว่า | จำกัด |
ดาต้ามาร์ท
ดาต้ามาร์ทเป็นคลังข้อมูลแบบง่ายที่เน้นเฉพาะเรื่องหรือพื้นที่การทำงานเพียงเรื่องเดียว ดังนั้นจึงดึงข้อมูลจากแหล่งข้อมูลจำนวนจำกัด เช่น ฝ่ายขาย ฝ่ายการเงิน หรือฝ่ายการตลาด ดาต้ามาร์ทมักถูกสร้างและควบคุมโดยแผนกเดียวในองค์กร แหล่งข้อมูลอาจเป็นระบบปฏิบัติการภายใน คลังข้อมูลส่วนกลาง หรือข้อมูลภายนอก[ 8 ]
| คุณลักษณะ | คลังข้อมูล | ดาต้ามาร์ท |
|---|---|---|
| ขอบเขตของข้อมูล | องค์กร | แผนก |
| จำนวนสาขาวิชา | หลายรายการ | เดี่ยว |
| การสร้างนั้นยากแค่ไหน | ยาก | ง่าย |
| ปริมาณข้อมูลที่จัดเก็บ | ใหญ่กว่า | จำกัด |
ประเภทของดาต้ามาท ได้แก่ ดาต้ามาทแบบพึ่งพาดาต้ามาทแบบอิสระ และดาต้ามาทแบบผสม
ดาต้าเลค
Data lakeคือแหล่งเก็บข้อมูลส่วนกลางที่จัดเก็บข้อมูลปริมาณมากในรูปแบบดิบซึ่งจะถูกประมวลผลในระหว่างการทำงาน[ 9 ]สามารถรวบรวมข้อมูลจากหลายแหล่ง เช่น API, ไฟล์, ฐานข้อมูล, เซ็นเซอร์, เว็บไซต์ ฯลฯ แตกต่างจากคลังข้อมูล Data lake จัดเก็บข้อมูลในรูปแบบที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้าง ทำให้สามารถนำไปใช้ในการเรียนรู้ของเครื่องและการประมวลผลข้อมูลขนาดใหญ่ได้
| คุณลักษณะ | คลังข้อมูล | ดาต้าเลค |
|---|---|---|
| รูปแบบของข้อมูล | โครงสร้าง | โครงสร้าง กึ่งโครงสร้าง หรือไม่มีโครงสร้าง |
| ข้อมูลถูกประมวลผลอย่างไร | ทำความสะอาด เปลี่ยนแปลง จัดเก็บ | ในรูปแบบดิบและแปรรูปเมื่อจำเป็น |
| การสร้างนั้นยากแค่ไหน | ซับซ้อน | ง่ายแต่ควบคุมยาก |
| ปริมาณข้อมูลที่จัดเก็บ | ใหญ่กว่า | ใหญ่มาก |
| ค่าใช้จ่าย | ต้นทุนการจัดเก็บที่สูงขึ้น | ต้นทุนการจัดเก็บที่ต่ำกว่า |
ตัวแปร
อีทีแอล
คลังข้อมูลแบบ ทั่วไป ที่ใช้การดึงข้อมูล การแปลง ข้อมูล และการโหลดข้อมูล (ETL) จะใช้ เลเยอร์ การจัดเตรียมข้อมูล การบูรณาการข้อมูลและการเข้าถึงข้อมูลเพื่อรองรับฟังก์ชันหลัก เลเยอร์การจัดเตรียมข้อมูลหรือฐานข้อมูลการจัดเตรียมข้อมูลจะจัดเก็บข้อมูลดิบที่ดึงมาจากระบบข้อมูลต้นทางที่แตกต่างกัน เลเยอร์การบูรณาการจะรวมชุดข้อมูลที่แตกต่างกันโดยการแปลงข้อมูลจากเลเยอร์การจัดเตรียมข้อมูล ซึ่งมักจะจัดเก็บข้อมูลที่แปลงแล้วนี้ไว้ใน ฐาน ข้อมูลคลังข้อมูลปฏิบัติการ (ODS) จากนั้นข้อมูลที่บูรณาการแล้วจะถูกย้ายไปยังฐานข้อมูลอีกแห่งหนึ่ง ซึ่งมักเรียกว่าฐานข้อมูลคลังข้อมูล โดยข้อมูลจะถูกจัดเรียงเป็นกลุ่มตามลำดับชั้น ซึ่งมักเรียกว่ามิติ และเป็นข้อเท็จจริงและข้อเท็จจริงรวม การรวมกันของข้อเท็จจริงและมิติบางครั้งเรียกว่าสคีมาดาว เลเยอร์การเข้าถึงช่วยให้ผู้ใช้สามารถดึงข้อมูลได้[ 11 ]
แหล่งข้อมูลหลักได้รับการทำความสะอาดแปลง จัดหมวดหมู่ และพร้อมใช้งานสำหรับผู้จัดการและผู้เชี่ยวชาญด้านธุรกิจอื่นๆ เพื่อการขุดข้อมูลการประมวลผลเชิงวิเคราะห์ออนไลน์การวิจัยตลาดและการสนับสนุนการตัดสินใจ [ 12 ] อย่างไรก็ตามวิธีการดึงและวิเคราะห์ข้อมูล การสกัด แปลง และโหลดข้อมูล และการจัดการพจนานุกรมข้อมูล ก็ถือเป็นองค์ประกอบที่จำเป็นของระบบคลังข้อมูล เช่นกัน การอ้างอิงถึงคลังข้อมูลจำนวนมากใช้บริบทที่กว้างขึ้นนี้ ดังนั้น คำจำกัดความที่ขยายของคลังข้อมูลจึงรวมถึงเครื่องมือข่าวกรองธุรกิจเครื่องมือในการสกัด แปลง และโหลดข้อมูลลงในที่เก็บข้อมูล และเครื่องมือในการจัดการและดึงข้อมูลเมตา
อีแอลที

การจัดเก็บข้อมูลแบบ ELTช่วยลดความจำเป็นในการใช้ เครื่องมือ ETL แยกต่างหาก สำหรับการแปลงข้อมูล โดยจะใช้พื้นที่จัดเก็บชั่วคราวภายในคลังข้อมูลเอง ในแนวทางนี้ ข้อมูลจะถูกดึงมาจากระบบต้นทางที่หลากหลาย และถูกโหลดเข้าสู่คลังข้อมูลโดยตรง ก่อนที่จะมีการแปลงใดๆ เกิดขึ้น การแปลงที่จำเป็นทั้งหมดจะดำเนินการภายในคลังข้อมูลเอง สุดท้าย ข้อมูลที่ผ่านการประมวลผลแล้วจะถูกโหลดลงในตารางเป้าหมายในคลังข้อมูลเดียวกัน
ประโยชน์
คลังข้อมูลจะเก็บสำเนาข้อมูลจากระบบธุรกรรมต้นทาง ความซับซ้อนทางสถาปัตยกรรมนี้เปิดโอกาสให้:
- ผสานรวมข้อมูลจากหลายแหล่งเข้าไว้ในฐานข้อมูลและแบบจำลองข้อมูลเดียว การรวมข้อมูลจำนวนมากไว้ในฐานข้อมูลเดียวจะช่วยให้สามารถใช้เครื่องมือสืบค้นข้อมูลเพียงตัวเดียวในการนำเสนอข้อมูลในที่เก็บข้อมูลเชิงปฏิบัติการได้
- ลดปัญหาการแย่งชิงการล็อกระดับแยกส่วนใน ระบบ ประมวลผลธุรกรรมที่เกิดจากคำสั่งวิเคราะห์ที่ใช้เวลานานในฐานข้อมูลประมวลผลธุรกรรม
- รักษาประวัติข้อมูล ไว้ แม้ว่าระบบธุรกรรมต้นทางจะไม่ทำเช่นนั้นก็ตาม
- บูรณาการข้อมูลจากระบบแหล่งข้อมูลหลายระบบ ช่วยให้มองเห็นภาพรวมขององค์กรได้จากส่วนกลาง ประโยชน์ข้อนี้มีค่าเสมอ โดยเฉพาะอย่างยิ่งเมื่อองค์กรเติบโตขึ้นจากการควบรวมกิจการ
- ปรับปรุงคุณภาพข้อมูลโดยการให้รหัสและคำอธิบายที่สอดคล้องกัน รวมถึงการระบุหรือแก้ไขข้อมูลที่ไม่ถูกต้อง
- นำเสนอข้อมูลขององค์กรอย่างสม่ำเสมอ
- จัดเตรียม แบบจำลองข้อมูลทั่วไปแบบเดียวสำหรับข้อมูลทั้งหมดที่เกี่ยวข้อง โดยไม่คำนึงถึงแหล่งที่มาของข้อมูล
- ปรับโครงสร้างข้อมูลใหม่เพื่อให้ผู้ใช้งานทางธุรกิจเข้าใจได้ง่าย
- ปรับโครงสร้างข้อมูลใหม่เพื่อให้ได้ประสิทธิภาพการสืบค้นข้อมูลที่ยอดเยี่ยม แม้แต่สำหรับการสืบค้นข้อมูลเชิงวิเคราะห์ที่ซับซ้อน โดยไม่ส่งผลกระทบต่อระบบปฏิบัติการ
- เพิ่มมูลค่าให้กับแอปพลิเคชันทางธุรกิจที่ใช้งานได้จริง โดยเฉพาะ ระบบ การจัดการความสัมพันธ์กับลูกค้า (CRM)
- ทำให้การเขียนคำถามเพื่อสนับสนุนการตัดสินใจง่ายขึ้น
- จัดระเบียบและแยกแยะข้อมูลที่ซ้ำซ้อน
ประวัติศาสตร์
แนวคิดเรื่องคลังข้อมูลมีมาตั้งแต่ช่วงปลายทศวรรษ 1980 [ 13 ]เมื่อนักวิจัยของ IBM อย่าง Barry Devlin และ Paul Murphy ได้พัฒนา "คลังข้อมูลธุรกิจ" ขึ้นมา โดยพื้นฐานแล้ว แนวคิดคลังข้อมูลมีจุดประสงค์เพื่อจัดเตรียมแบบจำลองทางสถาปัตยกรรมสำหรับการไหลของข้อมูลจากระบบปฏิบัติการไปยังสภาพแวดล้อมการสนับสนุนการตัดสินใจแนวคิดนี้พยายามแก้ไขปัญหาต่างๆ ที่เกี่ยวข้องกับการไหลนี้ โดยเฉพาะอย่างยิ่งต้นทุนที่สูง ในกรณีที่ไม่มีสถาปัตยกรรมคลังข้อมูล จำเป็นต้องมีระบบสำรองจำนวนมากเพื่อรองรับสภาพแวดล้อมการสนับสนุนการตัดสินใจหลายแห่ง ในองค์กรขนาดใหญ่ เป็นเรื่องปกติที่สภาพแวดล้อมการสนับสนุนการตัดสินใจหลายแห่งจะทำงานอย่างอิสระ แม้ว่าแต่ละสภาพแวดล้อมจะให้บริการผู้ใช้ที่แตกต่างกัน แต่ก็มักต้องการข้อมูลที่จัดเก็บไว้เหมือนกัน กระบวนการรวบรวม ทำความสะอาด และบูรณาการข้อมูลจากแหล่งต่างๆ ซึ่งโดยปกติมาจากระบบปฏิบัติการที่มีอยู่มานาน (มักเรียกว่าระบบดั้งเดิม ) มักจะถูกทำซ้ำบางส่วนสำหรับแต่ละสภาพแวดล้อม นอกจากนี้ ระบบปฏิบัติการยังได้รับการตรวจสอบใหม่บ่อยครั้งเมื่อความต้องการการสนับสนุนการตัดสินใจใหม่ๆ เกิดขึ้น ข้อกำหนดใหม่ๆ มักทำให้จำเป็นต้องรวบรวม ทำความสะอาด และบูรณาการข้อมูลใหม่จาก " คลังข้อมูล " ที่จัดเตรียมไว้เพื่อให้ผู้ใช้เข้าถึงได้ง่าย
นอกจากนี้ การตีพิมพ์หนังสือ The IRM Imperative (Wiley & Sons, 1991) โดย James M. Kerr ทำให้แนวคิดเรื่องการจัดการและประเมินมูลค่าเป็นตัวเงินให้กับทรัพยากรข้อมูลขององค์กร แล้วรายงานมูลค่านั้นเป็นสินทรัพย์ในงบดุล ได้รับความนิยมมากขึ้น ในหนังสือเล่มนี้ Kerr ได้อธิบายวิธีการเติมข้อมูลลงในฐานข้อมูลเฉพาะเรื่องจากข้อมูลที่ได้จากระบบที่ขับเคลื่อนด้วยธุรกรรม เพื่อสร้างพื้นที่จัดเก็บข้อมูลที่สามารถนำข้อมูลสรุปไปใช้ประโยชน์เพิ่มเติมในการตัดสินใจของผู้บริหารได้ แนวคิดนี้ช่วยกระตุ้นให้เกิดความคิดเพิ่มเติมเกี่ยวกับวิธีการพัฒนาและจัดการคลังข้อมูลในทางปฏิบัติภายในองค์กรต่างๆ
พัฒนาการที่สำคัญในช่วงแรกๆ ของระบบคลังข้อมูล:
- ทศวรรษ 1960 – General MillsและDartmouth College ร่วมกันพัฒนาคำศัพท์ เกี่ยว กับ มิติและข้อเท็จจริงในโครงการวิจัย[ 14 ]
- ทศวรรษ 1970 – ACNielsenและ IRI ให้บริการคลังข้อมูลเชิงมิติสำหรับการขายปลีก[ 14 ]
- ทศวรรษ 1970 – บิล อินมอนเริ่มกำหนดและอภิปรายคำว่าคลังข้อมูล[ 15 ] [ 16 ] [ 17 ]
- ปี 1975 – Sperry UnivacเปิดตัวMAPPER ( maintain, prepare, and produce executive reports ) ซึ่งเป็นระบบจัดการฐานข้อมูลและระบบรายงานที่รวมถึง 4GLตัวแรกของโลกนับเป็นแพลตฟอร์มแรกที่ออกแบบมาเพื่อสร้างศูนย์ข้อมูล (ซึ่งเป็นต้นแบบของเทคโนโลยีคลังข้อมูลในปัจจุบัน)
- พ.ศ. 2526 – Teradataเปิด ตัวคอมพิวเตอร์ฐานข้อมูล DBC/1012ซึ่งออกแบบมาโดยเฉพาะเพื่อสนับสนุนการตัดสินใจ[ 18 ]
- ปี 1984 – บริษัท Metaphor Computer Systemsซึ่งก่อตั้งโดยเดวิด ลิดเดิลและดอน มาสซาโร ได้เปิดตัวชุดฮาร์ดแวร์/ซอฟต์แวร์และ GUI สำหรับผู้ใช้ทางธุรกิจ เพื่อสร้างระบบจัดการฐานข้อมูลและระบบวิเคราะห์ข้อมูล
- พ.ศ. 2531 – แบร์รี เดฟลิน และพอล เมอร์ฟี ตีพิมพ์บทความเรื่อง "สถาปัตยกรรมสำหรับระบบธุรกิจและสารสนเทศ" ซึ่งพวกเขาได้แนะนำคำว่า "คลังข้อมูลธุรกิจ" [ 19 ]
- ปี 1990 – บริษัท Red Brick Systems ที่ก่อตั้งโดยRalph Kimballเปิดตัว Red Brick Warehouse ซึ่งเป็นระบบจัดการฐานข้อมูลที่ออกแบบมาโดยเฉพาะสำหรับการจัดเก็บข้อมูลขนาดใหญ่ (Data Warehousing)
- ปี 1991 – เจมส์ เอ็ม. เคอร์ เขียนหนังสือ "The IRM Imperative" ซึ่งเสนอแนะว่าทรัพยากรข้อมูลสามารถรายงานเป็นสินทรัพย์ในงบดุลได้ ซึ่งส่งเสริมความสนใจในเชิงพาณิชย์ในการจัดตั้งคลังข้อมูล
- ปี 1991 – บริษัท Prism Solutions ที่ก่อตั้งโดยBill Inmonเปิดตัว Prism Warehouse Manager ซอฟต์แวร์สำหรับพัฒนาระบบคลังข้อมูล
- 1992 – Bill Inmon ตี พิมพ์หนังสือBuilding the Data Warehouse [ 20 ]
- ปี 1995 – สถาบัน Data Warehousing Institute ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่ส่งเสริมเทคโนโลยีคลังข้อมูล ได้ถูกก่อตั้งขึ้น
- พ.ศ. 2539 – ราล์ฟ คิมบอลล์ตีพิมพ์หนังสือThe Data Warehouse Toolkit [ 21 ]
- พ.ศ. 2541 – การสร้างแบบจำลอง Focal ได้รับการนำไปใช้เป็นแนวทางการสร้างแบบจำลองคลังข้อมูลแบบผสมผสาน (ไฮบริด) โดยมี Patrik Lager เป็นหนึ่งในผู้ขับเคลื่อนหลัก[ 22 ] [ 23 ]
- ปี 2000 – แดน ลินสเตดท์ เผยแพร่แบบจำลอง คลังข้อมูล (Data Vault Modeling ) สู่สาธารณะซึ่งคิดค้นขึ้นในปี 1990 ในฐานะทางเลือกแทนแบบจำลองของอินมอนและคิมบอลล์ (Inmon and Kimball) เพื่อจัดเก็บข้อมูลประวัติศาสตร์ระยะยาวที่มาจากระบบปฏิบัติการหลายระบบ โดยเน้นการติดตาม การตรวจสอบ และความยืดหยุ่นต่อการเปลี่ยนแปลงของแบบจำลองข้อมูลต้นทาง
- ปี 2008 – บิล อินมอนร่วมกับเดเร็ก สเตราส์ และเจเนีย นอยช์ลอส ตีพิมพ์หนังสือ "DW 2.0: The Architecture for the Next Generation of Data Warehousing" ซึ่งอธิบายถึงแนวทางจากบนลงล่างในการจัดเก็บข้อมูล และบัญญัติศัพท์ "ดาต้าแวร์เฮาส์ซิ่ง 2.0" ขึ้นมา
- 2008 – การสร้างแบบจำลองจุดยึดได้รับการกำหนดรูปแบบอย่างเป็นทางการในเอกสารที่นำเสนอในการประชุมนานาชาติเกี่ยวกับการสร้างแบบจำลองเชิงแนวคิด และได้รับรางวัลเอกสารยอดเยี่ยม[ 24 ]
- ปี 2012 – บิล อินมอนพัฒนาและเผยแพร่เทคโนโลยีที่เรียกว่า "การแยกความหมายของข้อความ" (Textual Disambiguation) การแยกความหมายของข้อความจะนำบริบทมาใช้กับข้อความดิบ และจัดรูปแบบข้อความดิบและบริบทใหม่ให้เป็นรูปแบบฐานข้อมูลมาตรฐาน เมื่อข้อความดิบผ่านกระบวนการแยกความหมายของข้อความแล้ว ก็สามารถเข้าถึงและวิเคราะห์ได้อย่างง่ายดายและมีประสิทธิภาพด้วยเทคโนโลยี Business Intelligence มาตรฐาน การแยกความหมายของข้อความทำได้โดยการดำเนินการ ETL (Textual Evaluation and Transformation) การแยกความหมายของข้อความมีประโยชน์ในทุกที่ที่มีข้อความดิบ เช่น ในเอกสาร Hadoop อีเมล และอื่นๆ
- 2013 – Data vault 2.0 ได้รับการเผยแพร่[ 25 ] [ 26 ]ซึ่งมีการเปลี่ยนแปลงเล็กน้อยในวิธีการสร้างแบบจำลอง รวมถึงการบูรณาการกับแนวปฏิบัติที่ดีที่สุดจากวิธีการ สถาปัตยกรรม และการใช้งานอื่นๆ รวมถึงหลักการ Agile และ CMMI
การจัดระเบียบข้อมูล
ข้อเท็จจริง
ข้อเท็จจริง คือ ค่าหรือการวัดในระบบที่กำลังได้รับการจัดการ
ข้อมูลดิบคือข้อมูลที่รายงานโดยหน่วยงานที่รายงาน ตัวอย่างเช่น ในระบบโทรศัพท์มือถือ หากสถานีฐานรับส่งสัญญาณ (BTS) ได้รับคำขอจัดสรรช่องสัญญาณ 1,000 คำขอ จัดสรรให้ 820 คำขอ และปฏิเสธส่วนที่เหลือ สถานีฐานรับส่งสัญญาณอาจรายงานข้อมูลดิบสามข้อไปยังระบบการจัดการ:
tch_req_total = 1000tch_req_success = 820tch_req_fail = 180
ข้อมูลดิบจะถูกรวบรวมในระดับที่สูงขึ้นในมิติ ต่างๆ เพื่อดึงข้อมูลที่เกี่ยวข้องกับบริการหรือธุรกิจมากขึ้น ข้อมูลเหล่านี้เรียกว่า ข้อมูลสรุป หรือ บทสรุป
ตัวอย่างเช่น หากมีสถานีฐาน (BTS) สามแห่งในเมืองหนึ่ง ข้อมูลข้างต้นสามารถนำมาประมวลผลในระดับเมืองในมิติเครือข่ายได้ ตัวอย่างเช่น:
tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3
วิธีการจัดเก็บข้อมูลแบบมิติเทียบกับแบบมาตรฐาน
แนวทางที่สำคัญที่สุดสองประการในการจัดเก็บข้อมูลในคลังข้อมูลคือแบบมิติและแบบปกติ แนวทางแบบมิติใช้สคีมาดาวตามที่เสนอโดยRalph Kimballแนวทางแบบปกติ หรือที่เรียกว่ารูปแบบปกติที่สาม (3NF) เป็นแบบจำลองปกติเชิงสัมพันธ์ของเอนทิตีที่เสนอโดย Bill Inmon [ 27 ]
แนวทางเชิงมิติ
ในแนวทางเชิงมิติข้อมูลธุรกรรมจะถูกแบ่งออกเป็น "ข้อเท็จจริง" ซึ่งโดยทั่วไปคือข้อมูลธุรกรรมที่เป็นตัวเลข และ " มิติ " ซึ่งเป็นข้อมูลอ้างอิงที่ให้บริบทแก่ข้อเท็จจริง ตัวอย่างเช่น ธุรกรรมการขายสามารถแบ่งออกเป็นข้อเท็จจริง เช่น จำนวนสินค้าที่สั่งซื้อและราคาสินค้าทั้งหมดที่ชำระ และแบ่งออกเป็นมิติ เช่น วันที่สั่งซื้อ ชื่อลูกค้า หมายเลขสินค้า สถานที่จัดส่งและสถานที่เรียกเก็บเงิน และพนักงานขายที่รับผิดชอบการรับสินค้า
แนวทางเชิงมิตินี้ทำให้ข้อมูลเข้าใจง่ายขึ้นและเร่งความเร็วในการดึงข้อมูล[ 21 ]โครงสร้างเชิงมิติเข้าใจง่ายสำหรับผู้ใช้ทางธุรกิจ เนื่องจากโครงสร้างถูกแบ่งออกเป็น การวัด/ข้อเท็จจริง และบริบท/มิติ ข้อเท็จจริงเกี่ยวข้องกับกระบวนการทางธุรกิจและระบบการดำเนินงานขององค์กร และมิติคือบริบทเกี่ยวกับข้อเท็จจริงเหล่านั้น (Kimball, Ralph 2008) ข้อดีอีกประการหนึ่งคือแบบจำลองเชิงมิติไม่จำเป็นต้องใช้ฐานข้อมูลเชิงสัมพันธ์ทุกครั้ง ดังนั้นเทคนิคการสร้างแบบจำลองประเภทนี้จึงมีประโยชน์มากสำหรับการสอบถามของผู้ใช้ปลายทางในคลังข้อมูล
แบบจำลองของข้อเท็จจริงและมิติยังสามารถเข้าใจได้ว่าเป็นคิวบ์ข้อมูล [ 28 ] โดยที่มิติเป็นพิกัดเชิงหมวดหมู่ในคิวบ์หลายมิติ และข้อเท็จจริงเป็นค่าที่สอดคล้องกับพิกัด
ข้อเสียหลักของวิธีการเชิงมิติ ได้แก่:
- การรักษาความถูกต้องของข้อเท็จจริงและมิติข้อมูลเป็นเรื่องซับซ้อน เมื่อต้องโหลดข้อมูลจากระบบปฏิบัติการที่แตกต่างกันเข้าสู่คลังข้อมูล
- การปรับเปลี่ยนโครงสร้างคลังสินค้าจะทำได้ยากหากองค์กรเปลี่ยนวิธีการดำเนินธุรกิจ
แนวทางมาตรฐาน
ในแนวทางการจัดระเบียบข้อมูลแบบมาตรฐาน ข้อมูลในคลังข้อมูลจะถูกจัดเก็บโดยปฏิบัติตามกฎการจัดระเบียบฐานข้อมูล ในระดับหนึ่ง ตารางฐานข้อมูลเชิงสัมพันธ์แบบมาตรฐานจะถูกจัดกลุ่มตาม หัวข้อ (ตัวอย่างเช่น ลูกค้า ผลิตภัณฑ์ และการเงิน) เมื่อนำไปใช้ในองค์กรขนาดใหญ่ ผลลัพธ์ที่ได้คือตารางหลายสิบตารางที่เชื่อมโยงกันด้วยเครือข่ายของการเชื่อมต่อ (Kimball, Ralph 2008)
ข้อดีหลักของวิธีการนี้คือการเพิ่มข้อมูลลงในฐานข้อมูลทำได้ง่าย ข้อเสียคือเนื่องจากมีตารางจำนวนมาก ผู้ใช้จึงอาจประสบปัญหาในการเชื่อมโยงข้อมูลจากแหล่งต่างๆ เข้าด้วยกันให้เป็นข้อมูลที่มีความหมาย และเข้าถึงข้อมูลได้ยากหากไม่มีความเข้าใจที่ถูกต้องเกี่ยวกับแหล่งข้อมูลและโครงสร้างข้อมูลของคลังข้อมูล
ทั้งแบบจำลองมาตรฐานและแบบจำลองเชิงมิติสามารถแสดงได้ในแผนภาพความสัมพันธ์ระหว่างเอนทิตี เนื่องจากทั้งสองแบบมีตารางเชิงสัมพันธ์ที่เชื่อมต่อกัน ความแตกต่างระหว่างทั้งสองแบบอยู่ที่ระดับของการทำให้เป็นมาตรฐาน วิธีการเหล่านี้ไม่ได้ขัดแย้งกัน และยังมีวิธีการอื่นๆ อีก วิธีการเชิงมิติอาจเกี่ยวข้องกับการทำให้ข้อมูลเป็นมาตรฐานในระดับหนึ่ง (Kimball, Ralph 2008)
ในธุรกิจที่ขับเคลื่อนด้วยข้อมูล [ 29 ]โรเบิร์ต ฮิลลาร์ดเปรียบเทียบวิธีการทั้งสองโดยพิจารณาจากความต้องการข้อมูลของปัญหาทางธุรกิจ เขาได้สรุปว่าแบบจำลองมาตรฐานมีข้อมูลมากกว่าแบบจำลองมิติเดียวกันมาก (แม้ว่าจะใช้ฟิลด์เดียวกันในทั้งสองแบบจำลองก็ตาม) แต่ต้องแลกมาด้วยความสามารถในการใช้งาน เทคนิคนี้วัดปริมาณข้อมูลในแง่ของเอนโทรปีของข้อมูลและความสามารถในการใช้งานในแง่ของการวัดการแปลงข้อมูล Small Worlds [ 30 ]
วิธีการออกแบบ
การออกแบบจากล่างขึ้นบน
ในแนวทางจากล่างขึ้นบน จะมีการสร้าง ดาต้ามาร์ทขึ้นก่อนเพื่อให้บริการรายงานและความสามารถในการวิเคราะห์สำหรับกระบวนการทางธุรกิจ เฉพาะ จากนั้นดาต้ามาร์ทเหล่านี้สามารถรวมเข้าด้วยกันเพื่อสร้างคลังข้อมูลที่ครอบคลุม สถาปัตยกรรมบัสคลังข้อมูลเป็นการนำ "บัส" มาใช้เป็นหลัก ซึ่งเป็นชุดของมิติที่ได้รับการยืนยันและข้อเท็จจริงที่ได้รับการยืนยันซึ่งเป็นมิติที่ใช้ร่วมกัน (ในลักษณะเฉพาะ) ระหว่างข้อเท็จจริงในดาต้ามาร์ทสองแห่งขึ้นไป[ 31 ]
การออกแบบจากบนลงล่าง
แนวทางจากบนลงล่าง ได้รับการออกแบบโดยใช้ โมเดลข้อมูลองค์กรที่เป็นมาตรฐานข้อมูล"อะตอม"ซึ่งก็คือข้อมูลที่มีรายละเอียดมากที่สุด จะถูกจัดเก็บไว้ในคลังข้อมูล คลังข้อมูลแบบมิติที่มีข้อมูลที่จำเป็นสำหรับกระบวนการทางธุรกิจเฉพาะหรือแผนกเฉพาะจะถูกสร้างขึ้นจากคลังข้อมูล[ 32 ]
การออกแบบไฮบริด
คลังข้อมูลมักใช้รูปแบบการกระจายแบบศูนย์กลางและส่วนเชื่อมต่อ (spoke–hub ) ระบบเดิมที่ป้อนข้อมูลให้กับคลังข้อมูลมักประกอบด้วยระบบการจัดการลูกค้าสัมพันธ์ (CRM)และระบบวางแผนทรัพยากรองค์กร (ERP)ซึ่งสร้างข้อมูลจำนวนมาก เพื่อรวมโมเดลข้อมูลต่างๆ เหล่านี้และอำนวยความสะดวกใน กระบวนการ ดึงข้อมูล แปลงข้อมูล และโหลดข้อมูล (EXPTT) คลังข้อมูลมักใช้ที่เก็บข้อมูลเชิงปฏิบัติการ (OPT ) ซึ่งข้อมูลจากที่เก็บข้อมูลเชิงปฏิบัติการจะถูกแยกวิเคราะห์และนำเข้าสู่คลังข้อมูลจริง เพื่อลดความซ้ำซ้อนของข้อมูล ระบบขนาดใหญ่มักจัดเก็บข้อมูลในรูปแบบมาตรฐาน จากนั้นจึงสร้างคลังข้อมูลย่อย (Data mart) สำหรับรายงานเฉพาะต่างๆ บนคลังข้อมูลหลักได้
ฐานข้อมูลคลังข้อมูลแบบไฮบริด (หรือเรียกว่าแบบกลุ่ม) จะถูกจัดเก็บในรูปแบบปกติที่สาม (Third Normal Form)เพื่อกำจัดความซ้ำซ้อนของข้อมูลอย่างไรก็ตาม ฐานข้อมูลเชิงสัมพันธ์แบบปกติไม่มีประสิทธิภาพสำหรับรายงานธุรกิจอัจฉริยะ (Business Intelligence) ที่การสร้างแบบจำลองเชิงมิติ (Dimensional Modelling) เป็นเรื่องปกติ ดาต้ามาท (Data Marts) ขนาดเล็กสามารถดึงข้อมูลจากคลังข้อมูลรวม และใช้ข้อมูลที่กรองแล้วและเฉพาะเจาะจงสำหรับตารางข้อเท็จจริงและมิติที่ต้องการ คลังข้อมูลหลักเป็นแหล่งข้อมูลเดียวที่ดาต้ามาทสามารถอ่านได้ ทำให้ได้ข้อมูลทางธุรกิจที่หลากหลาย สถาปัตยกรรมไฮบริดช่วยให้สามารถแทนที่คลังข้อมูลด้วยที่ เก็บ ข้อมูลหลัก (Master Data Management Repository) ซึ่งสามารถเก็บข้อมูลการดำเนินงาน (ไม่ใช่ข้อมูลคงที่) ได้
ส่วนประกอบของ การสร้างแบบจำลองคลังข้อมูล (Data Vault)ใช้สถาปัตยกรรมแบบฮับและสปokes (hub and spokes architecture) รูปแบบการสร้างแบบจำลองนี้เป็นการออกแบบแบบผสมผสาน โดยประกอบด้วยแนวทางปฏิบัติที่ดีที่สุดจากทั้งรูปแบบปกติที่สาม (Third Normal Form) และแบบแผนดาว (Star Schema)แบบจำลองคลังข้อมูลนี้ไม่ใช่รูปแบบปกติที่สามที่แท้จริง และละเมิดกฎบางข้อ แต่เป็นสถาปัตยกรรมแบบบนลงล่าง (top-down architecture) ที่มีการออกแบบแบบล่างขึ้นบน (bottom-up design) แบบจำลองคลังข้อมูลนี้ออกแบบมาเพื่อเป็นคลังข้อมูลโดยเฉพาะ ไม่ได้ออกแบบมาเพื่อให้ผู้ใช้ปลายทางเข้าถึงได้ ซึ่งเมื่อสร้างเสร็จแล้วยังคงต้องใช้พื้นที่เผยแพร่ (release area) ที่อิงตามคลังข้อมูลย่อย (data mart) หรือแบบแผนดาว (star schema) สำหรับวัตถุประสงค์ทางธุรกิจ
ลักษณะเฉพาะ
มีคุณลักษณะพื้นฐานที่กำหนดข้อมูลในคลังข้อมูล ซึ่งได้แก่ การมุ่งเน้นตามหัวเรื่อง การบูรณาการข้อมูล ข้อมูลที่เปลี่ยนแปลงตามเวลา ข้อมูลที่ไม่เปลี่ยนแปลง และระดับความละเอียดของข้อมูล
มุ่งเน้นที่เนื้อหา
แตกต่างจากระบบปฏิบัติการ ข้อมูลในคลังข้อมูลจะเกี่ยวข้องกับหัวข้อต่างๆ ขององค์กร การมุ่งเน้นหัวข้อไม่ใช่การทำให้ฐานข้อมูลเป็นมาตรฐาน (Database Normalization ) การมุ่งเน้นหัวข้อมีประโยชน์อย่างมากสำหรับการตัดสินใจ การรวบรวมวัตถุที่ต้องการเรียกว่าการมุ่งเน้นหัวข้อ
บูรณาการ
ข้อมูลที่พบในคลังข้อมูลนั้นเป็นข้อมูลที่บูรณาการเข้าด้วยกัน เนื่องจากมาจากระบบปฏิบัติการหลายระบบ ความไม่สอดคล้องกันทั้งหมดจึงต้องถูกกำจัดออกไป ความไม่สอดคล้องกันนั้นรวมถึงข้อกำหนดในการตั้งชื่อ การวัดตัวแปร โครงสร้างการเข้ารหัส คุณลักษณะทางกายภาพของข้อมูล และอื่นๆ
แปรผันตามเวลา
ในขณะที่ระบบปฏิบัติการสะท้อนค่าปัจจุบันเนื่องจากสนับสนุนการดำเนินงานประจำวัน ข้อมูลคลังข้อมูลแสดงถึงช่วงเวลาที่ยาวนาน (สูงสุด 10 ปี) ซึ่งหมายความว่าส่วนใหญ่จะเก็บข้อมูลในอดีต โดยส่วนใหญ่มีไว้สำหรับการขุดค้นข้อมูลและการพยากรณ์ (เช่น หากผู้ใช้กำลังค้นหารูปแบบการซื้อของลูกค้าเฉพาะราย ผู้ใช้จำเป็นต้องดูข้อมูลเกี่ยวกับการซื้อในปัจจุบันและในอดีต) [ 33 ]
ไม่ระเหย
ข้อมูลในคลังข้อมูลเป็นแบบอ่านอย่างเดียว ซึ่งหมายความว่าไม่สามารถอัปเดต สร้าง หรือลบได้ (เว้นแต่จะมีข้อบังคับหรือข้อผูกพันตามกฎหมายให้ทำเช่นนั้น) [ 34 ]
ตัวเลือก
การรวมกลุ่ม
ในกระบวนการคลังข้อมูล ข้อมูลสามารถรวบรวมไว้ในดาต้ามาร์ทได้ในระดับนามธรรมที่แตกต่างกัน ผู้ใช้อาจเริ่มต้นด้วยการดูจำนวนหน่วยขายทั้งหมดของผลิตภัณฑ์ในภูมิภาคทั้งหมด จากนั้นผู้ใช้จะดูที่รัฐต่างๆ ในภูมิภาคนั้น สุดท้าย พวกเขาอาจตรวจสอบร้านค้าแต่ละแห่งในรัฐใดรัฐหนึ่ง ดังนั้น โดยทั่วไป การวิเคราะห์จะเริ่มต้นที่ระดับที่สูงกว่าและเจาะลึกลงไปในระดับรายละเอียดที่ต่ำกว่า[ 33 ]
เวอร์ชวลไลเซชัน
ด้วยการจำลองข้อมูลข้อมูลที่ใช้ยังคงอยู่ในตำแหน่งเดิม และมีการสร้างการเข้าถึงแบบเรียลไทม์เพื่อให้สามารถวิเคราะห์ข้อมูลจากหลายแหล่งโดยการสร้างคลังข้อมูลเสมือน ซึ่งสามารถช่วยแก้ไขปัญหาทางเทคนิคบางอย่าง เช่น ปัญหาความเข้ากันได้เมื่อรวมข้อมูลจากแพลตฟอร์มต่างๆ ลดความเสี่ยงของข้อผิดพลาดที่เกิดจากข้อมูลที่ผิดพลาด และรับประกันว่ามีการใช้ข้อมูลล่าสุด นอกจากนี้ การหลีกเลี่ยงการสร้างฐานข้อมูลใหม่ที่มีข้อมูลส่วนบุคคลยังช่วยให้ปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวได้ง่ายขึ้น อย่างไรก็ตาม ด้วยการจำลองข้อมูล การเชื่อมต่อกับแหล่งข้อมูลที่จำเป็นทั้งหมดจะต้องใช้งานได้ เนื่องจากไม่มีสำเนาข้อมูลในพื้นที่ ซึ่งเป็นหนึ่งในข้อเสียหลักของวิธีการนี้[ 35 ]
สถาปัตยกรรม
วิธีการต่างๆ ที่ใช้ในการสร้าง/จัดระเบียบคลังข้อมูลตามที่องค์กรกำหนดนั้นมีมากมาย ฮาร์ดแวร์ที่ใช้ ซอฟต์แวร์ที่สร้างขึ้น และทรัพยากรข้อมูลที่จำเป็นสำหรับการทำงานที่ถูกต้องของคลังข้อมูลล้วนเป็นส่วนประกอบหลักของสถาปัตยกรรมคลังข้อมูล คลังข้อมูลทุกแห่งมีหลายขั้นตอนซึ่งความต้องการขององค์กรจะได้รับการแก้ไขและปรับแต่ง[ 36 ]
วิวัฒนาการในการใช้งานองค์กร
คำศัพท์เหล่านี้หมายถึงระดับความซับซ้อนของคลังข้อมูล:
- คลังข้อมูลการดำเนินงานแบบออฟไลน์
- ในขั้นตอนนี้ คลังข้อมูลจะได้รับการอัปเดตตามรอบเวลาปกติ (โดยทั่วไปคือรายวัน รายสัปดาห์ หรือรายเดือน) จากระบบปฏิบัติการ และข้อมูลจะถูกจัดเก็บไว้ในฐานข้อมูลแบบบูรณาการที่เน้นการรายงาน
- คลังข้อมูลออฟไลน์
- ในขั้นตอนนี้ คลังข้อมูลจะได้รับการอัปเดตจากข้อมูลในระบบปฏิบัติการเป็นประจำ และข้อมูลในคลังข้อมูลจะถูกจัดเก็บไว้ในโครงสร้างข้อมูลที่ออกแบบมาเพื่ออำนวยความสะดวกในการจัดทำรายงาน
- คลังข้อมูลแบบทันเวลา
- ระบบคลังข้อมูลแบบบูรณาการออนไลน์ (Online Integrated Data Warehousing) คือคลังข้อมูลแบบเรียลไทม์ โดยข้อมูลในคลังจะได้รับการอัปเดตทุกครั้งที่มีการทำธุรกรรมกับข้อมูลต้นทาง
- คลังข้อมูลแบบบูรณาการ
- คลังข้อมูลเหล่านี้จะรวบรวมข้อมูลจากส่วนต่างๆ ของธุรกิจ เพื่อให้ผู้ใช้สามารถค้นหาข้อมูลที่ต้องการจากระบบอื่นๆ ได้[ 37 ]
ในด้านการดูแลสุขภาพ
ใน ภาค การดูแลสุขภาพคลังข้อมูลเป็นส่วนประกอบที่สำคัญของสารสนเทศทางการแพทย์ช่วยให้สามารถบูรณาการ จัดเก็บ และวิเคราะห์ข้อมูลทางคลินิก ข้อมูลด้านการบริหาร และข้อมูลด้านการดำเนินงานจำนวนมาก ระบบเหล่านี้รวบรวมข้อมูลจากแหล่งต่างๆ เช่นบันทึกสุขภาพอิเล็กทรอนิกส์ (EHRs) ระบบข้อมูลห้องปฏิบัติการระบบจัดเก็บและสื่อสารภาพ (PACS) และ แพลตฟอร์ม การเรียกเก็บเงินทางการแพทย์ด้วยการรวมศูนย์ข้อมูล คลังข้อมูลด้านการดูแลสุขภาพจึงสนับสนุนการทำงานที่หลากหลาย รวมถึงสุขภาพของประชากรการสนับสนุนการตัดสินใจทางคลินิกการปรับปรุงคุณภาพการเฝ้าระวังสุขภาพของประชาชนและการวิจัยทางการแพทย์
คลังข้อมูลด้านการดูแลสุขภาพมักจะรวมเอาแบบจำลองข้อมูลเฉพาะทางที่คำนึงถึงความซับซ้อนและความละเอียดอ่อนของข้อมูลทางการแพทย์ เช่น ข้อมูลเชิงเวลา (เช่น ประวัติผู้ป่วยระยะยาว) คำศัพท์ที่เข้ารหัส (เช่นICD-10 , SNOMED CT ) และการปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัว (เช่นHIPAAในสหรัฐอเมริกา หรือGDPRในสหภาพยุโรป)
ต่อไปนี้คือรายชื่อคลังข้อมูลผู้ป่วยหลักที่มีขอบเขตครอบคลุมกว้าง (ไม่จำกัดเฉพาะโรคหรือสาขาเฉพาะทาง ) โดยมีตัวแปรต่างๆ เช่น ผลการตรวจทางห้องปฏิบัติการ ร้านขายยา อายุ เชื้อชาติ สถานะทางเศรษฐกิจและสังคม โรคร่วม และการเปลี่ยนแปลงตามช่วงเวลา:
| คลังสินค้า | ผู้สนับสนุน | ที่ตั้งหลัก | ขอบเขต | เข้าถึง |
|---|---|---|---|---|
| จักรวาลอันยิ่งใหญ่[ 38 ] | อีพีซิสเต็มส์ | สหรัฐอเมริกา | ผู้ป่วย 296 [ 39 ]ล้านคน | ฟรีสำหรับองค์กรที่เข้าร่วม |
| PCORnet [ 38 ] | สถาบันวิจัยผลลัพธ์ที่เน้นผู้ป่วยเป็นศูนย์กลาง (PCORI) | สหรัฐอเมริกา | ผู้ป่วย 140 ล้านคน | ฟรีสำหรับองค์กรที่เข้าร่วม |
| OLDW (คลังข้อมูลของ OptumLabs) | ออปตัม | สหรัฐอเมริกา | ผู้ป่วย 160 [ 40 ]ล้านคน | โดยมีค่าธรรมเนียม หรือฟรีผ่านสถาบันการศึกษาบางแห่ง[ 41 ] |
| EHDEN [ 42 ] (เครือข่ายหลักฐานข้อมูลสุขภาพแห่งยุโรป) | โครงการริเริ่มด้านสุขภาพเชิงนวัตกรรมของสหภาพยุโรป | ยุโรป | ผู้ป่วย 133 ล้านคน[ 43 ] | เปิดให้ค้นพบได้ฟรี อาจมีค่าธรรมเนียมสำหรับการใช้งานครั้งที่สอง[ 44 ] |
คลังข้อมูลเหล่านี้ช่วยให้การดูแลสุขภาพเป็นไปอย่างมีประสิทธิภาพมากขึ้น โดยสนับสนุนการศึกษาแบบย้อนหลัง การวิจัยเปรียบเทียบประสิทธิผลและการวิเคราะห์เชิงพยากรณ์ซึ่งมักใช้ปัญญาประดิษฐ์ที่ประยุกต์ใช้ในด้านการดูแลสุขภาพ
ดูเพิ่มเติม
- รายชื่อซอฟต์แวร์ระบบวิเคราะห์ข้อมูลทางธุรกิจ
- ดาต้าเลค – แหล่งเก็บข้อมูลที่จัดเก็บในรูปแบบข้อมูลดิบ
- Data mesh – กรอบสถาปัตยกรรมแบบกระจายศูนย์สำหรับการจัดการข้อมูล
อ่านเพิ่มเติม
- Davenport, Thomas H.และ Harris, Jeanne G. การแข่งขันด้วยการวิเคราะห์ข้อมูล: วิทยาศาสตร์ใหม่แห่งชัยชนะ (2007) สำนักพิมพ์ Harvard Business School. ISBN 978-1-4221-0332-6
- Ganczarski, Joe. การนำระบบคลังข้อมูลไปใช้: การศึกษาปัจจัยสำคัญในการนำไปใช้ (2009) VDM Verlag ISBN 3-639-18589-7ISBN 978-3-639-18589-8
- คิมบอลล์, ราล์ฟ และ รอสส์, มาร์จี. ชุดเครื่องมือคลังข้อมูลฉบับที่สาม (2013) ไวลีย์, ISBN 978-1-118-53080-1
- ลินสเตดท์, กราเซียโน่, ฮัลท์เกรน. ธุรกิจของ Data Vault Modelingฉบับพิมพ์ครั้งที่สอง (2010) Dan linstedt, ISBN 978-1-4357-1914-9
- วิลเลียม อินมอน. การสร้างคลังข้อมูล (2005) สำนักพิมพ์ John Wiley and Sons, ISBN 978-81-265-0645-3
- Watson, H. (2002). การพัฒนาล่าสุดในด้านคลังข้อมูล. การสื่อสารของสมาคมระบบสารสนเทศ, 8, หน้า-หน้า. https://doi.org/10.17705/1CAIS.00801
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ คลังข้อมูล
ใน ด้านคอมพิวเตอร์ คลัง ข้อมูล ( DW หรือ DWH ) หรือที่รู้จักกันในชื่อ คลังข้อมูลระดับองค์กร ( EDW ) คือระบบที่ใช้สำหรับ การรายงาน และ การวิเคราะห์ข้อมูล และเป็นองค์ประกอบหลักของ...
ส่วนประกอบ
สภาพแวดล้อมสำหรับคลังข้อมูลและศูนย์ข้อมูลย่อยประกอบด้วยสิ่งต่อไปนี้:
ฐานข้อมูลปฏิบัติการ
ฐานข้อมูลปฏิบัติการได้รับการปรับให้เหมาะสมเพื่อรักษา ความสมบูรณ์ของข้อมูล และความเร็วในการบันทึกธุรกรรมทางธุรกิจโดยใช้การ ทำให้เป็นมาตรฐานของฐานข้อมูล และ แบบจำลองความสัมพันธ์ระหว่างเอน ทิ ตี [ 4 ] โดยทั่วไปแล้วนักออกแบบระบบปฏิบัติการจะปฏิบัติตามการ...
ฐานข้อมูล
ฐาน ข้อมูล คือชุดข้อมูลที่จัดระเบียบซึ่งจัดเก็บและจัดการทางอิเล็กทรอนิกส์ [ 6 ] ออกแบบมาเพื่อจัดเก็บ เรียกค้น และจัดการข้อมูลที่มีโครงสร้างโดยใช้ DBMS (ซอฟต์แวร์การจัดการฐานข้อมูล) สำหรับการสอบถามและจัดการข้อมูล