คลังข้อมูล

Q: ฐานข้อมูล

ฐาน ข้อมูล คือชุดข้อมูลที่จัดระเบียบซึ่งจัดเก็บและจัดการทางอิเล็กทรอนิกส์ [ 6 ] ออกแบบมาเพื่อจัดเก็บ เรียกค้น และจัดการข้อมูลที่มีโครงสร้างโดยใช้ DBMS (ซอฟต์แวร์การจัดการฐานข้อมูล) สำหรับการสอบถามและจัดการข้อมูล

ในด้านคอมพิวเตอร์คลังข้อมูล ( DWหรือDWH ) หรือที่รู้จักกันในชื่อคลังข้อมูลระดับองค์กร ( EDW ) คือระบบที่ใช้สำหรับการรายงานและการวิเคราะห์ข้อมูลและเป็นองค์ประกอบหลักของระบบธุรกิจอัจฉริยะ [ ^{1 ] คลัง} ข้อมูลเป็น แหล่งเก็บ ข้อมูล ส่วนกลางที่บูรณาการจากแหล่งข้อมูลที่แตกต่างกัน โดยจะจัดเก็บข้อมูลปัจจุบันและข้อมูลในอดีตในรูปแบบที่เหมาะสมที่สุดสำหรับการวิเคราะห์ข้อมูล การสร้างรายงาน และการพัฒนาข้อมูลเชิงลึกจากข้อมูลที่บูรณาการ^{[ 2 ]}คลังข้อมูลมีจุดประสงค์เพื่อให้ผู้1วิเคราะห์และผู้จัดการใช้เพื่อช่วยในการตัดสินใจขององค์กร^{[ 3 ]}

ข้อมูลที่จัดเก็บในคลังข้อมูลจะถูกอัปโหลดจากระบบปฏิบัติการ (เช่น การตลาดหรือการขาย) ข้อมูลอาจผ่านแหล่งเก็บข้อมูลเชิงปฏิบัติการและอาจต้องมีการทำความสะอาดข้อมูลเพิ่มเติมเพื่อให้มั่นใจในคุณภาพของข้อมูลก่อนที่จะนำไปใช้ในคลังข้อมูลเพื่อการรายงาน

กระบวนการทำงานหลักสองอย่างสำหรับการสร้างระบบคลังข้อมูลคือการดึงข้อมูล การแปลงข้อมูล และการโหลดข้อมูล (ETL) และการดึงข้อมูล การโหลดข้อมูล และการแปลงข้อมูล (ELT)

ส่วนประกอบ

สภาพแวดล้อมสำหรับคลังข้อมูลและศูนย์ข้อมูลย่อยประกอบด้วยสิ่งต่อไปนี้:

ระบบแหล่งข้อมูล (บ่อยครั้งคือฐานข้อมูลการดำเนินงานของบริษัท เช่น ฐานข้อมูลเชิงสัมพันธ์^{[ 3 ]} )
เทคโนโลยีและกระบวนการบูรณาการข้อมูลเพื่อดึงข้อมูลจากระบบต้นทาง แปลงข้อมูล และโหลดข้อมูลลงในคลังข้อมูลหรือคลังเก็บข้อมูล^{[ 3 ]}
สถาปัตยกรรมสำหรับการจัดเก็บข้อมูลในคลังข้อมูลหรือคลังสินค้า;
เครื่องมือและแอปพลิเคชันสำหรับผู้ใช้หลากหลายกลุ่ม;
เมตาเดตา คุณภาพข้อมูล และกระบวนการกำกับดูแล เมตาเดตาประกอบด้วยแหล่งข้อมูล (ชื่อฐานข้อมูล ตาราง และคอลัมน์) กำหนดการรีเฟรช และการวัดการใช้งานข้อมูล^{[ 3 ]}

ระบบที่เกี่ยวข้อง

ฐานข้อมูลปฏิบัติการ

ฐานข้อมูลปฏิบัติการได้รับการปรับให้เหมาะสมเพื่อรักษาความสมบูรณ์ของข้อมูลและความเร็วในการบันทึกธุรกรรมทางธุรกิจโดยใช้การทำให้เป็นมาตรฐานของฐานข้อมูลและแบบจำลองความสัมพันธ์ระหว่างเอน ทิ ตี^{[ 4 ]}โดยทั่วไปแล้วนักออกแบบระบบปฏิบัติการจะปฏิบัติตามการทำให้เป็นมาตรฐานของฐานข้อมูลเพื่อให้มั่นใจในความสมบูรณ์ของข้อมูล การออกแบบฐานข้อมูลที่เป็นมาตรฐานอย่างสมบูรณ์มักส่งผลให้ข้อมูลจากธุรกรรมทางธุรกิจถูกจัดเก็บไว้ในตารางหลายสิบถึงหลายร้อยตารางฐานข้อมูลเชิงสัมพันธ์มีประสิทธิภาพในการจัดการความสัมพันธ์ระหว่างตารางเหล่านี้ ฐานข้อมูลมีประสิทธิภาพในการแทรก/อัปเดตที่รวดเร็วมาก เนื่องจากมีเพียงข้อมูลจำนวนเล็กน้อยในตารางเหล่านั้นที่ได้รับผลกระทบจากแต่ละธุรกรรม เพื่อปรับปรุงประสิทธิภาพ ข้อมูลเก่าจะถูกล้างออกเป็นระยะ

คลังข้อมูลได้รับการปรับให้เหมาะสมกับรูปแบบการเข้าถึงข้อมูลเชิงวิเคราะห์ ซึ่งโดยปกติแล้วจะเกี่ยวข้องกับการเลือกฟิลด์เฉพาะเจาะจงมากกว่าการเลือกทุกฟิลด์ดังเช่นที่พบได้ทั่วไปในฐานข้อมูลเชิงปฏิบัติการ เนื่องจากความแตกต่างในการเข้าถึงนี้ ฐานข้อมูลเชิงปฏิบัติการ (เรียกอย่างคร่าวๆ ว่า OLTP) จึงได้รับประโยชน์จากการใช้ระบบจัดการฐานข้อมูล (DBMS) แบบเน้นแถว ในขณะที่ฐานข้อมูลเชิงวิเคราะห์ (เรียกอย่างคร่าวๆ ว่า OLAP) จะได้รับประโยชน์จากการใช้ระบบจัดการฐานข้อมูลแบบเน้นคอลัมน์ระบบปฏิบัติการจะเก็บรักษาภาพรวมของธุรกิจในขณะที่คลังข้อมูลจะเก็บรักษาข้อมูลในอดีตผ่านกระบวนการ ETL ที่ย้ายข้อมูลจากระบบปฏิบัติการไปยังคลังข้อมูลเป็นระยะๆ

การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) มีลักษณะเฉพาะคืออัตราการทำธุรกรรมต่ำและการสอบถามที่ซับซ้อนซึ่งเกี่ยวข้องกับการรวมกลุ่ม^{[ 5 ]}เวลาตอบสนองเป็นมาตรวัดประสิทธิภาพที่มีประสิทธิภาพของระบบ OLAP แอปพลิเคชัน OLAP ถูกใช้กันอย่างแพร่หลายสำหรับการทำเหมืองข้อมูลฐานข้อมูล OLAP จัดเก็บข้อมูลที่รวมกลุ่มและข้อมูลในอดีตในรูปแบบหลายมิติ (โดยปกติจะเป็นรูปแบบดาว ) ระบบ OLAP โดยทั่วไปมีความหน่วงของข้อมูลไม่กี่ชั่วโมง ในขณะที่ความหน่วงของดาต้ามาทจะใกล้เคียงกับหนึ่งวัน แนวทาง OLAP ใช้ในการวิเคราะห์ข้อมูลหลายมิติจากหลายแหล่งและหลายมุมมอง การดำเนินการพื้นฐานสามอย่างใน OLAP คือ การรวมกลุ่ม (roll-up) การเจาะลึก (drill-down) และการแบ่งส่วน (slicing & dicing)

การประมวลผลธุรกรรมออนไลน์ (OLTP) มีลักษณะเด่นคือการทำธุรกรรมออนไลน์จำนวนมากในระยะเวลาสั้นๆ (INSERT, UPDATE, DELETE) ระบบ OLTP เน้นการประมวลผลคำสั่งค้นหาที่รวดเร็วและการรักษาความสมบูรณ์ของข้อมูลในสภาพแวดล้อมที่มีการเข้าถึงหลายช่องทาง สำหรับระบบ OLTP ประสิทธิภาพจะวัดจากจำนวนธุรกรรมต่อวินาที ฐานข้อมูล OLTP ประกอบด้วยข้อมูลที่ละเอียดและเป็นปัจจุบัน โครงสร้างข้อมูลที่ใช้ในการจัดเก็บฐานข้อมูลธุรกรรมคือแบบจำลองเอนทิตี (โดยปกติคือ3NF ) การทำให้เป็นรูปแบบปกติ (Normalization) เป็นมาตรฐานสำหรับเทคนิคการสร้างแบบจำลองข้อมูลในระบบนี้

การวิเคราะห์เชิงพยากรณ์คือการค้นหาและวัดปริมาณรูปแบบที่ซ่อนอยู่ภายในข้อมูลโดยใช้แบบจำลองทางคณิตศาสตร์ที่ซับซ้อนเพื่อเตรียมพร้อมสำหรับผลลัพธ์ในอนาคตที่แตกต่างกัน รวมถึงความต้องการผลิตภัณฑ์และเพื่อการตัดสินใจที่ดีขึ้น ในทางตรงกันข้าม OLAP มุ่งเน้นไปที่การวิเคราะห์ข้อมูลในอดีตและเป็นการตอบสนองต่อเหตุการณ์ที่เกิดขึ้น ระบบการพยากรณ์ยังถูกนำมาใช้ในการจัดการความสัมพันธ์กับลูกค้า (CRM) ด้วย

ฐานข้อมูล

ฐานข้อมูลคือชุดข้อมูลที่จัดระเบียบซึ่งจัดเก็บและจัดการทางอิเล็กทรอนิกส์^{[ 6 ]}ออกแบบมาเพื่อจัดเก็บ เรียกค้น และจัดการข้อมูลที่มีโครงสร้างโดยใช้ DBMS (ซอฟต์แวร์การจัดการฐานข้อมูล) สำหรับการสอบถามและจัดการข้อมูล

ความแตกต่างระหว่างคลังข้อมูลและดาต้ามาร์ท^{[ 7 ]}
คุณลักษณะ	คลังข้อมูล	ฐานข้อมูล
ประเภทข้อมูล	ทางประวัติศาสตร์	การดำเนินงาน
รูปแบบของข้อมูล	โครงสร้างสูง	โครงสร้าง
วัตถุประสงค์	โอลาป	OLTP
ปริมาณข้อมูลที่จัดเก็บ	ใหญ่กว่า	จำกัด

ดาต้ามาร์ท

ดาต้ามาร์ทเป็นคลังข้อมูลแบบง่ายที่เน้นเฉพาะเรื่องหรือพื้นที่การทำงานเพียงเรื่องเดียว ดังนั้นจึงดึงข้อมูลจากแหล่งข้อมูลจำนวนจำกัด เช่น ฝ่ายขาย ฝ่ายการเงิน หรือฝ่ายการตลาด ดาต้ามาร์ทมักถูกสร้างและควบคุมโดยแผนกเดียวในองค์กร แหล่งข้อมูลอาจเป็นระบบปฏิบัติการภายใน คลังข้อมูลส่วนกลาง หรือข้อมูลภายนอก^{[ 8 ]}

ความแตกต่างระหว่างคลังข้อมูล (Data Warehouse) และข้อมูลย่อย (Data Mart)
คุณลักษณะ	คลังข้อมูล	ดาต้ามาร์ท
ขอบเขตของข้อมูล	องค์กร	แผนก
จำนวนสาขาวิชา	หลายรายการ	เดี่ยว
การสร้างนั้นยากแค่ไหน	ยาก	ง่าย
ปริมาณข้อมูลที่จัดเก็บ	ใหญ่กว่า	จำกัด

ประเภทของดาต้ามาท ได้แก่ ดาต้ามาทแบบพึ่งพาดาต้ามาทแบบอิสระ และดาต้ามาทแบบผสม

ดาต้าเลค

Data lakeคือแหล่งเก็บข้อมูลส่วนกลางที่จัดเก็บข้อมูลปริมาณมากในรูปแบบดิบซึ่งจะถูกประมวลผลในระหว่างการทำงาน^{[ 9 ]}สามารถรวบรวมข้อมูลจากหลายแหล่ง เช่น API, ไฟล์, ฐานข้อมูล, เซ็นเซอร์, เว็บไซต์ ฯลฯ แตกต่างจากคลังข้อมูล Data lake จัดเก็บข้อมูลในรูปแบบที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้าง ทำให้สามารถนำไปใช้ในการเรียนรู้ของเครื่องและการประมวลผลข้อมูลขนาดใหญ่ได้

^{[ 10 ]}ความแตกต่างระหว่างคลังข้อมูลและทะเลสาบข้อมูล
คุณลักษณะ	คลังข้อมูล	ดาต้าเลค
รูปแบบของข้อมูล	โครงสร้าง	โครงสร้าง กึ่งโครงสร้าง หรือไม่มีโครงสร้าง
ข้อมูลถูกประมวลผลอย่างไร	ทำความสะอาด เปลี่ยนแปลง จัดเก็บ	ในรูปแบบดิบและแปรรูปเมื่อจำเป็น
การสร้างนั้นยากแค่ไหน	ซับซ้อน	ง่ายแต่ควบคุมยาก
ปริมาณข้อมูลที่จัดเก็บ	ใหญ่กว่า	ใหญ่มาก
ค่าใช้จ่าย	ต้นทุนการจัดเก็บที่สูงขึ้น	ต้นทุนการจัดเก็บที่ต่ำกว่า

ตัวแปร

อีทีแอล

คลังข้อมูลแบบ ทั่วไป ที่ใช้การดึงข้อมูล การแปลง ข้อมูล และการโหลดข้อมูล (ETL) จะใช้ เลเยอร์ การจัดเตรียมข้อมูล การบูรณาการข้อมูลและการเข้าถึงข้อมูลเพื่อรองรับฟังก์ชันหลัก เลเยอร์การจัดเตรียมข้อมูลหรือฐานข้อมูลการจัดเตรียมข้อมูลจะจัดเก็บข้อมูลดิบที่ดึงมาจากระบบข้อมูลต้นทางที่แตกต่างกัน เลเยอร์การบูรณาการจะรวมชุดข้อมูลที่แตกต่างกันโดยการแปลงข้อมูลจากเลเยอร์การจัดเตรียมข้อมูล ซึ่งมักจะจัดเก็บข้อมูลที่แปลงแล้วนี้ไว้ใน ฐาน ข้อมูลคลังข้อมูลปฏิบัติการ (ODS) จากนั้นข้อมูลที่บูรณาการแล้วจะถูกย้ายไปยังฐานข้อมูลอีกแห่งหนึ่ง ซึ่งมักเรียกว่าฐานข้อมูลคลังข้อมูล โดยข้อมูลจะถูกจัดเรียงเป็นกลุ่มตามลำดับชั้น ซึ่งมักเรียกว่ามิติ และเป็นข้อเท็จจริงและข้อเท็จจริงรวม การรวมกันของข้อเท็จจริงและมิติบางครั้งเรียกว่าสคีมาดาว เลเยอร์การเข้าถึงช่วยให้ผู้ใช้สามารถดึงข้อมูลได้^[¹¹^]

แหล่งข้อมูลหลักได้รับการทำความสะอาดแปลง จัดหมวดหมู่ และพร้อมใช้งานสำหรับผู้จัดการและผู้เชี่ยวชาญด้านธุรกิจอื่นๆ เพื่อการขุดข้อมูลการประมวลผลเชิงวิเคราะห์ออนไลน์การวิจัยตลาดและการสนับสนุนการตัดสินใจ [ ^{12 ] อย่างไรก็ตาม}วิธีการดึงและวิเคราะห์ข้อมูล การสกัด แปลง และโหลดข้อมูล และการจัดการพจนานุกรมข้อมูล ก็ถือเป็นองค์ประกอบที่จำเป็นของระบบคลังข้อมูล เช่นกัน การอ้างอิงถึงคลังข้อมูลจำนวนมากใช้บริบทที่กว้างขึ้นนี้ ดังนั้น คำจำกัดความที่ขยายของคลังข้อมูลจึงรวมถึงเครื่องมือข่าวกรองธุรกิจเครื่องมือในการสกัด แปลง และโหลดข้อมูลลงในที่เก็บข้อมูล และเครื่องมือในการจัดการและดึงข้อมูลเมตา

อีแอลที

การจัดเก็บข้อมูลแบบ ELTช่วยลดความจำเป็นในการใช้ เครื่องมือ ETL แยกต่างหาก สำหรับการแปลงข้อมูล โดยจะใช้พื้นที่จัดเก็บชั่วคราวภายในคลังข้อมูลเอง ในแนวทางนี้ ข้อมูลจะถูกดึงมาจากระบบต้นทางที่หลากหลาย และถูกโหลดเข้าสู่คลังข้อมูลโดยตรง ก่อนที่จะมีการแปลงใดๆ เกิดขึ้น การแปลงที่จำเป็นทั้งหมดจะดำเนินการภายในคลังข้อมูลเอง สุดท้าย ข้อมูลที่ผ่านการประมวลผลแล้วจะถูกโหลดลงในตารางเป้าหมายในคลังข้อมูลเดียวกัน

ประโยชน์

คลังข้อมูลจะเก็บสำเนาข้อมูลจากระบบธุรกรรมต้นทาง ความซับซ้อนทางสถาปัตยกรรมนี้เปิดโอกาสให้:

ผสานรวมข้อมูลจากหลายแหล่งเข้าไว้ในฐานข้อมูลและแบบจำลองข้อมูลเดียว การรวมข้อมูลจำนวนมากไว้ในฐานข้อมูลเดียวจะช่วยให้สามารถใช้เครื่องมือสืบค้นข้อมูลเพียงตัวเดียวในการนำเสนอข้อมูลในที่เก็บข้อมูลเชิงปฏิบัติการได้
ลดปัญหาการแย่งชิงการล็อกระดับแยกส่วนใน ระบบ ประมวลผลธุรกรรมที่เกิดจากคำสั่งวิเคราะห์ที่ใช้เวลานานในฐานข้อมูลประมวลผลธุรกรรม
รักษาประวัติข้อมูล ไว้ แม้ว่าระบบธุรกรรมต้นทางจะไม่ทำเช่นนั้นก็ตาม
บูรณาการข้อมูลจากระบบแหล่งข้อมูลหลายระบบ ช่วยให้มองเห็นภาพรวมขององค์กรได้จากส่วนกลาง ประโยชน์ข้อนี้มีค่าเสมอ โดยเฉพาะอย่างยิ่งเมื่อองค์กรเติบโตขึ้นจากการควบรวมกิจการ
ปรับปรุงคุณภาพข้อมูลโดยการให้รหัสและคำอธิบายที่สอดคล้องกัน รวมถึงการระบุหรือแก้ไขข้อมูลที่ไม่ถูกต้อง
นำเสนอข้อมูลขององค์กรอย่างสม่ำเสมอ
จัดเตรียม แบบจำลองข้อมูลทั่วไปแบบเดียวสำหรับข้อมูลทั้งหมดที่เกี่ยวข้อง โดยไม่คำนึงถึงแหล่งที่มาของข้อมูล
ปรับโครงสร้างข้อมูลใหม่เพื่อให้ผู้ใช้งานทางธุรกิจเข้าใจได้ง่าย
ปรับโครงสร้างข้อมูลใหม่เพื่อให้ได้ประสิทธิภาพการสืบค้นข้อมูลที่ยอดเยี่ยม แม้แต่สำหรับการสืบค้นข้อมูลเชิงวิเคราะห์ที่ซับซ้อน โดยไม่ส่งผลกระทบต่อระบบปฏิบัติการ
เพิ่มมูลค่าให้กับแอปพลิเคชันทางธุรกิจที่ใช้งานได้จริง โดยเฉพาะ ระบบ การจัดการความสัมพันธ์กับลูกค้า (CRM)
ทำให้การเขียนคำถามเพื่อสนับสนุนการตัดสินใจง่ายขึ้น
จัดระเบียบและแยกแยะข้อมูลที่ซ้ำซ้อน

ประวัติศาสตร์

แนวคิดเรื่องคลังข้อมูลมีมาตั้งแต่ช่วงปลายทศวรรษ 1980 ^{[ 13 ]}เมื่อนักวิจัยของ IBM อย่าง Barry Devlin และ Paul Murphy ได้พัฒนา "คลังข้อมูลธุรกิจ" ขึ้นมา โดยพื้นฐานแล้ว แนวคิดคลังข้อมูลมีจุดประสงค์เพื่อจัดเตรียมแบบจำลองทางสถาปัตยกรรมสำหรับการไหลของข้อมูลจากระบบปฏิบัติการไปยังสภาพแวดล้อมการสนับสนุนการตัดสินใจแนวคิดนี้พยายามแก้ไขปัญหาต่างๆ ที่เกี่ยวข้องกับการไหลนี้ โดยเฉพาะอย่างยิ่งต้นทุนที่สูง ในกรณีที่ไม่มีสถาปัตยกรรมคลังข้อมูล จำเป็นต้องมีระบบสำรองจำนวนมากเพื่อรองรับสภาพแวดล้อมการสนับสนุนการตัดสินใจหลายแห่ง ในองค์กรขนาดใหญ่ เป็นเรื่องปกติที่สภาพแวดล้อมการสนับสนุนการตัดสินใจหลายแห่งจะทำงานอย่างอิสระ แม้ว่าแต่ละสภาพแวดล้อมจะให้บริการผู้ใช้ที่แตกต่างกัน แต่ก็มักต้องการข้อมูลที่จัดเก็บไว้เหมือนกัน กระบวนการรวบรวม ทำความสะอาด และบูรณาการข้อมูลจากแหล่งต่างๆ ซึ่งโดยปกติมาจากระบบปฏิบัติการที่มีอยู่มานาน (มักเรียกว่าระบบดั้งเดิม ) มักจะถูกทำซ้ำบางส่วนสำหรับแต่ละสภาพแวดล้อม นอกจากนี้ ระบบปฏิบัติการยังได้รับการตรวจสอบใหม่บ่อยครั้งเมื่อความต้องการการสนับสนุนการตัดสินใจใหม่ๆ เกิดขึ้น ข้อกำหนดใหม่ๆ มักทำให้จำเป็นต้องรวบรวม ทำความสะอาด และบูรณาการข้อมูลใหม่จาก " คลังข้อมูล " ที่จัดเตรียมไว้เพื่อให้ผู้ใช้เข้าถึงได้ง่าย

นอกจากนี้ การตีพิมพ์หนังสือ The IRM Imperative (Wiley & Sons, 1991) โดย James M. Kerr ทำให้แนวคิดเรื่องการจัดการและประเมินมูลค่าเป็นตัวเงินให้กับทรัพยากรข้อมูลขององค์กร แล้วรายงานมูลค่านั้นเป็นสินทรัพย์ในงบดุล ได้รับความนิยมมากขึ้น ในหนังสือเล่มนี้ Kerr ได้อธิบายวิธีการเติมข้อมูลลงในฐานข้อมูลเฉพาะเรื่องจากข้อมูลที่ได้จากระบบที่ขับเคลื่อนด้วยธุรกรรม เพื่อสร้างพื้นที่จัดเก็บข้อมูลที่สามารถนำข้อมูลสรุปไปใช้ประโยชน์เพิ่มเติมในการตัดสินใจของผู้บริหารได้ แนวคิดนี้ช่วยกระตุ้นให้เกิดความคิดเพิ่มเติมเกี่ยวกับวิธีการพัฒนาและจัดการคลังข้อมูลในทางปฏิบัติภายในองค์กรต่างๆ

พัฒนาการที่สำคัญในช่วงแรกๆ ของระบบคลังข้อมูล:

ทศวรรษ 1960 – General MillsและDartmouth College ร่วมกันพัฒนาคำศัพท์ เกี่ยว กับ มิติและข้อเท็จจริงในโครงการวิจัย^{[ 14 ]}
ทศวรรษ 1970 – ACNielsenและ IRI ให้บริการคลังข้อมูลเชิงมิติสำหรับการขายปลีก^{[ 14 ]}
ทศวรรษ 1970 – บิล อินมอนเริ่มกำหนดและอภิปรายคำว่าคลังข้อมูล^{[ 15 ]}^{[ 16 ]}^{[ 17 ]}
ปี 1975 – Sperry UnivacเปิดตัวMAPPER ( maintain, prepare, and produce executive reports ) ซึ่งเป็นระบบจัดการฐานข้อมูลและระบบรายงานที่รวมถึง 4GLตัวแรกของโลกนับเป็นแพลตฟอร์มแรกที่ออกแบบมาเพื่อสร้างศูนย์ข้อมูล (ซึ่งเป็นต้นแบบของเทคโนโลยีคลังข้อมูลในปัจจุบัน)
พ.ศ. 2526 – Teradataเปิด ตัวคอมพิวเตอร์ฐานข้อมูล DBC/1012ซึ่งออกแบบมาโดยเฉพาะเพื่อสนับสนุนการตัดสินใจ^{[ 18 ]}
ปี 1984 – บริษัท Metaphor Computer Systemsซึ่งก่อตั้งโดยเดวิด ลิดเดิลและดอน มาสซาโร ได้เปิดตัวชุดฮาร์ดแวร์/ซอฟต์แวร์และ GUI สำหรับผู้ใช้ทางธุรกิจ เพื่อสร้างระบบจัดการฐานข้อมูลและระบบวิเคราะห์ข้อมูล
พ.ศ. 2531 – แบร์รี เดฟลิน และพอล เมอร์ฟี ตีพิมพ์บทความเรื่อง "สถาปัตยกรรมสำหรับระบบธุรกิจและสารสนเทศ" ซึ่งพวกเขาได้แนะนำคำว่า "คลังข้อมูลธุรกิจ" ^{[ 19 ]}
ปี 1990 – บริษัท Red Brick Systems ที่ก่อตั้งโดยRalph Kimballเปิดตัว Red Brick Warehouse ซึ่งเป็นระบบจัดการฐานข้อมูลที่ออกแบบมาโดยเฉพาะสำหรับการจัดเก็บข้อมูลขนาดใหญ่ (Data Warehousing)
ปี 1991 – เจมส์ เอ็ม. เคอร์ เขียนหนังสือ "The IRM Imperative" ซึ่งเสนอแนะว่าทรัพยากรข้อมูลสามารถรายงานเป็นสินทรัพย์ในงบดุลได้ ซึ่งส่งเสริมความสนใจในเชิงพาณิชย์ในการจัดตั้งคลังข้อมูล
ปี 1991 – บริษัท Prism Solutions ที่ก่อตั้งโดยBill Inmonเปิดตัว Prism Warehouse Manager ซอฟต์แวร์สำหรับพัฒนาระบบคลังข้อมูล
1992 – Bill Inmon ตี ^{พิมพ์}หนังสือBuilding the Data Warehouse [ ^{20 ]}
ปี 1995 – สถาบัน Data Warehousing Institute ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่ส่งเสริมเทคโนโลยีคลังข้อมูล ได้ถูกก่อตั้งขึ้น
พ.ศ. 2539 – ราล์ฟ คิมบอลล์ตีพิมพ์หนังสือThe Data Warehouse Toolkit ^{[ 21 ]}
พ.ศ. 2541 – การสร้างแบบจำลอง Focal ได้รับการนำไปใช้เป็นแนวทางการสร้างแบบจำลองคลังข้อมูลแบบผสมผสาน (ไฮบริด) โดยมี Patrik Lager เป็นหนึ่งในผู้ขับเคลื่อนหลัก^{[ 22 ]}^{[ 23 ]}
ปี 2000 – แดน ลินสเตดท์ เผยแพร่แบบจำลอง คลังข้อมูล (Data Vault Modeling ) สู่สาธารณะซึ่งคิดค้นขึ้นในปี 1990 ในฐานะทางเลือกแทนแบบจำลองของอินมอนและคิมบอลล์ (Inmon and Kimball) เพื่อจัดเก็บข้อมูลประวัติศาสตร์ระยะยาวที่มาจากระบบปฏิบัติการหลายระบบ โดยเน้นการติดตาม การตรวจสอบ และความยืดหยุ่นต่อการเปลี่ยนแปลงของแบบจำลองข้อมูลต้นทาง
ปี 2008 – บิล อินมอนร่วมกับเดเร็ก สเตราส์ และเจเนีย นอยช์ลอส ตีพิมพ์หนังสือ "DW 2.0: The Architecture for the Next Generation of Data Warehousing" ซึ่งอธิบายถึงแนวทางจากบนลงล่างในการจัดเก็บข้อมูล และบัญญัติศัพท์ "ดาต้าแวร์เฮาส์ซิ่ง 2.0" ขึ้นมา
2008 – การสร้างแบบจำลองจุดยึดได้รับการกำหนดรูปแบบอย่างเป็นทางการในเอกสารที่นำเสนอในการประชุมนานาชาติเกี่ยวกับการสร้างแบบจำลองเชิงแนวคิด และได้รับรางวัลเอกสารยอดเยี่ยม^{[ 24 ]}
ปี 2012 – บิล อินมอนพัฒนาและเผยแพร่เทคโนโลยีที่เรียกว่า "การแยกความหมายของข้อความ" (Textual Disambiguation) การแยกความหมายของข้อความจะนำบริบทมาใช้กับข้อความดิบ และจัดรูปแบบข้อความดิบและบริบทใหม่ให้เป็นรูปแบบฐานข้อมูลมาตรฐาน เมื่อข้อความดิบผ่านกระบวนการแยกความหมายของข้อความแล้ว ก็สามารถเข้าถึงและวิเคราะห์ได้อย่างง่ายดายและมีประสิทธิภาพด้วยเทคโนโลยี Business Intelligence มาตรฐาน การแยกความหมายของข้อความทำได้โดยการดำเนินการ ETL (Textual Evaluation and Transformation) การแยกความหมายของข้อความมีประโยชน์ในทุกที่ที่มีข้อความดิบ เช่น ในเอกสาร Hadoop อีเมล และอื่นๆ
2013 – Data vault 2.0 ได้รับการเผยแพร่^{[ 25 ]}^{[ 26 ]}ซึ่งมีการเปลี่ยนแปลงเล็กน้อยในวิธีการสร้างแบบจำลอง รวมถึงการบูรณาการกับแนวปฏิบัติที่ดีที่สุดจากวิธีการ สถาปัตยกรรม และการใช้งานอื่นๆ รวมถึงหลักการ Agile และ CMMI

การจัดระเบียบข้อมูล

ข้อเท็จจริง

ข้อเท็จจริง คือ ค่าหรือการวัดในระบบที่กำลังได้รับการจัดการ

ข้อมูลดิบคือข้อมูลที่รายงานโดยหน่วยงานที่รายงาน ตัวอย่างเช่น ในระบบโทรศัพท์มือถือ หากสถานีฐานรับส่งสัญญาณ (BTS) ได้รับคำขอจัดสรรช่องสัญญาณ 1,000 คำขอ จัดสรรให้ 820 คำขอ และปฏิเสธส่วนที่เหลือ สถานีฐานรับส่งสัญญาณอาจรายงานข้อมูลดิบสามข้อไปยังระบบการจัดการ:

tch_req_total = 1000
tch_req_success = 820
tch_req_fail = 180

ข้อมูลดิบจะถูกรวบรวมในระดับที่สูงขึ้นในมิติ ต่างๆ เพื่อดึงข้อมูลที่เกี่ยวข้องกับบริการหรือธุรกิจมากขึ้น ข้อมูลเหล่านี้เรียกว่า ข้อมูลสรุป หรือ บทสรุป

ตัวอย่างเช่น หากมีสถานีฐาน (BTS) สามแห่งในเมืองหนึ่ง ข้อมูลข้างต้นสามารถนำมาประมวลผลในระดับเมืองในมิติเครือข่ายได้ ตัวอย่างเช่น:

tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3

วิธีการจัดเก็บข้อมูลแบบมิติเทียบกับแบบมาตรฐาน

แนวทางที่สำคัญที่สุดสองประการในการจัดเก็บข้อมูลในคลังข้อมูลคือแบบมิติและแบบปกติ แนวทางแบบมิติใช้สคีมาดาวตามที่เสนอโดยRalph Kimballแนวทางแบบปกติ หรือที่เรียกว่ารูปแบบปกติที่สาม (3NF) เป็นแบบจำลองปกติเชิงสัมพันธ์ของเอนทิตีที่เสนอโดย Bill Inmon ^{[ 27 ]}

แนวทางเชิงมิติ

ในแนวทางเชิงมิติข้อมูลธุรกรรมจะถูกแบ่งออกเป็น "ข้อเท็จจริง" ซึ่งโดยทั่วไปคือข้อมูลธุรกรรมที่เป็นตัวเลข และ " มิติ " ซึ่งเป็นข้อมูลอ้างอิงที่ให้บริบทแก่ข้อเท็จจริง ตัวอย่างเช่น ธุรกรรมการขายสามารถแบ่งออกเป็นข้อเท็จจริง เช่น จำนวนสินค้าที่สั่งซื้อและราคาสินค้าทั้งหมดที่ชำระ และแบ่งออกเป็นมิติ เช่น วันที่สั่งซื้อ ชื่อลูกค้า หมายเลขสินค้า สถานที่จัดส่งและสถานที่เรียกเก็บเงิน และพนักงานขายที่รับผิดชอบการรับสินค้า

แนวทางเชิงมิตินี้ทำให้ข้อมูลเข้าใจง่ายขึ้นและเร่งความเร็วในการดึงข้อมูล^{[ 21 ]}โครงสร้างเชิงมิติเข้าใจง่ายสำหรับผู้ใช้ทางธุรกิจ เนื่องจากโครงสร้างถูกแบ่งออกเป็น การวัด/ข้อเท็จจริง และบริบท/มิติ ข้อเท็จจริงเกี่ยวข้องกับกระบวนการทางธุรกิจและระบบการดำเนินงานขององค์กร และมิติคือบริบทเกี่ยวกับข้อเท็จจริงเหล่านั้น (Kimball, Ralph 2008) ข้อดีอีกประการหนึ่งคือแบบจำลองเชิงมิติไม่จำเป็นต้องใช้ฐานข้อมูลเชิงสัมพันธ์ทุกครั้ง ดังนั้นเทคนิคการสร้างแบบจำลองประเภทนี้จึงมีประโยชน์มากสำหรับการสอบถามของผู้ใช้ปลายทางในคลังข้อมูล

แบบจำลองของข้อเท็จจริงและมิติยังสามารถเข้าใจได้ว่าเป็นคิวบ์ข้อมูล [ ²⁸^{] โดยที่มิติเป็นพิกัดเชิงหมวดหมู่ในคิวบ์หลายมิติ}^และข้อเท็จจริงเป็นค่าที่สอดคล้องกับพิกัด

ข้อเสียหลักของวิธีการเชิงมิติ ได้แก่:

การรักษาความถูกต้องของข้อเท็จจริงและมิติข้อมูลเป็นเรื่องซับซ้อน เมื่อต้องโหลดข้อมูลจากระบบปฏิบัติการที่แตกต่างกันเข้าสู่คลังข้อมูล
การปรับเปลี่ยนโครงสร้างคลังสินค้าจะทำได้ยากหากองค์กรเปลี่ยนวิธีการดำเนินธุรกิจ

แนวทางมาตรฐาน

ในแนวทางการจัดระเบียบข้อมูลแบบมาตรฐาน ข้อมูลในคลังข้อมูลจะถูกจัดเก็บโดยปฏิบัติตามกฎการจัดระเบียบฐานข้อมูล ในระดับหนึ่ง ตารางฐานข้อมูลเชิงสัมพันธ์แบบมาตรฐานจะถูกจัดกลุ่มตาม หัวข้อ (ตัวอย่างเช่น ลูกค้า ผลิตภัณฑ์ และการเงิน) เมื่อนำไปใช้ในองค์กรขนาดใหญ่ ผลลัพธ์ที่ได้คือตารางหลายสิบตารางที่เชื่อมโยงกันด้วยเครือข่ายของการเชื่อมต่อ (Kimball, Ralph 2008)

ข้อดีหลักของวิธีการนี้คือการเพิ่มข้อมูลลงในฐานข้อมูลทำได้ง่าย ข้อเสียคือเนื่องจากมีตารางจำนวนมาก ผู้ใช้จึงอาจประสบปัญหาในการเชื่อมโยงข้อมูลจากแหล่งต่างๆ เข้าด้วยกันให้เป็นข้อมูลที่มีความหมาย และเข้าถึงข้อมูลได้ยากหากไม่มีความเข้าใจที่ถูกต้องเกี่ยวกับแหล่งข้อมูลและโครงสร้างข้อมูลของคลังข้อมูล

ทั้งแบบจำลองมาตรฐานและแบบจำลองเชิงมิติสามารถแสดงได้ในแผนภาพความสัมพันธ์ระหว่างเอนทิตี เนื่องจากทั้งสองแบบมีตารางเชิงสัมพันธ์ที่เชื่อมต่อกัน ความแตกต่างระหว่างทั้งสองแบบอยู่ที่ระดับของการทำให้เป็นมาตรฐาน วิธีการเหล่านี้ไม่ได้ขัดแย้งกัน และยังมีวิธีการอื่นๆ อีก วิธีการเชิงมิติอาจเกี่ยวข้องกับการทำให้ข้อมูลเป็นมาตรฐานในระดับหนึ่ง (Kimball, Ralph 2008)

ในธุรกิจที่ขับเคลื่อนด้วยข้อมูล [ ²⁹^]โรเบิร์ต ฮิลลาร์ดเปรียบเทียบวิธีการทั้งสองโดยพิจารณาจากความต้องการข้อมูลของปัญหาทางธุรกิจ เขาได้สรุปว่าแบบจำลองมาตรฐานมีข้อมูลมากกว่าแบบจำลองมิติเดียวกันมาก (แม้ว่าจะใช้ฟิลด์เดียวกันในทั้งสองแบบจำลองก็ตาม) แต่ต้องแลกมาด้วยความสามารถในการใช้งาน เทคนิคนี้วัดปริมาณข้อมูลในแง่ของ^เอนโทรปีของข้อมูลและความสามารถในการใช้งานในแง่ของการวัดการแปลงข้อมูล Small Worlds ^[³⁰^]

วิธีการออกแบบ

การออกแบบจากล่างขึ้นบน

ในแนวทางจากล่างขึ้นบน จะมีการสร้าง ดาต้ามาร์ทขึ้นก่อนเพื่อให้บริการรายงานและความสามารถในการวิเคราะห์สำหรับกระบวนการทางธุรกิจ เฉพาะ จากนั้นดาต้ามาร์ทเหล่านี้สามารถรวมเข้าด้วยกันเพื่อสร้างคลังข้อมูลที่ครอบคลุม สถาปัตยกรรมบัสคลังข้อมูลเป็นการนำ "บัส" มาใช้เป็นหลัก ซึ่งเป็นชุดของมิติที่ได้รับการยืนยันและข้อเท็จจริงที่ได้รับการยืนยันซึ่งเป็นมิติที่ใช้ร่วมกัน (ในลักษณะเฉพาะ) ระหว่างข้อเท็จจริงในดาต้ามาร์ทสองแห่งขึ้นไป^{[ 31 ]}

การออกแบบจากบนลงล่าง

แนวทางจากบนลงล่าง ได้รับการออกแบบโดยใช้ โมเดลข้อมูลองค์กรที่เป็นมาตรฐานข้อมูล"อะตอม"ซึ่งก็คือข้อมูลที่มีรายละเอียดมากที่สุด จะถูกจัดเก็บไว้ในคลังข้อมูล คลังข้อมูลแบบมิติที่มีข้อมูลที่จำเป็นสำหรับกระบวนการทางธุรกิจเฉพาะหรือแผนกเฉพาะจะถูกสร้างขึ้นจากคลังข้อมูล^{[ 32 ]}

การออกแบบไฮบริด

คลังข้อมูลมักใช้รูปแบบการกระจายแบบศูนย์กลางและส่วนเชื่อมต่อ (spoke–hub ) ระบบเดิมที่ป้อนข้อมูลให้กับคลังข้อมูลมักประกอบด้วยระบบการจัดการลูกค้าสัมพันธ์ (CRM)และระบบวางแผนทรัพยากรองค์กร (ERP)ซึ่งสร้างข้อมูลจำนวนมาก เพื่อรวมโมเดลข้อมูลต่างๆ เหล่านี้และอำนวยความสะดวกใน กระบวนการ ดึงข้อมูล แปลงข้อมูล และโหลดข้อมูล (EXPTT) คลังข้อมูลมักใช้ที่เก็บข้อมูลเชิงปฏิบัติการ (OPT ) ซึ่งข้อมูลจากที่เก็บข้อมูลเชิงปฏิบัติการจะถูกแยกวิเคราะห์และนำเข้าสู่คลังข้อมูลจริง เพื่อลดความซ้ำซ้อนของข้อมูล ระบบขนาดใหญ่มักจัดเก็บข้อมูลในรูปแบบมาตรฐาน จากนั้นจึงสร้างคลังข้อมูลย่อย (Data mart) สำหรับรายงานเฉพาะต่างๆ บนคลังข้อมูลหลักได้

ฐานข้อมูลคลังข้อมูลแบบไฮบริด (หรือเรียกว่าแบบกลุ่ม) จะถูกจัดเก็บในรูปแบบปกติที่สาม (Third Normal Form)เพื่อกำจัดความซ้ำซ้อนของข้อมูลอย่างไรก็ตาม ฐานข้อมูลเชิงสัมพันธ์แบบปกติไม่มีประสิทธิภาพสำหรับรายงานธุรกิจอัจฉริยะ (Business Intelligence) ที่การสร้างแบบจำลองเชิงมิติ (Dimensional Modelling) เป็นเรื่องปกติ ดาต้ามาท (Data Marts) ขนาดเล็กสามารถดึงข้อมูลจากคลังข้อมูลรวม และใช้ข้อมูลที่กรองแล้วและเฉพาะเจาะจงสำหรับตารางข้อเท็จจริงและมิติที่ต้องการ คลังข้อมูลหลักเป็นแหล่งข้อมูลเดียวที่ดาต้ามาทสามารถอ่านได้ ทำให้ได้ข้อมูลทางธุรกิจที่หลากหลาย สถาปัตยกรรมไฮบริดช่วยให้สามารถแทนที่คลังข้อมูลด้วยที่ เก็บ ข้อมูลหลัก (Master Data Management Repository) ซึ่งสามารถเก็บข้อมูลการดำเนินงาน (ไม่ใช่ข้อมูลคงที่) ได้

ส่วนประกอบของ การสร้างแบบจำลองคลังข้อมูล (Data Vault)ใช้สถาปัตยกรรมแบบฮับและสปokes (hub and spokes architecture) รูปแบบการสร้างแบบจำลองนี้เป็นการออกแบบแบบผสมผสาน โดยประกอบด้วยแนวทางปฏิบัติที่ดีที่สุดจากทั้งรูปแบบปกติที่สาม (Third Normal Form) และแบบแผนดาว (Star Schema)แบบจำลองคลังข้อมูลนี้ไม่ใช่รูปแบบปกติที่สามที่แท้จริง และละเมิดกฎบางข้อ แต่เป็นสถาปัตยกรรมแบบบนลงล่าง (top-down architecture) ที่มีการออกแบบแบบล่างขึ้นบน (bottom-up design) แบบจำลองคลังข้อมูลนี้ออกแบบมาเพื่อเป็นคลังข้อมูลโดยเฉพาะ ไม่ได้ออกแบบมาเพื่อให้ผู้ใช้ปลายทางเข้าถึงได้ ซึ่งเมื่อสร้างเสร็จแล้วยังคงต้องใช้พื้นที่เผยแพร่ (release area) ที่อิงตามคลังข้อมูลย่อย (data mart) หรือแบบแผนดาว (star schema) สำหรับวัตถุประสงค์ทางธุรกิจ

ลักษณะเฉพาะ

มีคุณลักษณะพื้นฐานที่กำหนดข้อมูลในคลังข้อมูล ซึ่งได้แก่ การมุ่งเน้นตามหัวเรื่อง การบูรณาการข้อมูล ข้อมูลที่เปลี่ยนแปลงตามเวลา ข้อมูลที่ไม่เปลี่ยนแปลง และระดับความละเอียดของข้อมูล

มุ่งเน้นที่เนื้อหา

แตกต่างจากระบบปฏิบัติการ ข้อมูลในคลังข้อมูลจะเกี่ยวข้องกับหัวข้อต่างๆ ขององค์กร การมุ่งเน้นหัวข้อไม่ใช่การทำให้ฐานข้อมูลเป็นมาตรฐาน (Database Normalization ) การมุ่งเน้นหัวข้อมีประโยชน์อย่างมากสำหรับการตัดสินใจ การรวบรวมวัตถุที่ต้องการเรียกว่าการมุ่งเน้นหัวข้อ

บูรณาการ

ข้อมูลที่พบในคลังข้อมูลนั้นเป็นข้อมูลที่บูรณาการเข้าด้วยกัน เนื่องจากมาจากระบบปฏิบัติการหลายระบบ ความไม่สอดคล้องกันทั้งหมดจึงต้องถูกกำจัดออกไป ความไม่สอดคล้องกันนั้นรวมถึงข้อกำหนดในการตั้งชื่อ การวัดตัวแปร โครงสร้างการเข้ารหัส คุณลักษณะทางกายภาพของข้อมูล และอื่นๆ

แปรผันตามเวลา

ในขณะที่ระบบปฏิบัติการสะท้อนค่าปัจจุบันเนื่องจากสนับสนุนการดำเนินงานประจำวัน ข้อมูลคลังข้อมูลแสดงถึงช่วงเวลาที่ยาวนาน (สูงสุด 10 ปี) ซึ่งหมายความว่าส่วนใหญ่จะเก็บข้อมูลในอดีต โดยส่วนใหญ่มีไว้สำหรับการขุดค้นข้อมูลและการพยากรณ์ (เช่น หากผู้ใช้กำลังค้นหารูปแบบการซื้อของลูกค้าเฉพาะราย ผู้ใช้จำเป็นต้องดูข้อมูลเกี่ยวกับการซื้อในปัจจุบันและในอดีต) ^{[ 33 ]}

ไม่ระเหย

ข้อมูลในคลังข้อมูลเป็นแบบอ่านอย่างเดียว ซึ่งหมายความว่าไม่สามารถอัปเดต สร้าง หรือลบได้ (เว้นแต่จะมีข้อบังคับหรือข้อผูกพันตามกฎหมายให้ทำเช่นนั้น) ^{[ 34 ]}

ตัวเลือก

การรวมกลุ่ม

ในกระบวนการคลังข้อมูล ข้อมูลสามารถรวบรวมไว้ในดาต้ามาร์ทได้ในระดับนามธรรมที่แตกต่างกัน ผู้ใช้อาจเริ่มต้นด้วยการดูจำนวนหน่วยขายทั้งหมดของผลิตภัณฑ์ในภูมิภาคทั้งหมด จากนั้นผู้ใช้จะดูที่รัฐต่างๆ ในภูมิภาคนั้น สุดท้าย พวกเขาอาจตรวจสอบร้านค้าแต่ละแห่งในรัฐใดรัฐหนึ่ง ดังนั้น โดยทั่วไป การวิเคราะห์จะเริ่มต้นที่ระดับที่สูงกว่าและเจาะลึกลงไปในระดับรายละเอียดที่ต่ำกว่า^{[ 33 ]}

เวอร์ชวลไลเซชัน

ด้วยการจำลองข้อมูลข้อมูลที่ใช้ยังคงอยู่ในตำแหน่งเดิม และมีการสร้างการเข้าถึงแบบเรียลไทม์เพื่อให้สามารถวิเคราะห์ข้อมูลจากหลายแหล่งโดยการสร้างคลังข้อมูลเสมือน ซึ่งสามารถช่วยแก้ไขปัญหาทางเทคนิคบางอย่าง เช่น ปัญหาความเข้ากันได้เมื่อรวมข้อมูลจากแพลตฟอร์มต่างๆ ลดความเสี่ยงของข้อผิดพลาดที่เกิดจากข้อมูลที่ผิดพลาด และรับประกันว่ามีการใช้ข้อมูลล่าสุด นอกจากนี้ การหลีกเลี่ยงการสร้างฐานข้อมูลใหม่ที่มีข้อมูลส่วนบุคคลยังช่วยให้ปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวได้ง่ายขึ้น อย่างไรก็ตาม ด้วยการจำลองข้อมูล การเชื่อมต่อกับแหล่งข้อมูลที่จำเป็นทั้งหมดจะต้องใช้งานได้ เนื่องจากไม่มีสำเนาข้อมูลในพื้นที่ ซึ่งเป็นหนึ่งในข้อเสียหลักของวิธีการนี้^{[ 35 ]}

สถาปัตยกรรม

วิธีการต่างๆ ที่ใช้ในการสร้าง/จัดระเบียบคลังข้อมูลตามที่องค์กรกำหนดนั้นมีมากมาย ฮาร์ดแวร์ที่ใช้ ซอฟต์แวร์ที่สร้างขึ้น และทรัพยากรข้อมูลที่จำเป็นสำหรับการทำงานที่ถูกต้องของคลังข้อมูลล้วนเป็นส่วนประกอบหลักของสถาปัตยกรรมคลังข้อมูล คลังข้อมูลทุกแห่งมีหลายขั้นตอนซึ่งความต้องการขององค์กรจะได้รับการแก้ไขและปรับแต่ง^{[ 36 ]}

วิวัฒนาการในการใช้งานองค์กร

คำศัพท์เหล่านี้หมายถึงระดับความซับซ้อนของคลังข้อมูล:

คลังข้อมูลการดำเนินงานแบบออฟไลน์: ในขั้นตอนนี้ คลังข้อมูลจะได้รับการอัปเดตตามรอบเวลาปกติ (โดยทั่วไปคือรายวัน รายสัปดาห์ หรือรายเดือน) จากระบบปฏิบัติการ และข้อมูลจะถูกจัดเก็บไว้ในฐานข้อมูลแบบบูรณาการที่เน้นการรายงาน
คลังข้อมูลออฟไลน์: ในขั้นตอนนี้ คลังข้อมูลจะได้รับการอัปเดตจากข้อมูลในระบบปฏิบัติการเป็นประจำ และข้อมูลในคลังข้อมูลจะถูกจัดเก็บไว้ในโครงสร้างข้อมูลที่ออกแบบมาเพื่ออำนวยความสะดวกในการจัดทำรายงาน
คลังข้อมูลแบบทันเวลา: ระบบคลังข้อมูลแบบบูรณาการออนไลน์ (Online Integrated Data Warehousing) คือคลังข้อมูลแบบเรียลไทม์ โดยข้อมูลในคลังจะได้รับการอัปเดตทุกครั้งที่มีการทำธุรกรรมกับข้อมูลต้นทาง
คลังข้อมูลแบบบูรณาการ: คลังข้อมูลเหล่านี้จะรวบรวมข้อมูลจากส่วนต่างๆ ของธุรกิจ เพื่อให้ผู้ใช้สามารถค้นหาข้อมูลที่ต้องการจากระบบอื่นๆ ได้^{[ 37 ]}

ในด้านการดูแลสุขภาพ

ใน ภาค การดูแลสุขภาพคลังข้อมูลเป็นส่วนประกอบที่สำคัญของสารสนเทศทางการแพทย์ช่วยให้สามารถบูรณาการ จัดเก็บ และวิเคราะห์ข้อมูลทางคลินิก ข้อมูลด้านการบริหาร และข้อมูลด้านการดำเนินงานจำนวนมาก ระบบเหล่านี้รวบรวมข้อมูลจากแหล่งต่างๆ เช่นบันทึกสุขภาพอิเล็กทรอนิกส์ (EHRs) ระบบข้อมูลห้องปฏิบัติการระบบจัดเก็บและสื่อสารภาพ (PACS) และ แพลตฟอร์ม การเรียกเก็บเงินทางการแพทย์ด้วยการรวมศูนย์ข้อมูล คลังข้อมูลด้านการดูแลสุขภาพจึงสนับสนุนการทำงานที่หลากหลาย รวมถึงสุขภาพของประชากรการสนับสนุนการตัดสินใจทางคลินิกการปรับปรุงคุณภาพการเฝ้าระวังสุขภาพของประชาชนและการวิจัยทางการแพทย์

คลังข้อมูลด้านการดูแลสุขภาพมักจะรวมเอาแบบจำลองข้อมูลเฉพาะทางที่คำนึงถึงความซับซ้อนและความละเอียดอ่อนของข้อมูลทางการแพทย์ เช่น ข้อมูลเชิงเวลา (เช่น ประวัติผู้ป่วยระยะยาว) คำศัพท์ที่เข้ารหัส (เช่นICD-10 , SNOMED CT ) และการปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัว (เช่นHIPAAในสหรัฐอเมริกา หรือGDPRในสหภาพยุโรป)

ต่อไปนี้คือรายชื่อคลังข้อมูลผู้ป่วยหลักที่มีขอบเขตครอบคลุมกว้าง (ไม่จำกัดเฉพาะโรคหรือสาขาเฉพาะทาง ) โดยมีตัวแปรต่างๆ เช่น ผลการตรวจทางห้องปฏิบัติการ ร้านขายยา อายุ เชื้อชาติ สถานะทางเศรษฐกิจและสังคม โรคร่วม และการเปลี่ยนแปลงตามช่วงเวลา:

คลังข้อมูลผู้ป่วยขนาดใหญ่ที่มีขอบเขตกว้างขวาง
คลังสินค้า	ผู้สนับสนุน	ที่ตั้งหลัก	ขอบเขต	เข้าถึง
จักรวาลอันยิ่งใหญ่^{[ 38 ]}	อีพีซิสเต็มส์	สหรัฐอเมริกา	ผู้ป่วย 296 ^{[ 39 ]}ล้านคน	ฟรีสำหรับองค์กรที่เข้าร่วม
PCORnet ^{[ 38 ]}	สถาบันวิจัยผลลัพธ์ที่เน้นผู้ป่วยเป็นศูนย์กลาง (PCORI)	สหรัฐอเมริกา	ผู้ป่วย 140 ล้านคน	ฟรีสำหรับองค์กรที่เข้าร่วม
OLDW (คลังข้อมูลของ OptumLabs)	ออปตัม	สหรัฐอเมริกา	ผู้ป่วย 160 ^{[ 40 ]}ล้านคน	โดยมีค่าธรรมเนียม หรือฟรีผ่านสถาบันการศึกษาบางแห่ง^{[ 41 ]}
EHDEN ^{[ 42 ]} (เครือข่ายหลักฐานข้อมูลสุขภาพแห่งยุโรป)	โครงการริเริ่มด้านสุขภาพเชิงนวัตกรรมของสหภาพยุโรป	ยุโรป	ผู้ป่วย 133 ล้านคน^{[ 43 ]}	เปิดให้ค้นพบได้ฟรี อาจมีค่าธรรมเนียมสำหรับการใช้งานครั้งที่สอง^{[ 44 ]}

คลังข้อมูลเหล่านี้ช่วยให้การดูแลสุขภาพเป็นไปอย่างมีประสิทธิภาพมากขึ้น โดยสนับสนุนการศึกษาแบบย้อนหลัง การวิจัยเปรียบเทียบประสิทธิผลและการวิเคราะห์เชิงพยากรณ์ซึ่งมักใช้ปัญญาประดิษฐ์ที่ประยุกต์ใช้ในด้านการดูแลสุขภาพ

ดูเพิ่มเติม

รายชื่อซอฟต์แวร์ระบบวิเคราะห์ข้อมูลทางธุรกิจ
ดาต้าเลค – แหล่งเก็บข้อมูลที่จัดเก็บในรูปแบบข้อมูลดิบ
Data mesh – กรอบสถาปัตยกรรมแบบกระจายศูนย์สำหรับการจัดการข้อมูล

อ่านเพิ่มเติม

Davenport, Thomas H.และ Harris, Jeanne G. การแข่งขันด้วยการวิเคราะห์ข้อมูล: วิทยาศาสตร์ใหม่แห่งชัยชนะ (2007) สำนักพิมพ์ Harvard Business School. ISBN 978-1-4221-0332-6
Ganczarski, Joe. การนำระบบคลังข้อมูลไปใช้: การศึกษาปัจจัยสำคัญในการนำไปใช้ (2009) VDM Verlag ISBN 3-639-18589-7ISBN 978-3-639-18589-8
คิมบอลล์, ราล์ฟ และ รอสส์, มาร์จี. ชุดเครื่องมือคลังข้อมูลฉบับที่สาม (2013) ไวลีย์, ISBN 978-1-118-53080-1
ลินสเตดท์, กราเซียโน่, ฮัลท์เกรน. ธุรกิจของ Data Vault Modelingฉบับพิมพ์ครั้งที่สอง (2010) Dan linstedt, ISBN 978-1-4357-1914-9
วิลเลียม อินมอน. การสร้างคลังข้อมูล (2005) สำนักพิมพ์ John Wiley and Sons, ISBN 978-81-265-0645-3
Watson, H. (2002). การพัฒนาล่าสุดในด้านคลังข้อมูล. การสื่อสารของสมาคมระบบสารสนเทศ, 8, หน้า-หน้า. https://doi.org/10.17705/1CAIS.00801

1 ] คลัง

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[

12 ] อย่างไรก็ตาม

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

พิมพ์

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

28

29

[

[ 31 ]

[ 32 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]