อ่าน 3 นาที
ลูกบาศก์ OLAP
คิว บ์ OLAP คือ คิวบ์ข้อมูล ซึ่งเป็น อาร์เรย์ ข้อมูล หลายมิติ [ 1 ] ที่ใช้สำหรับ การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) [ 2 ]...
ลูกบาศก์ OLAP

คิวบ์ OLAPคือคิวบ์ข้อมูลซึ่งเป็น อาร์เรย์ ข้อมูลหลายมิติ[ 1 ]ที่ใช้สำหรับการประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) [ 2 ]ซึ่งเป็นเทคนิคที่ใช้คอมพิวเตอร์ในการวิเคราะห์ข้อมูลเพื่อค้นหาข้อมูลเชิงลึก
ศัพท์เฉพาะ
ลูกบาศก์สามารถถือได้ว่าเป็นการขยายแบบหลายมิติของสเปรดชีต สองหรือสามมิติ ตัวอย่างเช่น บริษัทอาจต้องการสรุปข้อมูลทางการเงินตามผลิตภัณฑ์ ตามช่วงเวลา และตามเมือง เพื่อเปรียบเทียบค่าใช้จ่ายจริงและงบประมาณ ผลิตภัณฑ์ เวลา เมือง และสถานการณ์ (จริงและงบประมาณ) คือมิติของข้อมูล[ 3 ]
คำว่า"คิวบ์"เป็นคำย่อของชุดข้อมูลหลายมิติเนื่องจากข้อมูลสามารถมีจำนวนมิติ ได้ตามต้องการ บางครั้งอาจใช้คำว่า "ไฮเปอร์คิวบ์"โดยเฉพาะอย่างยิ่งสำหรับข้อมูลที่มีมากกว่าสามมิติ คิวบ์ในที่นี้ไม่ได้หมายถึง "คิวบ์" ในความหมายทางคณิตศาสตร์อย่างเคร่งครัด เนื่องจากด้านต่างๆ ไม่จำเป็นต้องเท่ากันทั้งหมด แต่คำนี้ก็ถูกใช้กันอย่างแพร่หลาย
คำว่า "สไลซ์" (Slice)หมายถึงส่วนย่อยของข้อมูลที่สร้างขึ้นโดยการเลือกค่าสำหรับมิติหนึ่ง และแสดงเฉพาะข้อมูลสำหรับค่านั้น (เช่น ข้อมูล ณ จุดเวลาใดจุดหนึ่ง) สเปรดชีตเป็นเพียงข้อมูลสองมิติ ดังนั้นโดยการแบ่งสไลซ์หรือเทคนิคอื่นๆ จึงทำให้สามารถแสดงข้อมูลหลายมิติในสเปรดชีตได้
แต่ละช่องในลูกบาศก์จะเก็บตัวเลขที่แสดงถึงตัวชี้วัด บางอย่าง ของธุรกิจ เช่น ยอดขาย กำไร ค่าใช้จ่าย งบประมาณ และการคาดการณ์
โดยทั่วไป ข้อมูล OLAP จะถูกจัดเก็บในรูปแบบสคีมาแบบดาว (star schema)หรือสคีมาแบบเกล็ดหิมิต (snowflake schema)ในคลัง ข้อมูล เชิงสัมพันธ์ (relational data warehouse)หรือในระบบจัดการข้อมูลเฉพาะทาง (special-purpose data management system) ค่าวัด (measures) จะได้มาจากระเบียนในตารางข้อเท็จจริง (fact table ) และค่ามิติ (dimensions) จะได้มาจากตารางมิติ (dimension tables )
ลำดับชั้น
องค์ประกอบของมิติสามารถจัดระเบียบเป็นลำดับชั้นได้[ 4 ]ซึ่งเป็นชุดของความสัมพันธ์ระหว่างผู้ปกครองและบุตร โดยทั่วไปแล้วสมาชิกผู้ปกครองจะสรุปบุตรของตน องค์ประกอบของผู้ปกครองสามารถรวมเข้าด้วยกันได้อีกในฐานะบุตรของผู้ปกครองอื่น[ 5 ]
ตัวอย่างเช่น เดือนพฤษภาคม 2548 มีแม่เป็นไตรมาสที่สองปี 2548 ซึ่งมีแม่เป็นปี 2548 ในทำนองเดียวกัน เมืองต่างๆ มีแม่เป็นภูมิภาค ผลิตภัณฑ์มีกลุ่มเป็นผลิตภัณฑ์ และรายการค่าใช้จ่ายแต่ละรายการมีกลุ่มเป็นประเภทของค่าใช้จ่าย
การดำเนินงาน
การมองข้อมูลเป็นลูกบาศก์ที่มีมิติแบบลำดับชั้นนำไปสู่การดำเนินการที่ตรงไปตรงมาในเชิงแนวคิดเพื่ออำนวยความสะดวกในการวิเคราะห์ การจัดเรียงเนื้อหาข้อมูลให้สอดคล้องกับการแสดงภาพที่คุ้นเคยจะช่วยเพิ่มการเรียนรู้และผลิตภาพของนักวิเคราะห์[ 5 ]กระบวนการที่ผู้ใช้ริเริ่มในการนำทางโดยการเรียกการแสดงหน้าแบบโต้ตอบ ผ่านการระบุส่วนต่างๆ ผ่านการหมุนและการเจาะลึก/ขึ้น บางครั้งเรียกว่า "slice and dice" การดำเนินการทั่วไป ได้แก่ slice and dice, drill down, roll up และ pivot

การแบ่งส่วน (Slice)คือการเลือกเซตย่อยรูปสี่เหลี่ยมผืนผ้าของลูกบาศก์โดยการเลือกค่าเดียวสำหรับมิติใดมิติหนึ่ง ทำให้เกิดลูกบาศก์ใหม่ที่มีมิติน้อยลงหนึ่งมิติ[ 5 ]ภาพแสดงการดำเนินการแบ่งส่วน: ตัวเลขยอดขายของทุกภูมิภาคการขายและทุกหมวดหมู่ผลิตภัณฑ์ของบริษัทในปี 2548 และ 2549 ถูก "แบ่งส่วน" ออกจากลูกบาศก์ข้อมูล

ลูกเต๋า : การดำเนินการลูกเต๋าจะสร้างลูกบาศก์ย่อยโดยอนุญาตให้นักวิเคราะห์เลือกค่าเฉพาะของมิติหลายมิติ[ 6 ]ภาพแสดงการดำเนินการลูกเต๋า: ลูกบาศก์ใหม่แสดงตัวเลขยอดขายของหมวดหมู่ผลิตภัณฑ์จำนวนจำกัด มิติเวลาและภูมิภาคครอบคลุมช่วงเดียวกันกับก่อนหน้านี้

การเจาะลึก/การขึ้น (Drill Down/Up)ช่วยให้ผู้ใช้สามารถนำทางระหว่างระดับข้อมูลต่างๆ ตั้งแต่ข้อมูลสรุปมากที่สุด (ขึ้น) ไปจนถึงข้อมูลรายละเอียดมากที่สุด (ลง) [ 5 ] ภาพแสดงการดำเนินการเจาะลึก: นักวิเคราะห์ย้ายจากหมวดหมู่สรุป "อุปกรณ์ป้องกันกลางแจ้ง" เพื่อดูตัวเลขยอดขายของผลิตภัณฑ์แต่ละรายการ
การสรุปข้อมูล (Roll-up) : การสรุปข้อมูลเกี่ยวข้องกับการสรุปข้อมูลตามมิติหนึ่ง กฎการสรุปอาจเป็นฟังก์ชันการรวมเช่น การคำนวณผลรวมตามลำดับชั้น หรือการใช้ชุดสูตร เช่น "กำไร = ยอดขาย - ค่าใช้จ่าย" [ 5 ]ฟังก์ชันการรวมทั่วไปอาจมีค่าใช้จ่ายสูงในการคำนวณเมื่อทำการสรุปข้อมูล หากไม่สามารถกำหนดได้จากเซลล์ของคิวบ์ จะต้องคำนวณจากข้อมูลพื้นฐาน ไม่ว่าจะคำนวณแบบออนไลน์ (ช้า) หรือคำนวณล่วงหน้าสำหรับการสรุปข้อมูลที่เป็นไปได้ (พื้นที่มาก) ฟังก์ชันการรวมที่สามารถกำหนดได้จากเซลล์เรียกว่าฟังก์ชันการรวมที่สามารถแยกส่วนได้และช่วยให้การคำนวณมีประสิทธิภาพ[ 7 ]ตัวอย่างเช่น การสนับสนุนCOUNT, MAX, MIN,และSUMใน OLAP นั้นง่าย เนื่องจากสามารถคำนวณสำหรับแต่ละเซลล์ของคิวบ์ OLAP แล้วจึงรวมเข้าด้วยกัน เนื่องจากผลรวมโดยรวม (หรือจำนวนนับ ฯลฯ) คือผลรวมของผลรวมย่อย แต่การสนับสนุนนั้นยากMEDIANเนื่องจากต้องคำนวณสำหรับแต่ละมุมมองแยกกัน: ค่ามัธยฐานของชุดข้อมูลไม่ใช่ค่ามัธยฐานของค่ามัธยฐานของชุดย่อย

การหมุนจุดช่วยให้นักวิเคราะห์สามารถหมุนลูกบาศก์ในพื้นที่เพื่อดูด้านต่างๆ ได้ ตัวอย่างเช่น เมืองต่างๆ สามารถจัดเรียงในแนวตั้งและผลิตภัณฑ์ในแนวนอนขณะดูข้อมูลสำหรับไตรมาสใดไตรมาสหนึ่ง การหมุนจุดสามารถแทนที่ผลิตภัณฑ์ด้วยช่วงเวลาเพื่อดูข้อมูลตลอดช่วงเวลาสำหรับผลิตภัณฑ์เดียว [ 5 ] [ 8 ]
ภาพนี้แสดงให้เห็นถึงการหมุนแกน: ลูกบาศก์ทั้งหมดถูกหมุน ทำให้ได้มุมมองใหม่เกี่ยวกับข้อมูล
นิยามทางคณิตศาสตร์
ในทฤษฎีฐานข้อมูลคิวบ์ OLAP คือ[ 9 ]การแสดงนามธรรมของการฉายภาพของ ความสัมพันธ์ RDBMSเมื่อกำหนดความสัมพันธ์ที่มีลำดับNให้พิจารณาการฉายภาพที่รองรับX , YและZเป็นคีย์และWเป็นแอตทริบิวต์ที่เหลือ การ กำหนดลักษณะนี้เป็นฟังก์ชัน
- f : ( X , Y , Z ) → W ,
คุณลักษณะX , YและZสอดคล้องกับแกนของลูกบาศก์ ในขณะที่ ค่า Wสอดคล้องกับองค์ประกอบข้อมูลที่ใช้เติมลงในแต่ละเซลล์ของลูกบาศก์
เนื่องจากอุปกรณ์แสดงผลสองมิติไม่สามารถแสดงลักษณะสามมิติได้อย่างง่ายดาย การฉายภาพ "ส่วนย่อย" ของข้อมูลลูกบาศก์จึงเป็นวิธีที่ใช้งานได้จริงมากกว่า (เราใช้คำว่าฉายภาพในความหมายเชิงเวกเตอร์วิเคราะห์แบบคลาสสิกของการลดมิติ ไม่ใช่ในความหมายของSQLแม้ว่าทั้งสองจะมีความคล้ายคลึงกันในเชิงแนวคิด)
- g : ( X , Y ) → W
ซึ่งอาจระงับคีย์หลัก แต่ยังคงมีความสำคัญทางความหมายอยู่บ้าง เช่น อาจเป็นส่วนหนึ่งของการแสดงฟังก์ชันไตรภาคสำหรับ ค่า Zที่สนใจ
แรงจูงใจ[ 9 ]เบื้องหลัง การแสดงผล OLAPย้อนกลับไปถึง รูปแบบ รายงานแบบตารางไขว้ของDBMS ในช่วงทศวรรษ 1980 และตารางความสัมพันธ์ ก่อนหน้านี้ ตั้งแต่ปี 1904 ผลลัพธ์ที่ได้คือการแสดงผลแบบสเปรดชีต โดยที่ค่าของXจะเติมลงในแถว $1 ค่าของYจะเติมลงในคอลัมน์ $A และค่าของg : ( X , Y ) → Wจะเติมลงในเซลล์แต่ละเซลล์ที่จุดตัดของ คอลัมน์ที่มีป้ายกำกับ Xและ แถวที่มีป้ายกำกับ Yซึ่งกล่าวได้ว่าอยู่ทางทิศตะวันออกเฉียงใต้ของ $B$2 โดยมี $B$2 รวมอยู่ด้วย
ดูเพิ่มเติม
ลิงก์ภายนอก
- Daniel Lemire (ธันวาคม 2007). "คลังข้อมูลและ OLAP - บรรณานุกรมเชิงวิจัย" . สืบค้นเมื่อ5 มีนาคม 2008 .
{{cite web}}: CS1 maint: บริการเก็บถาวรที่เลิกใช้แล้ว ( ลิงก์ ) - คำศัพท์ของ RDF Data Cube
- Microsoft Azure: การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ลูกบาศก์ OLAP
คิว บ์ OLAP คือ คิวบ์ข้อมูล ซึ่งเป็น อาร์เรย์ ข้อมูล หลายมิติ [ 1 ] ที่ใช้สำหรับ การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) [ 2 ]...
ศัพท์เฉพาะ
ลูกบาศก์สามารถถือได้ว่าเป็นการขยายแบบหลายมิติของ สเปรดชีต สองหรือสามมิติ ตัวอย่างเช่น บริษัทอาจต้องการสรุปข้อมูลทางการเงินตามผลิตภัณฑ์ ตามช่วงเวลา และตามเมือง เพื่อเปรียบเทียบค่าใช้จ่ายจริงและงบประมาณ ผลิตภัณฑ์ เวลา เมือง และสถานการณ์ (จริงและงบประมาณ)...
ลำดับชั้น
องค์ประกอบของมิติสามารถจัดระเบียบเป็น ลำดับชั้น ได้ [ 4 ] ซึ่งเป็นชุดของความสัมพันธ์ระหว่างผู้ปกครองและบุตร โดยทั่วไปแล้วสมาชิกผู้ปกครองจะสรุปบุตรของตน องค์ประกอบของผู้ปกครองสามารถรวมเข้าด้วยกันได้อีกในฐานะบุตรของผู้ปกครองอื่น [ 5 ]
การดำเนินงาน
การมองข้อมูลเป็นลูกบาศก์ที่มีมิติแบบลำดับชั้นนำไปสู่การดำเนินการที่ตรงไปตรงมาในเชิงแนวคิดเพื่ออำนวยความสะดวกในการวิเคราะห์ การจัดเรียงเนื้อหาข้อมูลให้สอดคล้องกับการแสดงภาพที่คุ้นเคยจะช่วยเพิ่มการเรียนรู้และผลิตภาพของนักวิเคราะห์ [ 5 ]...