กลับไปหน้าบทความ

อ่าน 11 นาที

การประมวลผลเชิงวิเคราะห์ออนไลน์

ใน ด้าน การ คำนวณ การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) ( / ˈ oʊ l æ p / ) เป็นแนวทางในการตอบคำถาม เชิงวิเคราะห์หลายมิติ (MDA) อย่างรวดเร็ว [ 1 ] คำว่า OLAP...

การประมวลผลเชิงวิเคราะห์ออนไลน์

(Learn how and when to remove this message)

ใน ด้าน การคำนวณการประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) ( / ˈ l æ p / ) เป็นแนวทางในการตอบคำถามเชิงวิเคราะห์หลายมิติ (MDA) อย่างรวดเร็ว [ 1 ]คำว่าOLAPถูกสร้างขึ้นโดยการปรับเปลี่ยนเล็กน้อยจากคำศัพท์ฐานข้อมูลแบบดั้งเดิม คือการประมวลผลธุรกรรมออนไลน์ (OLTP) [ 2 ] OLAP เป็นส่วนหนึ่งของหมวดหมู่ที่กว้างกว่าของระบบธุรกิจ อัจฉริยะ ซึ่งรวมถึงฐานข้อมูลเชิงสัมพันธ์การเขียนรายงาน และการขุดข้อมูล[ 3 ]แอปพลิเคชันทั่วไปของ OLAP ได้แก่การรายงานทางธุรกิจสำหรับการขายการตลาดการรายงานการจัดการ การจัดการกระบวนการทางธุรกิจ (BPM) [ 4 ]การจัดทำงบประมาณและการพยากรณ์การรายงานทางการเงินและสาขาที่คล้ายคลึงกัน โดยมีแอปพลิเคชันใหม่ๆ เกิดขึ้น เช่นด้านการเกษตร[ 5 ]

เครื่องมือ OLAP ช่วยให้ผู้ใช้สามารถวิเคราะห์ข้อมูลหลายมิติแบบโต้ตอบได้จากหลายมุมมอง OLAP ประกอบด้วยการดำเนินการวิเคราะห์พื้นฐานสามอย่าง ได้แก่ การรวม (roll-up) การเจาะลึก (drill-down) และการแบ่งส่วน (slicing and dicing) [ 6 ] : 402–403 การรวมเกี่ยวข้องกับการรวบรวมข้อมูลที่สามารถสะสมและคำนวณได้ในมิติเดียวหรือมากกว่า ตัวอย่างเช่น สำนักงานขายทั้งหมดจะถูกรวมเข้ากับแผนกขายหรือฝ่ายขายเพื่อคาดการณ์แนวโน้มการขาย ในทางตรงกันข้าม การเจาะลึกเป็นเทคนิคที่ช่วยให้ผู้ใช้สามารถนำทางผ่านรายละเอียดต่างๆ ได้ ตัวอย่างเช่น ผู้ใช้สามารถดูยอดขายตามผลิตภัณฑ์แต่ละรายการที่ประกอบขึ้นเป็นยอดขายของภูมิภาค การแบ่งส่วน (slicing and dicing) เป็นคุณลักษณะที่ผู้ใช้สามารถนำชุดข้อมูลเฉพาะของคิวบ์ OLAP ออกมา (แบ่งส่วน ) และดู (แบ่งส่วน) ส่วนต่างๆ จากมุมมองที่แตกต่างกัน มุมมองเหล่านี้บางครั้งเรียกว่ามิติ (เช่น การดูยอดขายเดียวกันตามพนักงานขาย หรือตามวันที่ หรือตามลูกค้า หรือตามผลิตภัณฑ์ หรือตามภูมิภาค เป็นต้น)

ฐานข้อมูลที่กำหนดค่าสำหรับ OLAP ใช้โมเดลข้อมูลหลายมิติ ทำให้สามารถวิเคราะห์ที่ซับซ้อนและ สอบถาม แบบเฉพาะกิจได้ในเวลาดำเนินการที่รวดเร็ว[ 7 ]โดยยืมลักษณะบางอย่างจากฐานข้อมูลนำทาง ฐานข้อมูลแบบลำดับชั้นและฐานข้อมูลเชิงสัมพันธ์

โดยทั่วไปแล้ว OLAP จะถูกนำมาเปรียบเทียบกับOLTP (การประมวลผลธุรกรรมออนไลน์) ซึ่งโดยทั่วไปแล้วจะมีลักษณะเด่นคือ การประมวลผลคำสั่งค้นหาที่ซับซ้อนน้อยกว่า แต่มีปริมาณมากกว่า เพื่อประมวลผลธุรกรรมมากกว่าเพื่อวัตถุประสงค์ด้านธุรกิจอัจฉริยะหรือการรายงาน ในขณะที่ระบบ OLAP ส่วนใหญ่ได้รับการปรับให้เหมาะสมสำหรับการอ่าน แต่ OLTP ต้องประมวลผลคำสั่งค้นหาทุกประเภท (อ่าน แทรก อัปเดต และลบ)

ภาพรวมของระบบ OLAP

หัวใจสำคัญของระบบ OLAP ใดๆ ก็คือOLAP cube (หรือเรียกว่า 'multidimensional cube' หรือhypercube ) ซึ่งประกอบด้วยข้อเท็จจริงเชิงตัวเลขที่เรียกว่าmeasuresที่จัดหมวดหมู่ตามมิติ measures เหล่านี้จะถูกวางไว้ที่จุดตัดของ hypercube ซึ่งถูกสร้างขึ้นจากมิติต่างๆ ในรูปของเวกเตอร์สเปซ อินเทอร์เฟซที่ใช้กันทั่วไปในการจัดการ OLAP cube คืออินเทอร์เฟซแบบเมทริกซ์ เช่นPivot tableในโปรแกรมสเปรดชีต ซึ่งจะทำการดำเนินการแบบ projection ตามมิติต่างๆ เช่น การรวมกลุ่มหรือการหาค่าเฉลี่ย

โดยทั่วไปแล้ว เมตาเดต้าของคิวบ์จะถูกสร้างขึ้นจากสคีมาแบบดาวหรือสคีมาแบบเกล็ดหิมะหรือ กลุ่ม ตารางข้อเท็จจริง ใน ฐานข้อมูลเชิงสัมพันธ์ค่าการวัดจะถูกดึงมาจากระเบียนในตารางข้อเท็จจริงและค่ามิติจะถูกดึงมาจากตาราง มิติ

แต่ละตัวชี้วัดสามารถมองได้ว่ามีชุดป้ายกำกับหรือข้อมูลเมตาที่เกี่ยวข้องกับมันมิติคือสิ่งที่อธิบายป้ายกำกับ เหล่านี้ โดยให้ข้อมูลเกี่ยวกับตัวชี้วัดนั้น

ตัวอย่างง่ายๆ ก็คือ คิวบ์ที่ประกอบด้วยยอดขายของร้านค้าเป็นตัววัดและวันที่/เวลาเป็นมิติ ยอดขายแต่ละรายการจะมี ป้ายกำกับวันที่/เวลาที่อธิบายรายละเอียดเพิ่มเติมเกี่ยวกับยอดขายนั้นๆ

ตัวอย่างเช่น:

ตารางข้อมูลยอดขาย +-------------+----------+ | ยอดขาย | รหัสเวลา | +-------------+----------+ มิติเวลา | 930.10| 1234 |----+ +---------+-------------------+ +-------------+----------+ | | รหัสเวลา | เวลา | | ++-------------------+ +---->| 1234 | 20080902 12:35:43 | ---------+-------------------+ 

ฐานข้อมูลหลายมิติ

โครงสร้างหลายมิติถูกนิยามว่า "รูปแบบหนึ่งของแบบจำลองเชิงสัมพันธ์ที่ใช้โครงสร้างหลายมิติในการจัดระเบียบข้อมูลและแสดงความสัมพันธ์ระหว่างข้อมูล" [ 6 ] : 177 โครงสร้างนี้ถูกแบ่งออกเป็นลูกบาศก์ และลูกบาศก์แต่ละลูกสามารถจัดเก็บและเข้าถึงข้อมูลภายในขอบเขตของแต่ละลูกบาศก์ได้ "แต่ละเซลล์ภายในโครงสร้างหลายมิติประกอบด้วยข้อมูลที่รวบรวมไว้ซึ่งเกี่ยวข้องกับองค์ประกอบตามแต่ละมิติ" [ 6 ] : 178 แม้ว่าข้อมูลจะถูกจัดการ แต่ก็ยังคงเข้าถึงได้ง่ายและยังคงเป็นรูปแบบฐานข้อมูลที่กะทัดรัด ข้อมูลยังคงมีความสัมพันธ์กัน โครงสร้างหลายมิติเป็นที่นิยมอย่างมากสำหรับฐานข้อมูลเชิงวิเคราะห์ที่ใช้แอปพลิเคชันการประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) [ 6 ] ฐานข้อมูลเชิงวิเคราะห์ใช้ฐานข้อมูลเหล่านี้เนื่องจากความสามารถในการให้คำตอบสำหรับคำถามทางธุรกิจที่ซับซ้อนได้อย่างรวดเร็ว สามารถดูข้อมูลได้จากมุมมองที่แตกต่างกัน ซึ่งให้มุมมองที่กว้างขึ้นของปัญหา ซึ่งแตกต่างจากแบบจำลองอื่นๆ[ 8 ]

การรวมกลุ่ม

มีการอ้างว่าคิวบ์ OLAP สามารถสร้างคำตอบได้ในเวลาประมาณ 0.1% ของเวลาที่จำเป็นสำหรับการสอบถามแบบเดียวกันบนข้อมูลเชิงสัมพันธ์OLTP [ 9 ] [ 10 ]กลไกที่สำคัญที่สุดใน OLAP ที่ทำให้บรรลุประสิทธิภาพดังกล่าวคือการใช้การรวมกลุ่มการรวมกลุ่มถูกสร้างขึ้นจากตารางข้อเท็จจริงโดยการเปลี่ยนระดับความละเอียดในมิติเฉพาะและรวมข้อมูลตามมิติเหล่านี้โดยใช้ฟังก์ชันการรวมกลุ่ม (หรือฟังก์ชันการรวม ) จำนวนการรวมกลุ่มที่เป็นไปได้จะถูกกำหนดโดยชุดค่าผสมที่เป็นไปได้ทั้งหมดของระดับความละเอียดของมิติ

การรวมกันของการรวมที่เป็นไปได้ทั้งหมดและข้อมูลพื้นฐานประกอบด้วยคำตอบสำหรับทุกคำถามที่สามารถตอบได้จากข้อมูล[ 11 ]

เนื่องจากโดยปกติแล้วมีการคำนวณการรวมข้อมูลจำนวนมาก จึงมักมีการคำนวณอย่างสมบูรณ์เพียงจำนวนที่กำหนดไว้ล่วงหน้าเท่านั้น ส่วนที่เหลือจะคำนวณตามความต้องการ ปัญหาของการตัดสินใจว่าจะคำนวณการรวมข้อมูล (มุมมอง) ใดบ้างนั้นเรียกว่าปัญหาการเลือกมุมมอง การเลือกมุมมองอาจถูกจำกัดด้วยขนาดทั้งหมดของชุดการรวมข้อมูลที่เลือก เวลาในการอัปเดตจากการเปลี่ยนแปลงในข้อมูลพื้นฐาน หรือทั้งสองอย่าง เป้าหมายของการเลือกมุมมองโดยทั่วไปคือการลดเวลาเฉลี่ยในการตอบคำถาม OLAP ให้เหลือน้อยที่สุด แม้ว่าบางการศึกษาจะมุ่งเน้นไปที่การลดเวลาในการอัปเดตด้วยก็ตาม การเลือกมุมมองเป็นปัญหาNP-completeมีการสำรวจวิธีการแก้ปัญหาหลายวิธี รวมถึง อัลกอริทึมแบบ โลภ (greedy algorithms) การค้นหาแบบสุ่ม (randomized search) อั ลกอริทึมทางพันธุกรรม (genetic algorithms)และอัลกอริทึมการค้นหา A* (A* search algorithm )

ฟังก์ชันการรวมบางอย่างสามารถคำนวณได้สำหรับคิวบ์ OLAP ทั้งหมดโดย การคำนวณค่า ล่วงหน้าสำหรับแต่ละเซลล์ จากนั้นคำนวณการรวมสำหรับการรวมกลุ่มของเซลล์โดยการรวมผลรวมเหล่านี้ โดยใช้อัลกอริธึมแบบแบ่งและพิชิตกับปัญหาหลายมิติเพื่อคำนวณอย่างมีประสิทธิภาพ[ 12 ]ตัวอย่างเช่น ผลรวมโดยรวมของการรวมกลุ่มคือผลรวมของผลรวมย่อยในแต่ละเซลล์ ฟังก์ชันที่สามารถแยกส่วนได้ในลักษณะนี้เรียกว่าฟังก์ชันการรวมที่แยกส่วนได้และรวมถึงCOUNT, MAX, MIN, และSUMซึ่งสามารถคำนวณสำหรับแต่ละเซลล์แล้วรวมเข้าด้วยกันโดยตรง ฟังก์ชันเหล่านี้เรียกว่าฟังก์ชันการรวมที่แยกส่วนได้ด้วยตนเอง[ 13 ]

ในบางกรณี ฟังก์ชันการรวมสามารถคำนวณได้โดยการคำนวณตัวเลขเสริมสำหรับเซลล์ การรวมตัวเลขเสริมเหล่านี้ และสุดท้ายคำนวณตัวเลขโดยรวมในตอนท้าย ตัวอย่างเช่นAVERAGE(การติดตามผลรวมและจำนวนนับ แล้วหารในตอนท้าย) และ (การติดตามค่าสูงสุด และRANGEค่าต่ำสุด แล้วลบในตอนท้าย) ในบางกรณี ฟังก์ชันการรวมไม่สามารถคำนวณได้หากไม่วิเคราะห์ชุดข้อมูลทั้งหมดพร้อมกัน แม้ว่าในบางกรณีจะสามารถคำนวณค่าประมาณได้ ตัวอย่างเช่นDISTINCT COUNTค่ามัธยฐานของชุดข้อมูลไม่ใช่ค่ามัธยฐานของค่ามัธยฐานของชุดย่อย วิธีการหลังนี้ยากที่จะนำไปใช้ได้อย่างมีประสิทธิภาพใน OLAP เนื่องจากต้องคำนวณฟังก์ชันการรวมบนข้อมูลพื้นฐาน ไม่ว่าจะคำนวณแบบออนไลน์ (ช้า) หรือคำนวณล่วงหน้าสำหรับการใช้งานในอนาคต (ใช้พื้นที่มาก) MEDIANMODE

ประเภท

ระบบ OLAP ได้รับการจำแนกประเภทตามธรรมเนียมโดยใช้ระบบอนุกรมวิธานดังต่อไปนี้[ 14 ]

OLAP หลายมิติ (MOLAP)

MOLAP (การประมวลผลเชิงวิเคราะห์ออนไลน์แบบหลายมิติ) เป็นรูปแบบคลาสสิกของ OLAP และบางครั้งก็เรียกสั้นๆ ว่า OLAP MOLAP จัดเก็บข้อมูลนี้ในที่เก็บข้อมูลแบบอาร์เรย์หลายมิติที่ได้รับการปรับให้เหมาะสม แทนที่จะจัดเก็บในฐานข้อมูลเชิงสัมพันธ์

เครื่องมือ MOLAP บางอย่างจำเป็นต้องมีการคำนวณล่วงหน้าและการจัดเก็บข้อมูลที่ได้มา เช่น การรวมข้อมูล ซึ่งเป็นกระบวนการที่เรียกว่าการประมวลผล เครื่องมือ MOLAP เหล่านี้โดยทั่วไปจะใช้ชุดข้อมูลที่คำนวณไว้ล่วงหน้าซึ่งเรียกว่าคิวบ์ข้อมูลคิวบ์ข้อมูลประกอบด้วยคำตอบที่เป็นไปได้ทั้งหมดสำหรับคำถามที่กำหนด ส่งผลให้มีการตอบสนองต่อคำถามได้อย่างรวดเร็ว ในทางกลับกัน การอัปเดตอาจใช้เวลานานขึ้นอยู่กับระดับของการคำนวณล่วงหน้า การคำนวณล่วงหน้ายังอาจนำไปสู่สิ่งที่เรียกว่าการระเบิดของข้อมูลได้อีกด้วย

เครื่องมือ MOLAP อื่นๆ โดยเฉพาะอย่างยิ่งเครื่องมือที่ใช้โมเดลฐานข้อมูลเชิงฟังก์ชันจะไม่คำนวณข้อมูลที่ได้มาล่วงหน้า แต่จะทำการคำนวณทั้งหมดตามความต้องการ ยกเว้นการคำนวณที่ได้รับการร้องขอและจัดเก็บไว้ในแคชก่อนหน้านี้

ข้อดีของ MOLAP

  • ประสิทธิภาพการค้นหาข้อมูลที่รวดเร็ว เนื่องจากการจัดเก็บข้อมูลที่ได้รับการปรับให้เหมาะสม การจัดทำดัชนีแบบหลายมิติ และการแคชข้อมูล
  • ขนาดข้อมูลที่จัดเก็บในดิสก์เล็กลงเมื่อเทียบกับข้อมูลที่จัดเก็บในฐานข้อมูลเชิงสัมพันธ์เนื่องจากเทคนิคการบีบอัดข้อมูล
  • การคำนวณค่ารวมระดับสูงโดยอัตโนมัติ
  • มันกะทัดรัดมากสำหรับชุดข้อมูลที่มีมิติข้อมูลต่ำ
  • โมเดลอาร์เรย์ให้การจัดทำดัชนีที่เป็นธรรมชาติ
  • การดึงข้อมูลอย่างมีประสิทธิภาพทำได้โดยการจัดโครงสร้างข้อมูลที่รวบรวมไว้ล่วงหน้า

ข้อเสียของ MOLAP

  • ในระบบ MOLAP บางระบบ ขั้นตอนการประมวลผล (การโหลดข้อมูล) อาจใช้เวลานานมาก โดยเฉพาะอย่างยิ่งกับข้อมูลปริมาณมาก วิธีนี้มักแก้ไขได้โดยการประมวลผลแบบเพิ่มทีละส่วน กล่าวคือ ประมวลผลเฉพาะข้อมูลที่เปลี่ยนแปลงไป (โดยปกติคือข้อมูลใหม่) แทนที่จะประมวลผลชุดข้อมูลทั้งหมดใหม่
  • วิธีการ MOLAP บางวิธีทำให้เกิดข้อมูลซ้ำซ้อน

สินค้า

ตัวอย่างผลิตภัณฑ์เชิงพาณิชย์ที่ใช้ MOLAP ได้แก่Cognos Powerplay, Oracle Database OLAP Option , MicroStrategy , Microsoft Analysis Services , Essbase , TM1 , Jedox และ icCube

OLAP เชิงสัมพันธ์ (ROLAP)

ROLAPทำงานโดยตรงกับฐานข้อมูลเชิงสัมพันธ์และไม่จำเป็นต้องมีการคำนวณล่วงหน้า ข้อมูลพื้นฐานและตารางมิติจะถูกจัดเก็บเป็นตารางเชิงสัมพันธ์ และจะมีการสร้างตารางใหม่เพื่อเก็บข้อมูลที่รวบรวมไว้ วิธีการนี้ขึ้นอยู่กับการออกแบบสคีมาที่เฉพาะเจาะจง โดยอาศัยการจัดการข้อมูลที่จัดเก็บในฐานข้อมูลเชิงสัมพันธ์เพื่อให้ได้ลักษณะการทำงานแบบการแบ่งส่วนและการแยกย่อยของ OLAP แบบดั้งเดิม โดยพื้นฐานแล้ว การกระทำแต่ละครั้งของการแบ่งส่วนและการแยกย่อยเทียบเท่ากับการเพิ่มเงื่อนไข "WHERE" ในคำสั่ง SQL เครื่องมือ ROLAP ไม่ใช้คิวบ์ข้อมูลที่คำนวณไว้ล่วงหน้า แต่จะตั้งคำถามไปยังฐานข้อมูลเชิงสัมพันธ์มาตรฐานและตารางต่างๆ เพื่อดึงข้อมูลที่จำเป็นในการตอบคำถาม เครื่องมือ ROLAP มีความสามารถในการถามคำถามใดๆ ก็ได้ เนื่องจากวิธีการนี้ไม่ได้จำกัดอยู่เฉพาะเนื้อหาของคิวบ์ นอกจากนี้ ROLAP ยังมีความสามารถในการเจาะลึกไปยังระดับรายละเอียดที่ต่ำที่สุดในฐานข้อมูลได้อีกด้วย

แม้ว่า ROLAP จะใช้ฐานข้อมูลเชิงสัมพันธ์เป็นแหล่งข้อมูล แต่โดยทั่วไปแล้วฐานข้อมูลจะต้องได้รับการออกแบบอย่างระมัดระวังสำหรับการใช้งาน ROLAP ฐานข้อมูลที่ออกแบบมาสำหรับOLTPจะทำงานได้ไม่ดีในฐานะฐานข้อมูล ROLAP ดังนั้น ROLAP จึงยังคงเกี่ยวข้องกับการสร้างสำเนาข้อมูลเพิ่มเติม อย่างไรก็ตาม เนื่องจากเป็นฐานข้อมูล จึงสามารถใช้เทคโนโลยีที่หลากหลายในการเติมข้อมูลลงในฐานข้อมูลได้

ข้อดีของ ROLAP

  • ROLAP ถือว่ามีความสามารถในการปรับขนาดได้ดีกว่าในการจัดการข้อมูลปริมาณมาก โดยเฉพาะอย่างยิ่งโมเดลที่มีมิติ ที่มี จำนวนสมาชิกสูงมาก(เช่น สมาชิกหลายล้านตัว)
  • ด้วยเครื่องมือโหลดข้อมูลที่หลากหลาย และความสามารถในการปรับแต่ง โค้ด การดึงข้อมูล แปลงข้อมูล และโหลดข้อมูล (ETL) ให้เข้ากับโมเดลข้อมูลเฉพาะ ทำให้โดยทั่วไปแล้วเวลาในการโหลดจะสั้นกว่าการโหลด แบบอัตโนมัติด้วย MOLAP มาก
  • ข้อมูลจะถูกจัดเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์ มาตรฐาน และสามารถเข้าถึงได้โดย เครื่องมือสร้างรายงาน SQL ใดๆ ก็ได้ (เครื่องมือดังกล่าวไม่จำเป็นต้องเป็นเครื่องมือ OLAP)
  • เครื่องมือ ROLAP มีประสิทธิภาพดีกว่าในการจัดการกับข้อเท็จจริงที่ไม่สามารถรวบรวมได้ (เช่น คำอธิบายที่เป็นข้อความ) ใน ขณะที่เครื่องมือ MOLAPมักมีประสิทธิภาพการทำงานที่ช้าเมื่อทำการค้นหาข้อมูลประเภทนี้
  • การแยกการจัดเก็บข้อมูลออกจากแบบจำลองหลายมิติ ทำให้สามารถสร้างแบบจำลองข้อมูลที่ไม่สามารถนำไปใช้กับแบบจำลองมิติที่เข้มงวดได้สำเร็จ
  • แนวทาง ROLAP สามารถใช้ประโยชน์จาก การควบคุมการอนุญาต ฐานข้อมูลเช่นการรักษาความปลอดภัยระดับแถวซึ่งผลลัพธ์ของแบบสอบถามจะถูกกรองตามเกณฑ์ที่กำหนดไว้ล่วงหน้า เช่น สำหรับผู้ใช้รายใดรายหนึ่งหรือกลุ่มผู้ใช้ ( ส่วน WHERE ใน SQL )

ข้อเสียของ ROLAP

  • เป็นที่ยอมรับกันโดยทั่วไปในอุตสาหกรรมว่าเครื่องมือ ROLAP มีประสิทธิภาพการทำงานช้ากว่าเครื่องมือ MOLAP อย่างไรก็ตาม โปรดดูรายละเอียดเพิ่มเติมเกี่ยวกับการทำงานของ ROLAP ในหัวข้อถัดไป
  • การโหลดข้อมูลลงในตารางรวมต้องจัดการด้วย โค้ด ETL ที่เขียนขึ้นเอง เครื่องมือ ROLAP ไม่ได้ช่วยในส่วนนี้ ซึ่งหมายความว่าต้องใช้เวลาในการพัฒนาเพิ่มเติมและต้องเขียนโค้ดมากขึ้นเพื่อรองรับการทำงาน
  • เมื่อข้ามขั้นตอนการสร้างตารางรวมข้อมูล ประสิทธิภาพการสืบค้นข้อมูลจะลดลง เนื่องจากต้องไปสืบค้นตารางรายละเอียดขนาดใหญ่กว่า วิธีนี้สามารถแก้ไขได้บางส่วนโดยการเพิ่มตารางรวมข้อมูลเพิ่มเติม แต่การสร้างตารางรวมข้อมูลสำหรับทุกชุดค่าผสมของมิติ/คุณลักษณะก็ยังไม่สามารถทำได้ในทางปฏิบัติ
  • ROLAP อาศัยฐานข้อมูลอเนกประสงค์สำหรับการสืบค้นและการแคช ดังนั้นเทคนิคพิเศษหลายอย่างที่ใช้ใน เครื่องมือ MOLAPจึงไม่สามารถใช้งานได้ (เช่น การจัดทำดัชนีแบบลำดับชั้นพิเศษ) อย่างไรก็ตาม เครื่องมือ ROLAP ที่ทันสมัยใช้ประโยชน์จากความก้าวหน้าล่าสุดใน ภาษา SQLเช่น ตัวดำเนินการ CUBE และ ROLLUP, DB2 Cube Views รวมถึงส่วนขยาย SQL OLAP อื่นๆ ความก้าวหน้าของ SQL เหล่านี้อาจลดทอนข้อดีของเครื่องมือMOLAP ได้
  • เนื่องจากเครื่องมือ ROLAP อาศัยSQLในการคำนวณทั้งหมด จึงไม่เหมาะสมสำหรับแบบจำลองที่มีการคำนวณจำนวนมากซึ่งไม่สามารถแปลงเป็นSQL ได้ดี ตัวอย่างของแบบจำลองดังกล่าว ได้แก่ การจัดทำงบประมาณ การจัดสรร การรายงานทางการเงิน และสถานการณ์อื่นๆ

ประสิทธิภาพของ ROLAP

ในอุตสาหกรรม OLAP นั้น ROLAP มักถูกมองว่าสามารถรองรับข้อมูลปริมาณมากได้ แต่มีประสิทธิภาพการสืบค้นข้อมูลที่ช้ากว่าMOLAP จาก การสำรวจ OLAP Surveyซึ่งเป็นการสำรวจอิสระที่ใหญ่ที่สุดในผลิตภัณฑ์ OLAP หลักๆ ทั้งหมด ดำเนินการต่อเนื่องเป็นเวลา 6 ปี (ปี 2001 ถึง 2006) พบว่าบริษัทที่ใช้ ROLAP รายงานประสิทธิภาพการทำงานที่ช้ากว่าบริษัทที่ใช้ MOLAP อย่างสม่ำเสมอ แม้จะพิจารณาปริมาณข้อมูลแล้วก็ตาม

อย่างไรก็ตาม เช่นเดียวกับการสำรวจใดๆ ก็ตาม มีประเด็นปลีกย่อยหลายประการที่ต้องนำมาพิจารณาเมื่อตีความผลลัพธ์

  • ผลสำรวจแสดงให้เห็นว่า เครื่องมือ ROLAP มีผู้ใช้งานมากกว่า เครื่องมือ MOLAP ถึง 7 เท่า ในแต่ละบริษัท ระบบที่มีผู้ใช้งานมากมักจะมีปัญหาด้านประสิทธิภาพการทำงานมากขึ้นในช่วงเวลาที่มีการใช้งานสูงสุด
  • นอกจากนี้ยังมีคำถามเกี่ยวกับความซับซ้อนของแบบจำลอง ซึ่งวัดได้ทั้งจากจำนวนมิติและความละเอียดของการคำนวณ แบบสอบถามนี้ไม่ได้เสนอวิธีการที่ดีในการควบคุมความแปรผันเหล่านี้ในข้อมูลที่นำมาวิเคราะห์

ข้อเสียของความยืดหยุ่น

บางบริษัทเลือกใช้ ROLAP เพราะตั้งใจที่จะนำตารางฐานข้อมูลเชิงสัมพันธ์ที่มีอยู่แล้วมาใช้ซ้ำ ซึ่งตารางเหล่านี้มักจะไม่ได้ถูกออกแบบมาให้เหมาะสมกับการใช้งาน OLAP อย่างเหมาะสม ความยืดหยุ่นที่เหนือกว่าของเครื่องมือ ROLAP ช่วยให้การออกแบบที่ไม่เหมาะสมนี้ใช้งานได้ แต่ประสิทธิภาพจะลดลง ในทางตรงกันข้าม เครื่องมือ MOLAPจะบังคับให้โหลดข้อมูลใหม่ลงในโครงสร้าง OLAP ที่เหมาะสมที่สุด

ไฮบริดโอแอลเอพี (HOLAP)

การแลกเปลี่ยนที่ไม่พึงประสงค์ระหว่าง ต้นทุน ETL ที่เพิ่มขึ้น และประสิทธิภาพการสืบค้นข้อมูลที่ช้าลง ทำให้เครื่องมือ OLAP เชิงพาณิชย์ส่วนใหญ่ในปัจจุบันใช้แนวทาง "Hybrid OLAP" (HOLAP) ซึ่งอนุญาตให้นักออกแบบโมเดลตัดสินใจได้ว่าส่วนใดของข้อมูลจะถูกจัดเก็บในMOLAPและส่วนใดจะถูกจัดเก็บใน ROLAP

ไม่มีข้อตกลงที่ชัดเจนในอุตสาหกรรมเกี่ยวกับสิ่งที่ประกอบขึ้นเป็น "Hybrid OLAP" ยกเว้นว่าฐานข้อมูลจะแบ่งข้อมูลระหว่างพื้นที่จัดเก็บเชิงสัมพันธ์และพื้นที่จัดเก็บเฉพาะทาง[ 15 ]ตัวอย่างเช่น สำหรับผู้จำหน่ายบางราย ฐานข้อมูล HOLAP จะใช้ตารางเชิงสัมพันธ์เพื่อเก็บข้อมูลรายละเอียดจำนวนมาก และใช้พื้นที่จัดเก็บเฉพาะทางสำหรับข้อมูลจำนวนน้อยกว่าที่มีข้อมูลโดยรวมหรือรายละเอียดน้อยกว่าอย่างน้อยบางส่วน HOLAP แก้ไขข้อบกพร่องของMOLAPและROLAPโดยการรวมความสามารถของทั้งสองแนวทางเข้าด้วยกัน เครื่องมือ HOLAP สามารถใช้ได้ทั้งคิวบ์ที่คำนวณไว้ล่วงหน้าและแหล่งข้อมูลเชิงสัมพันธ์

การแบ่งส่วนแนวตั้ง

ในโหมดนี้ HOLAP จะจัดเก็บข้อมูลรวมไว้ในMOLAPเพื่อให้การค้นหาข้อมูลรวดเร็ว และจัดเก็บข้อมูลรายละเอียดไว้ในROLAPเพื่อเพิ่มประสิทธิภาพเวลาในการประมวลผล คิว บ์

การแบ่งส่วนแนวนอน

ในโหมดนี้ HOLAP จะจัดเก็บส่วนข้อมูลบางส่วน ซึ่งโดยปกติจะเป็นข้อมูลที่ใหม่กว่า (เช่น แบ่งตามมิติเวลา) ในMOLAPเพื่อประสิทธิภาพการค้นหาที่รวดเร็ว และข้อมูลที่เก่ากว่าในROLAPนอกจากนี้ เรายังสามารถจัดเก็บลูกเต๋าบางส่วนในMOLAPและส่วนอื่นๆ ในROLAPโดยใช้ประโยชน์จากข้อเท็จจริงที่ว่าในคิวบอยด์ขนาดใหญ่จะมีบริเวณย่อยที่หนาแน่นและเบาบาง[ 16 ]

สินค้า

ผลิตภัณฑ์แรกที่ให้บริการจัดเก็บข้อมูลแบบ HOLAP คือHolosแต่เทคโนโลยีนี้ก็ได้ถูกนำไปใช้ในผลิตภัณฑ์เชิงพาณิชย์อื่นๆ เช่นMicrosoft Analysis Services , Oracle Database OLAP Option , MicroStrategyและSAP AG BI Accelerator แนวทาง OLAP แบบไฮบริดเป็นการผสมผสานเทคโนโลยี ROLAP และ MOLAP เข้าด้วยกัน โดยได้รับประโยชน์จากความสามารถในการขยายขนาดที่มากกว่าของ ROLAP และการคำนวณที่เร็วกว่าของ MOLAP ตัวอย่างเช่น เซิร์ฟเวอร์ HOLAP อาจจัดเก็บข้อมูลรายละเอียดจำนวนมากในฐานข้อมูลเชิงสัมพันธ์ ในขณะที่ข้อมูลสรุปจะถูกเก็บไว้ในที่เก็บข้อมูล MOLAP แยกต่างหาก Microsoft SQL Server 7.0 OLAP Services รองรับเซิร์ฟเวอร์ OLAP แบบไฮบริด

การเปรียบเทียบ

แต่ละประเภทมีข้อดีบางประการ แม้ว่าผู้ให้บริการจะมีความเห็นไม่ตรงกันเกี่ยวกับรายละเอียดของข้อดีเหล่านั้นก็ตาม

  • การใช้งาน MOLAP บางรูปแบบมีแนวโน้มที่จะเกิดปัญหาฐานข้อมูลระเบิด ซึ่งเป็นปรากฏการณ์ที่ทำให้ฐานข้อมูล MOLAP ใช้พื้นที่จัดเก็บข้อมูลจำนวนมหาศาลเมื่อมีเงื่อนไขทั่วไปบางประการเกิดขึ้น ได้แก่ จำนวนมิติที่สูง ผลลัพธ์ที่คำนวณไว้ล่วงหน้า และข้อมูลหลายมิติที่กระจัดกระจาย
  • โดยทั่วไป MOLAP ให้ประสิทธิภาพที่ดีกว่าเนื่องจากการจัดทำดัชนีและการเพิ่มประสิทธิภาพการจัดเก็บแบบพิเศษ นอกจากนี้ MOLAP ยังต้องการพื้นที่จัดเก็บน้อยกว่า ROLAP เนื่องจากพื้นที่จัดเก็บแบบพิเศษมักรวมถึงเทคนิคการบีบอัด[ 15 ]
  • โดยทั่วไป ROLAP มีความสามารถในการปรับขนาดได้ดีกว่า[ 15 ]อย่างไรก็ตาม การประมวลผลล่วงหน้าปริมาณมากทำได้ยากและมักถูกละเลย ประสิทธิภาพการสืบค้น ROLAP จึงอาจได้รับผลกระทบอย่างมาก
  • เนื่องจาก ROLAP อาศัยฐานข้อมูลในการคำนวณเป็นหลัก จึงมีข้อจำกัดในฟังก์ชันเฉพาะทางที่สามารถใช้งานได้มากกว่า
  • HOLAP พยายามผสมผสานข้อดีของ ROLAP และ MOLAP เข้าด้วยกัน โดยทั่วไปแล้วสามารถประมวลผลเบื้องต้นได้อย่างรวดเร็ว ปรับขนาดได้ดี และรองรับฟังก์ชันต่างๆ ได้ดี

ประเภทอื่นๆ

นอกจากนี้ ยังมีการใช้ตัวย่อต่อไปนี้บ้าง แต่ไม่แพร่หลายเท่าตัวย่อข้างต้น:

  • WOLAP – OLAP บนเว็บ
  • DOLAPDesktop OLAP
  • RTOLAP – OLAP แบบเรียลไทม์
  • GOLAP – กราฟ OLAP [ 17 ] [ 18 ]
  • CaseOLAP – OLAP เชิงความหมายที่คำนึงถึงบริบท[ 19 ]พัฒนาขึ้นสำหรับแอปพลิเคชันทางการแพทย์[ 20 ]แพลตฟอร์ม CaseOLAP ประกอบด้วยการประมวลผลข้อมูลล่วงหน้า (เช่น การดาวน์โหลด การดึงข้อมูล และการแยกวิเคราะห์เอกสารข้อความ) การจัดทำดัชนีและการค้นหาด้วย Elasticsearch การสร้างโครงสร้างเอกสารเชิงฟังก์ชันที่เรียกว่า Text-Cube [ 21 ] [ 22 ] [ 23 ] [ 24 ] [ 25 ] และการหาปริมาณความสัมพันธ์ระหว่างวลีและหมวดหมู่ที่ผู้ใช้กำหนดโดยใช้อัลกอริธึมหลักของ CaseOLAP

API และภาษาการสืบค้นข้อมูล

แตกต่างจากฐานข้อมูลเชิงสัมพันธ์ซึ่งมี SQL เป็นภาษาการสืบค้นมาตรฐาน และAPI ที่แพร่หลาย เช่นODBC , JDBCและOLEDBในโลกของ OLAP นั้นไม่มีการรวมกันเช่นนั้นมาเป็นเวลานาน API มาตรฐานตัวแรกที่แท้จริงคือ ข้อกำหนด OLE DB สำหรับ OLAPจากMicrosoftซึ่งปรากฏขึ้นในปี 1997 และแนะนำ ภาษาการสืบค้น MDXผู้จำหน่าย OLAP หลายราย ทั้งเซิร์ฟเวอร์และไคลเอนต์ ต่างนำไปใช้ ในปี 2001 Microsoft และHyperionได้ประกาศ ข้อกำหนด XML สำหรับการวิเคราะห์ซึ่งได้รับการรับรองจากผู้จำหน่าย OLAP ส่วนใหญ่ เนื่องจากข้อกำหนดนี้ใช้ MDX เป็นภาษาการสืบค้นเช่นกัน MDX จึงกลายเป็นมาตรฐานโดยพฤตินัย[ 26 ] ตั้งแต่เดือนกันยายน 2011 สามารถใช้LINQ เพื่อสืบค้นคิวบ์ SSAS OLAP จาก Microsoft .NET ได้[ 27 ]

สินค้า

ประวัติศาสตร์

ผลิตภัณฑ์แรกที่ทำการสืบค้น OLAP คือExpressซึ่งเปิดตัวในปี 1970 (และOracle ได้เข้าซื้อกิจการ ในปี 1995 จาก Information Resources) [ 28 ]อย่างไรก็ตาม คำนี้เพิ่งปรากฏขึ้นในปี 1993 เมื่อEdgar F. Codd เป็นผู้บัญญัติศัพท์ ซึ่งได้รับการกล่าวขานว่าเป็น "บิดาแห่งฐานข้อมูลเชิงสัมพันธ์" บทความของ Codd [ 1 ]เป็นผลมาจากการให้คำปรึกษาระยะสั้นที่ Codd ดำเนินการให้กับ Arbor Software เดิม (ต่อมาคือHyperion Solutionsและในปี 2007 ถูก Oracle เข้าซื้อกิจการ) ซึ่งเป็นเหมือนกลยุทธ์ทางการตลาดอย่างหนึ่ง

บริษัทได้เปิดตัวผลิตภัณฑ์ OLAP ของตนเองชื่อEssbaseก่อนหน้านั้นหนึ่งปี ดังนั้น "กฎสิบสองข้อของการประมวลผลเชิงวิเคราะห์ออนไลน์" ของ Codd จึงอ้างอิงถึง Essbase อย่างชัดเจน เกิดข้อโต้แย้งตามมา และเมื่อ Computerworld ทราบว่า Codd ได้รับเงินจาก Arbor ก็ได้ถอนบทความนั้นออก ตลาด OLAP เติบโตอย่างแข็งแกร่งในช่วงปลายทศวรรษ 1990 โดยมีผลิตภัณฑ์เชิงพาณิชย์หลายสิบรายการออกสู่ตลาด ในปี 1998 Microsoft ได้เปิดตัว OLAP Server ตัวแรก คือ Microsoft Analysis Servicesซึ่งผลักดันให้เทคโนโลยี OLAP ได้รับการใช้งานอย่างแพร่หลายและกลายเป็นกระแสหลัก

การเปรียบเทียบผลิตภัณฑ์

ลูกค้า OLAP

โปรแกรมไคลเอ็นต์ OLAP มีมากมายหลายโปรแกรม เช่น โปรแกรมสเปรดชีตอย่าง Excel, เว็บแอปพลิเคชัน, SQL, เครื่องมือสร้างแดชบอร์ด เป็นต้น ไคลเอ็นต์หลายตัวรองรับการสำรวจข้อมูลแบบโต้ตอบ โดยผู้ใช้สามารถเลือกมิติและตัวชี้วัดที่สนใจได้ บางมิติใช้เป็นตัวกรอง (สำหรับการแบ่งและวิเคราะห์ข้อมูล) ในขณะที่บางมิติถูกเลือกเป็นแกนของตาราง Pivot หรือแผนภูมิ Pivot ผู้ใช้ยังสามารถปรับระดับการรวม (สำหรับการเจาะลึกหรือการรวม) ของมุมมองที่แสดงได้ ไคลเอ็นต์ยังสามารถนำเสนอวิดเจ็ตกราฟิกที่หลากหลาย เช่น ตัวเลื่อน แผนที่ทางภูมิศาสตร์ แผนที่ความร้อน และอื่นๆ ซึ่งสามารถจัดกลุ่มและประสานงานกันเป็นแดชบอร์ดได้ รายชื่อไคลเอ็นต์จำนวนมากปรากฏอยู่ในคอลัมน์การแสดงภาพในตาราง เปรียบเทียบเซิร์ฟเวอร์ OLAP

โครงสร้างตลาด

ด้าน ล่างนี้คือรายชื่อผู้จำหน่าย OLAP ชั้นนำในปี 2549 พร้อมตัวเลขเป็นล้านดอลลาร์สหรัฐ[ 29 ]

ผู้ขายรายได้ทั่วโลกบริษัท คอนโซลิเดเต็ด
บริษัท ไมโครซอฟต์1,806ไมโครซอฟต์
บริษัท ไฮเปอเรียน โซลูชั่นส์ คอร์ปอเรชั่น1,077ออราเคิล
ค็อกโนส735ไอบีเอ็ม
วัตถุธุรกิจ416เอสพี
ไมโครกลยุทธ์416ไมโครกลยุทธ์
บริษัท เอสเอเอ330เอสพี
คาร์ทีซิส ( SAP )210เอสพี
แอปพลิกซ์205ไอบีเอ็ม
อินฟอร์199อินฟอร์
บริษัท ออราเคิล คอร์ปอเรชั่น159ออราเคิล
คนอื่น152คนอื่น
ทั้งหมด5,700

โอเพนซอร์ส

  • Apache Pinotถูกใช้ที่ LinkedIn, Cisco, Uber, Slack, Stripe, DoorDash, Target, Walmart, Amazon และ Microsoft เพื่อส่งมอบการวิเคราะห์แบบเรียลไทม์ที่ปรับขนาดได้ด้วยความหน่วงต่ำ[ 30 ]สามารถรับข้อมูลจากแหล่งข้อมูลออฟไลน์ (เช่น Hadoop และไฟล์แบบเรียบ) รวมถึงแหล่งข้อมูลออนไลน์ (เช่น Kafka) Pinot ได้รับการออกแบบให้ปรับขนาดในแนวนอนได้
  • Mondrian OLAP serverเป็น เซิร์ฟเวอร์ OLAP แบบโอเพนซอร์สที่เขียนด้วยภาษา Javaรองรับ ภาษาการสืบค้น MDX , XML สำหรับการวิเคราะห์และข้อกำหนดอินเทอร์เฟซolap4j
  • Apache Doris เป็นฐานข้อมูลวิเคราะห์แบบเรียลไทม์โอเพนซอร์สที่ใช้สถาปัตยกรรม MPP สามารถรองรับทั้งสถานการณ์การสืบค้นจุดที่มีการทำงานพร้อมกันสูงและการวิเคราะห์ที่ซับซ้อนที่มีปริมาณงานสูง[ 31 ]
  • Apache Druidเป็นระบบจัดเก็บข้อมูลแบบกระจายศูนย์แบบโอเพนซอร์สยอดนิยมสำหรับคำสั่งค้นหาข้อมูล OLAP ซึ่งองค์กรต่างๆ นำไปใช้งานในระดับใหญ่ในระบบการผลิต
  • Apache Kylinเป็นระบบจัดเก็บข้อมูลแบบกระจายสำหรับคำสั่งค้นหาข้อมูลแบบ OLAP ซึ่งพัฒนาขึ้นครั้งแรกโดย eBay
  • Cubes (OLAP server)เป็น ชุดเครื่องมือ โอเพนซอร์ส ขนาดเล็กอีกชุดหนึ่ง ที่นำฟังก์ชัน OLAP มาใช้ในภาษาโปรแกรม Pythonโดยมี ROLAP ในตัว
  • ClickHouseเป็นระบบจัดการฐานข้อมูลแบบคอลัมน์ที่ค่อนข้างใหม่ โดยเน้นที่การประมวลผลที่รวดเร็วและเวลาตอบสนองที่ฉับไว
  • DuckDB [ 32 ] เป็น ระบบจัดการฐานข้อมูล SQL OLAP [ 33 ]ในกระบวนการ
  • MonetDBเป็นระบบจัดการฐานข้อมูลเชิงสัมพันธ์แบบ SQL เชิงคอลัมน์แบบโอเพนซอร์สที่พัฒนามาอย่างยาวนาน ออกแบบมาสำหรับคำสั่งค้นหาข้อมูลแบบ OLAP

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Erik Thomsen. (1997). OLAP Solutions: Building Multidimensional Information Systems, ฉบับที่ 2. John Wiley & Sons. ISBN 978-0-471-14931-6.
  • Ling Liuและ Tamer M. Özsu (บรรณาธิการ) (2009). " สารานุกรมระบบฐานข้อมูล " 4100 หน้า 60 ภาพประกอบISBN 978-0-387-49616-0.
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Online_analytical_processing&oldid=1338055102#Hybrid_OLAP_(HOLAP) "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การประมวลผลเชิงวิเคราะห์ออนไลน์

ใน ด้าน การ คำนวณ การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) ( / ˈ oʊ l æ p / ) เป็นแนวทางในการตอบคำถาม เชิงวิเคราะห์หลายมิติ (MDA) อย่างรวดเร็ว [ 1 ] คำว่า OLAP...

ภาพรวมของระบบ OLAP

หัวใจสำคัญของระบบ OLAP ใดๆ ก็คือ OLAP cube (หรือเรียกว่า 'multidimensional cube' หรือ hypercube ) ซึ่งประกอบด้วยข้อเท็จจริงเชิงตัวเลขที่เรียกว่า measures ที่จัดหมวดหมู่ตาม มิติ measures เหล่านี้จะถูกวางไว้ที่จุดตัดของ hypercube ซึ่งถูกสร้างขึ้นจากมิติต่างๆ...

ฐานข้อมูลหลายมิติ

โครงสร้างหลายมิติถูกนิยามว่า "รูปแบบหนึ่งของแบบจำลองเชิงสัมพันธ์ที่ใช้โครงสร้างหลายมิติในการจัดระเบียบข้อมูลและแสดงความสัมพันธ์ระหว่างข้อมูล" [ 6 ] : 177 โครงสร้างนี้ถูกแบ่งออกเป็นลูกบาศก์...

การรวมกลุ่ม

มีการอ้างว่าคิวบ์ OLAP สามารถสร้างคำตอบได้ในเวลาประมาณ 0.1% ของเวลาที่จำเป็นสำหรับการสอบถามแบบเดียวกันบนข้อมูลเชิงสัมพันธ์ OLTP [ 9 ] [ 10 ] กลไกที่สำคัญที่สุดใน OLAP ที่ทำให้บรรลุประสิทธิภาพดังกล่าวคือการใช้ การรวมกลุ่ม...