อ่าน 3 นาที
การขุดค้นรูปแบบลำดับ
การขุดรูปแบบลำดับ เป็นหัวข้อหนึ่งของ การขุดข้อมูล ที่เกี่ยวข้องกับการค้นหารูปแบบที่มีนัยสำคัญทางสถิติระหว่างตัวอย่างข้อมูลที่ค่าต่างๆ ถูกส่งมอบตามลำดับ [ 1 ] [ 2 ]...
การขุดค้นรูปแบบลำดับ
การขุดรูปแบบลำดับเป็นหัวข้อหนึ่งของการขุดข้อมูลที่เกี่ยวข้องกับการค้นหารูปแบบที่มีนัยสำคัญทางสถิติระหว่างตัวอย่างข้อมูลที่ค่าต่างๆ ถูกส่งมอบตามลำดับ[ 1 ] [ 2 ]โดยทั่วไปจะถือว่าค่าต่างๆ เป็นค่าที่ไม่ต่อเนื่อง ดังนั้น การขุด อนุกรมเวลาจึงมีความเกี่ยวข้องอย่างใกล้ชิด แต่โดยทั่วไปถือว่าเป็นกิจกรรมที่แตกต่างกัน การขุดรูปแบบลำดับเป็นกรณีพิเศษของการขุดข้อมูลที่มีโครงสร้าง
มีปัญหาการคำนวณแบบดั้งเดิมที่สำคัญหลายประการที่กล่าวถึงในสาขานี้ ซึ่งรวมถึงการสร้างฐานข้อมูลและดัชนีที่มีประสิทธิภาพสำหรับข้อมูลลำดับ การสกัดรูปแบบที่เกิดขึ้นบ่อย การเปรียบเทียบลำดับเพื่อหาความคล้ายคลึงและการกู้คืนสมาชิกในลำดับที่หายไป โดยทั่วไป ปัญหาการขุดลำดับสามารถจำแนกได้เป็นการขุดสตริงซึ่งโดยทั่วไปจะขึ้นอยู่กับอัลกอริธึมการประมวลผลสตริง และการขุดชุดรายการซึ่งโดยทั่วไปจะขึ้นอยู่กับการเรียนรู้กฎความสัมพันธ์โมเดลกระบวนการท้องถิ่น[ 3 ]ขยายการขุดรูปแบบลำดับไปสู่รูปแบบที่ซับซ้อนมากขึ้น ซึ่งอาจรวมถึงตัวเลือก (เฉพาะ) วงวน และโครงสร้างการทำงานพร้อมกัน นอกเหนือจากโครงสร้างการเรียงลำดับตามลำดับ
การขุดสตริง
การค้นหาข้อมูลจากสตริงโดยทั่วไปจะเกี่ยวข้องกับตัวอักษร จำนวนจำกัด สำหรับรายการที่ปรากฏในลำดับแต่ลำดับนั้นอาจยาวมาก ตัวอย่างของตัวอักษรได้แก่ ตัวอักษรใน ชุดอักขระ ASCIIที่ใช้ในข้อความภาษาธรรมชาติ เบสของ นิวคลีโอไทด์ 'A', 'G', 'C' และ 'T' ในลำดับ DNAหรือกรดอะมิโนสำหรับลำดับโปรตีนใน การประยุกต์ใช้ ทางชีววิทยาการวิเคราะห์การจัดเรียงตัวอักษรในสตริงสามารถใช้เพื่อตรวจสอบ ลำดับ ยีนและโปรตีนเพื่อกำหนดคุณสมบัติของพวกมัน การรู้ลำดับของตัวอักษรในDNAหรือโปรตีนไม่ใช่เป้าหมายสูงสุดในตัวเอง แต่ภารกิจหลักคือการทำความเข้าใจลำดับในแง่ของโครงสร้างและหน้าที่ทางชีววิทยาซึ่งโดยทั่วไปจะทำได้โดยการระบุบริเวณแต่ละส่วนหรือหน่วยโครงสร้างภายในแต่ละลำดับก่อน จากนั้นจึงกำหนดหน้าที่ให้กับแต่ละหน่วยโครงสร้าง ในหลายกรณีจำเป็นต้องเปรียบเทียบลำดับที่กำหนดกับลำดับที่เคยศึกษามาก่อน การเปรียบเทียบระหว่างสตริงจะซับซ้อนขึ้นเมื่อมีการแทรกการลบและการกลายพันธุ์เกิดขึ้นในสตริง
Abouelhoda & Ghanem (2010) ได้นำเสนอการสำรวจและจำแนกประเภทของอัลกอริธึมหลักสำหรับการเปรียบเทียบลำดับสำหรับชีวสารสนเทศ ซึ่งรวมถึง: [ 4 ]
- ปัญหาที่เกี่ยวข้องกับการทำซ้ำ: ปัญหาที่เกี่ยวข้องกับการดำเนินการกับลำดับเดี่ยว และอาจใช้การจับคู่สตริงแบบตรงเป๊ะหรือการจับคู่สตริงแบบประมาณเพื่อค้นหาการทำซ้ำที่มีความยาวคงที่และความยาวสูงสุดที่กระจายตัว การค้นหาการทำซ้ำแบบเรียงต่อกัน และการค้นหาลำดับย่อยที่ไม่ซ้ำกันและลำดับย่อยที่หายไป (สะกดไม่ถูก)
- ปัญหาการจัดเรียงลำดับ:คือปัญหาที่เกี่ยวข้องกับการเปรียบเทียบสตริงโดยการจัดเรียงลำดับหนึ่งหรือมากกว่าหนึ่งลำดับก่อน ตัวอย่างของวิธีการที่นิยมใช้ ได้แก่BLASTสำหรับเปรียบเทียบลำดับเดียวกับหลายลำดับในฐานข้อมูล และClustalWสำหรับการจัดเรียงลำดับหลายลำดับ อัลกอริทึมการจัดเรียงลำดับสามารถใช้ได้ทั้งวิธีที่แม่นยำหรือวิธีโดยประมาณ และยังสามารถจำแนกได้เป็นแบบจัดเรียงลำดับทั่วโลก แบบจัดเรียงลำดับกึ่งทั่วโลก และแบบจัดเรียงลำดับเฉพาะที่ ดูที่ การ จัดเรียงลำดับ
การขุดชุดรายการ
ปัญหาบางอย่างในการค้นหาลำดับเหตุการณ์นั้นเหมาะสมกับการค้นหาชุดรายการที่เกิดขึ้นบ่อยและลำดับการปรากฏของรายการเหล่านั้น ตัวอย่างเช่น การค้นหากฎในรูปแบบ "ถ้าลูกค้าซื้อรถยนต์ เขาหรือเธอมีแนวโน้มที่จะซื้อประกันภัยภายใน 1 สัปดาห์" หรือในบริบทของราคาหุ้น "ถ้าหุ้น Nokia และ Ericsson ขึ้น มีความเป็นไปได้ที่หุ้น Motorola และ Samsung จะขึ้นภายใน 2 วัน" โดยทั่วไปแล้ว การค้นหาชุดรายการเหตุการณ์จะถูกนำไปใช้ในแอปพลิเคชันทางการตลาดเพื่อค้นหาความสม่ำเสมอระหว่างรายการที่เกิดขึ้นร่วมกันบ่อยครั้งในธุรกรรมขนาดใหญ่ ตัวอย่างเช่น โดยการวิเคราะห์ธุรกรรมตะกร้าสินค้าของลูกค้าในซูเปอร์มาร์เก็ต เราสามารถสร้างกฎที่ว่า "ถ้าลูกค้าซื้อหัวหอมและมันฝรั่งพร้อมกัน เขาหรือเธอมีแนวโน้มที่จะซื้อเนื้อแฮมเบอร์เกอร์ในธุรกรรมเดียวกันด้วย"
Han et al. (2007) ได้นำเสนอการสำรวจและจำแนกประเภทของอัลกอริธึมหลักสำหรับการขุดชุดรายการ[ 5 ]
เทคนิคทั่วไปสองเทคนิคที่ใช้กับฐานข้อมูลลำดับเพื่อค้นหาชุดรายการที่เกิดขึ้นบ่อย ได้แก่ อัลกอริทึม Apriori ที่ทรงอิทธิพล และ เทคนิค FP-growth ที่พัฒนาขึ้นมาใหม่กว่า
แอปพลิเคชัน
ด้วยความหลากหลายของผลิตภัณฑ์และพฤติกรรมการซื้อของผู้ใช้ ชั้นวางสินค้าจึงเป็นหนึ่งในทรัพยากรที่สำคัญที่สุดในสภาพแวดล้อมการค้าปลีก ผู้ค้าปลีกไม่เพียงแต่สามารถเพิ่มผลกำไรได้เท่านั้น แต่ยังสามารถลดต้นทุนได้ด้วยการจัดการการจัดสรรพื้นที่ชั้นวางและการจัดแสดงสินค้าอย่างเหมาะสม เพื่อแก้ปัญหานี้ George และ Binu (2013) ได้เสนอแนวทางในการขุดรูปแบบการซื้อของ ผู้ใช้ โดยใช้อัลกอริทึม PrefixSpan และวางผลิตภัณฑ์บนชั้นวางตามลำดับของรูปแบบการซื้อที่ขุดได้[ 6 ]
อัลกอริทึม
อัลกอริทึมที่ใช้กันทั่วไป ได้แก่:
- อัลกอริทึม GSP
- การค้นหารูปแบบลำดับโดยใช้คลาสสมมูล (SPADE)
- ฟรีสแปน
- ช่วงคำนำหน้า
- MAPres [ 7 ]
- Seq2Pat (สำหรับการขุดรูปแบบลำดับตามข้อจำกัด) [ 8 ] [ 9 ]
ดูเพิ่มเติม
- การสกัดคำที่ใช้ร่วมกัน – เทคนิคการคำนวณเพื่อค้นหาลำดับคำ
- การวิเคราะห์กระบวนการ – เทคนิคการวิเคราะห์ข้อมูลโดยใช้บันทึกเหตุการณ์
- การวิเคราะห์ลำดับ – การระบุและการศึกษาลำดับจีโนม
- การวิเคราะห์ลำดับในสังคมศาสตร์ – การวิเคราะห์ชุดลำดับเชิงหมวดหมู่
- การจัดกลุ่มลำดับ
- การติดฉลากลำดับ
ลิงก์ภายนอก
- SPMFประกอบด้วยการใช้งานแบบโอเพนซอร์สของ GSP, PrefixSpan, SPADE, SPAM และอื่นๆ อีกมากมาย
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การขุดค้นรูปแบบลำดับ
การขุดรูปแบบลำดับ เป็นหัวข้อหนึ่งของ การขุดข้อมูล ที่เกี่ยวข้องกับการค้นหารูปแบบที่มีนัยสำคัญทางสถิติระหว่างตัวอย่างข้อมูลที่ค่าต่างๆ ถูกส่งมอบตามลำดับ [ 1 ] [ 2 ]...
การขุดสตริง
การค้นหาข้อมูลจากสตริงโดยทั่วไปจะเกี่ยวข้องกับ ตัวอักษร จำนวนจำกัด สำหรับรายการที่ปรากฏใน ลำดับ แต่ลำดับนั้นอาจยาวมาก ตัวอย่างของตัวอักษรได้แก่ ตัวอักษรใน ชุดอักขระ ASCII ที่ใช้ในข้อความภาษาธรรมชาติ เบสของ นิวคลีโอไท ด์ 'A', 'G', 'C' และ 'T' ใน ลำดับ DNA หรือ...
การขุดชุดรายการ
ปัญหาบางอย่างในการค้นหาลำดับเหตุการณ์นั้นเหมาะสมกับการค้นหาชุดรายการที่เกิดขึ้นบ่อยและลำดับการปรากฏของรายการเหล่านั้น ตัวอย่างเช่น การค้นหากฎในรูปแบบ "ถ้าลูกค้าซื้อรถยนต์ เขาหรือเธอมีแนวโน้มที่จะซื้อประกันภัยภายใน 1 สัปดาห์" หรือในบริบทของราคาหุ้น "ถ้าหุ้น...
แอปพลิเคชัน
ด้วยความหลากหลายของผลิตภัณฑ์และพฤติกรรมการซื้อของผู้ใช้ ชั้นวางสินค้าจึงเป็นหนึ่งในทรัพยากรที่สำคัญที่สุดในสภาพแวดล้อมการค้าปลีก ผู้ค้าปลีกไม่เพียงแต่สามารถเพิ่มผลกำไรได้เท่านั้น...