กลับไปหน้าบทความ

อ่าน 3 นาที

การขุดค้นรูปแบบลำดับ

การขุดรูปแบบลำดับ เป็นหัวข้อหนึ่งของ การขุดข้อมูล ที่เกี่ยวข้องกับการค้นหารูปแบบที่มีนัยสำคัญทางสถิติระหว่างตัวอย่างข้อมูลที่ค่าต่างๆ ถูกส่งมอบตามลำดับ [ 1 ] [ 2 ]...

การขุดค้นรูปแบบลำดับ

การขุดรูปแบบลำดับเป็นหัวข้อหนึ่งของการขุดข้อมูลที่เกี่ยวข้องกับการค้นหารูปแบบที่มีนัยสำคัญทางสถิติระหว่างตัวอย่างข้อมูลที่ค่าต่างๆ ถูกส่งมอบตามลำดับ[ 1 ] [ 2 ]โดยทั่วไปจะถือว่าค่าต่างๆ เป็นค่าที่ไม่ต่อเนื่อง ดังนั้น การขุด อนุกรมเวลาจึงมีความเกี่ยวข้องอย่างใกล้ชิด แต่โดยทั่วไปถือว่าเป็นกิจกรรมที่แตกต่างกัน การขุดรูปแบบลำดับเป็นกรณีพิเศษของการขุดข้อมูลที่มีโครงสร้าง

มีปัญหาการคำนวณแบบดั้งเดิมที่สำคัญหลายประการที่กล่าวถึงในสาขานี้ ซึ่งรวมถึงการสร้างฐานข้อมูลและดัชนีที่มีประสิทธิภาพสำหรับข้อมูลลำดับ การสกัดรูปแบบที่เกิดขึ้นบ่อย การเปรียบเทียบลำดับเพื่อหาความคล้ายคลึงและการกู้คืนสมาชิกในลำดับที่หายไป โดยทั่วไป ปัญหาการขุดลำดับสามารถจำแนกได้เป็นการขุดสตริงซึ่งโดยทั่วไปจะขึ้นอยู่กับอัลกอริธึมการประมวลผลสตริง และการขุดชุดรายการซึ่งโดยทั่วไปจะขึ้นอยู่กับการเรียนรู้กฎความสัมพันธ์โมเดลกระบวนการท้องถิ่น[ 3 ]ขยายการขุดรูปแบบลำดับไปสู่รูปแบบที่ซับซ้อนมากขึ้น ซึ่งอาจรวมถึงตัวเลือก (เฉพาะ) วงวน และโครงสร้างการทำงานพร้อมกัน นอกเหนือจากโครงสร้างการเรียงลำดับตามลำดับ

การขุดสตริง

การค้นหาข้อมูลจากสตริงโดยทั่วไปจะเกี่ยวข้องกับตัวอักษร จำนวนจำกัด สำหรับรายการที่ปรากฏในลำดับแต่ลำดับนั้นอาจยาวมาก ตัวอย่างของตัวอักษรได้แก่ ตัวอักษรใน ชุดอักขระ ASCIIที่ใช้ในข้อความภาษาธรรมชาติ เบสของ นิวคลีโอไทด์ 'A', 'G', 'C' และ 'T' ในลำดับ DNAหรือกรดอะมิโนสำหรับลำดับโปรตีนใน การประยุกต์ใช้ ทางชีววิทยาการวิเคราะห์การจัดเรียงตัวอักษรในสตริงสามารถใช้เพื่อตรวจสอบ ลำดับ ยีนและโปรตีนเพื่อกำหนดคุณสมบัติของพวกมัน การรู้ลำดับของตัวอักษรในDNAหรือโปรตีนไม่ใช่เป้าหมายสูงสุดในตัวเอง แต่ภารกิจหลักคือการทำความเข้าใจลำดับในแง่ของโครงสร้างและหน้าที่ทางชีววิทยาซึ่งโดยทั่วไปจะทำได้โดยการระบุบริเวณแต่ละส่วนหรือหน่วยโครงสร้างภายในแต่ละลำดับก่อน จากนั้นจึงกำหนดหน้าที่ให้กับแต่ละหน่วยโครงสร้าง ในหลายกรณีจำเป็นต้องเปรียบเทียบลำดับที่กำหนดกับลำดับที่เคยศึกษามาก่อน การเปรียบเทียบระหว่างสตริงจะซับซ้อนขึ้นเมื่อมีการแทรกการลบและการกลายพันธุ์เกิดขึ้นในสตริง

Abouelhoda & Ghanem (2010) ได้นำเสนอการสำรวจและจำแนกประเภทของอัลกอริธึมหลักสำหรับการเปรียบเทียบลำดับสำหรับชีวสารสนเทศ ซึ่งรวมถึง: [ 4 ]

  • ปัญหาที่เกี่ยวข้องกับการทำซ้ำ: ปัญหาที่เกี่ยวข้องกับการดำเนินการกับลำดับเดี่ยว และอาจใช้การจับคู่สตริงแบบตรงเป๊ะหรือการจับคู่สตริงแบบประมาณเพื่อค้นหาการทำซ้ำที่มีความยาวคงที่และความยาวสูงสุดที่กระจายตัว การค้นหาการทำซ้ำแบบเรียงต่อกัน และการค้นหาลำดับย่อยที่ไม่ซ้ำกันและลำดับย่อยที่หายไป (สะกดไม่ถูก)
  • ปัญหาการจัดเรียงลำดับ:คือปัญหาที่เกี่ยวข้องกับการเปรียบเทียบสตริงโดยการจัดเรียงลำดับหนึ่งหรือมากกว่าหนึ่งลำดับก่อน ตัวอย่างของวิธีการที่นิยมใช้ ได้แก่BLASTสำหรับเปรียบเทียบลำดับเดียวกับหลายลำดับในฐานข้อมูล และClustalWสำหรับการจัดเรียงลำดับหลายลำดับ อัลกอริทึมการจัดเรียงลำดับสามารถใช้ได้ทั้งวิธีที่แม่นยำหรือวิธีโดยประมาณ และยังสามารถจำแนกได้เป็นแบบจัดเรียงลำดับทั่วโลก แบบจัดเรียงลำดับกึ่งทั่วโลก และแบบจัดเรียงลำดับเฉพาะที่ ดูที่ การ จัดเรียงลำดับ

การขุดชุดรายการ

ปัญหาบางอย่างในการค้นหาลำดับเหตุการณ์นั้นเหมาะสมกับการค้นหาชุดรายการที่เกิดขึ้นบ่อยและลำดับการปรากฏของรายการเหล่านั้น ตัวอย่างเช่น การค้นหากฎในรูปแบบ "ถ้าลูกค้าซื้อรถยนต์ เขาหรือเธอมีแนวโน้มที่จะซื้อประกันภัยภายใน 1 สัปดาห์" หรือในบริบทของราคาหุ้น "ถ้าหุ้น Nokia และ Ericsson ขึ้น มีความเป็นไปได้ที่หุ้น Motorola และ Samsung จะขึ้นภายใน 2 วัน" โดยทั่วไปแล้ว การค้นหาชุดรายการเหตุการณ์จะถูกนำไปใช้ในแอปพลิเคชันทางการตลาดเพื่อค้นหาความสม่ำเสมอระหว่างรายการที่เกิดขึ้นร่วมกันบ่อยครั้งในธุรกรรมขนาดใหญ่ ตัวอย่างเช่น โดยการวิเคราะห์ธุรกรรมตะกร้าสินค้าของลูกค้าในซูเปอร์มาร์เก็ต เราสามารถสร้างกฎที่ว่า "ถ้าลูกค้าซื้อหัวหอมและมันฝรั่งพร้อมกัน เขาหรือเธอมีแนวโน้มที่จะซื้อเนื้อแฮมเบอร์เกอร์ในธุรกรรมเดียวกันด้วย"

Han et al. (2007) ได้นำเสนอการสำรวจและจำแนกประเภทของอัลกอริธึมหลักสำหรับการขุดชุดรายการ[ 5 ]

เทคนิคทั่วไปสองเทคนิคที่ใช้กับฐานข้อมูลลำดับเพื่อค้นหาชุดรายการที่เกิดขึ้นบ่อย ได้แก่ อัลกอริทึม Apriori ที่ทรงอิทธิพล และ เทคนิค FP-growth ที่พัฒนาขึ้นมาใหม่กว่า

แอปพลิเคชัน

ด้วยความหลากหลายของผลิตภัณฑ์และพฤติกรรมการซื้อของผู้ใช้ ชั้นวางสินค้าจึงเป็นหนึ่งในทรัพยากรที่สำคัญที่สุดในสภาพแวดล้อมการค้าปลีก ผู้ค้าปลีกไม่เพียงแต่สามารถเพิ่มผลกำไรได้เท่านั้น แต่ยังสามารถลดต้นทุนได้ด้วยการจัดการการจัดสรรพื้นที่ชั้นวางและการจัดแสดงสินค้าอย่างเหมาะสม เพื่อแก้ปัญหานี้ George และ Binu (2013) ได้เสนอแนวทางในการขุดรูปแบบการซื้อของ ผู้ใช้ โดยใช้อัลกอริทึม PrefixSpan และวางผลิตภัณฑ์บนชั้นวางตามลำดับของรูปแบบการซื้อที่ขุดได้[ 6 ]

อัลกอริทึม

อัลกอริทึมที่ใช้กันทั่วไป ได้แก่:

  • อัลกอริทึม GSP
  • การค้นหารูปแบบลำดับโดยใช้คลาสสมมูล (SPADE)
  • ฟรีสแปน
  • ช่วงคำนำหน้า
  • MAPres [ 7 ]
  • Seq2Pat (สำหรับการขุดรูปแบบลำดับตามข้อจำกัด) [ 8 ] [ 9 ]

ดูเพิ่มเติม

  • SPMFประกอบด้วยการใช้งานแบบโอเพนซอร์สของ GSP, PrefixSpan, SPADE, SPAM และอื่นๆ อีกมากมาย
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Sequential_pattern_mining&oldid=1294948729 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การขุดค้นรูปแบบลำดับ

การขุดรูปแบบลำดับ เป็นหัวข้อหนึ่งของ การขุดข้อมูล ที่เกี่ยวข้องกับการค้นหารูปแบบที่มีนัยสำคัญทางสถิติระหว่างตัวอย่างข้อมูลที่ค่าต่างๆ ถูกส่งมอบตามลำดับ [ 1 ] [ 2 ]...

การขุดสตริง

การค้นหาข้อมูลจากสตริงโดยทั่วไปจะเกี่ยวข้องกับ ตัวอักษร จำนวนจำกัด สำหรับรายการที่ปรากฏใน ลำดับ แต่ลำดับนั้นอาจยาวมาก ตัวอย่างของตัวอักษรได้แก่ ตัวอักษรใน ชุดอักขระ ASCII ที่ใช้ในข้อความภาษาธรรมชาติ เบสของ นิวคลีโอไท ด์ 'A', 'G', 'C' และ 'T' ใน ลำดับ DNA หรือ...

การขุดชุดรายการ

ปัญหาบางอย่างในการค้นหาลำดับเหตุการณ์นั้นเหมาะสมกับการค้นหาชุดรายการที่เกิดขึ้นบ่อยและลำดับการปรากฏของรายการเหล่านั้น ตัวอย่างเช่น การค้นหากฎในรูปแบบ "ถ้าลูกค้าซื้อรถยนต์ เขาหรือเธอมีแนวโน้มที่จะซื้อประกันภัยภายใน 1 สัปดาห์" หรือในบริบทของราคาหุ้น "ถ้าหุ้น...

แอปพลิเคชัน

ด้วยความหลากหลายของผลิตภัณฑ์และพฤติกรรมการซื้อของผู้ใช้ ชั้นวางสินค้าจึงเป็นหนึ่งในทรัพยากรที่สำคัญที่สุดในสภาพแวดล้อมการค้าปลีก ผู้ค้าปลีกไม่เพียงแต่สามารถเพิ่มผลกำไรได้เท่านั้น...