กลับไปหน้าบทความ

อ่าน 1 นาที

การขุดโครงสร้าง

การขุดค้นโครงสร้างหรือการขุดค้นข้อมูลที่มีโครงสร้างคือกระบวนการค้นหาและสกัดข้อมูลที่เป็นประโยชน์จาก ชุด...

การขุดโครงสร้าง

การขุดค้นโครงสร้างหรือการขุดค้นข้อมูลที่มีโครงสร้างคือกระบวนการค้นหาและสกัดข้อมูลที่เป็นประโยชน์จาก ชุด ข้อมูลกึ่งโครงสร้างการขุดค้นกราฟการขุดค้นรูปแบบลำดับและการขุดค้นโมเลกุลเป็นกรณีพิเศษของการขุดค้นข้อมูลที่มีโครงสร้าง

คำอธิบาย

การเติบโตของการใช้ข้อมูลกึ่งโครงสร้างได้สร้างโอกาสใหม่ๆ สำหรับการทำเหมืองข้อมูล ซึ่งโดยปกติแล้วจะเกี่ยวข้องกับชุดข้อมูลแบบตาราง สะท้อนให้เห็นถึงความสัมพันธ์ที่แน่นแฟ้นระหว่างการทำเหมืองข้อมูลและฐานข้อมูลเชิงสัมพันธ์ข้อมูลที่น่าสนใจและสามารถนำมาขุดค้นได้จำนวนมากในโลกนั้นไม่สามารถจัดเก็บลงในฐานข้อมูลเชิงสัมพันธ์ได้อย่างง่ายดาย แม้ว่าวิศวกรซอฟต์แวร์รุ่นหนึ่งจะได้รับการฝึกฝนให้เชื่อว่านี่เป็นวิธีเดียวในการจัดการข้อมูล และโดยทั่วไปแล้วอัลกอริทึมการทำเหมืองข้อมูลได้รับการพัฒนาขึ้นเพื่อรับมือกับข้อมูลแบบตารางเท่านั้น

XMLซึ่งเป็นวิธีการแสดงข้อมูลกึ่งโครงสร้างที่ใช้บ่อยที่สุด สามารถแสดงได้ทั้งข้อมูลแบบตารางและโครงสร้างแบบต้นไม้ การแสดงข้อมูลใดๆ ที่จะแลกเปลี่ยนระหว่างสองแอปพลิเคชันใน XML มักจะอธิบายด้วยสคีมา ซึ่งมักเขียนด้วยXSDตัวอย่างการใช้งานจริงของสคีมาดังกล่าว เช่นNewsMLมักมีความซับซ้อนมาก โดยมีโครงสร้างย่อยเสริมหลายส่วน ใช้สำหรับแสดงข้อมูลกรณีพิเศษ บ่อยครั้งประมาณ 90% ของสคีมาเกี่ยวข้องกับการกำหนดรายการข้อมูลเสริมและโครงสร้างย่อยเหล่านี้

ดังนั้น ข้อความและข้อมูลที่ส่งหรือเข้ารหัสโดยใช้ XML และเป็นไปตามโครงสร้างเดียวกัน อาจมีข้อมูลที่แตกต่างกันอย่างมาก ขึ้นอยู่กับสิ่งที่กำลังส่ง

ข้อมูลลักษณะนี้ก่อให้เกิดปัญหาใหญ่สำหรับการทำเหมืองข้อมูลแบบดั้งเดิม ข้อความสองข้อความที่สอดคล้องกับโครงสร้างข้อมูลเดียวกันอาจมีข้อมูลที่เหมือนกันเพียงเล็กน้อย การสร้างชุดข้อมูลฝึกฝนจากข้อมูลดังกล่าวหมายความว่า หากพยายามจัดรูปแบบข้อมูลเป็นตารางสำหรับการทำเหมืองข้อมูลแบบดั้งเดิม ส่วนใหญ่ของตารางอาจว่างเปล่า

ในการออกแบบอัลกอริธึมการทำเหมืองข้อมูลส่วนใหญ่ มักมีการตั้งสมมติฐานโดยปริยายว่า ข้อมูลที่นำเสนอจะสมบูรณ์ อีกสิ่งที่จำเป็นคือ อัลกอริธึมการทำเหมืองข้อมูลที่ใช้จริง ไม่ว่าจะเป็นแบบมีผู้กำกับดูแลหรือไม่มีผู้กำกับดูแล ต้องสามารถจัดการกับข้อมูลที่กระจัดกระจายได้ กล่าวคือ อัลกอริธึมการเรียนรู้ของเครื่องทำงานได้ไม่ดีกับชุดข้อมูลที่ไม่สมบูรณ์ ซึ่งมีเพียงบางส่วนของข้อมูลเท่านั้น ตัวอย่างเช่น วิธีการที่ใช้โครงข่ายประสาทเทียม หรืออัลกอริธึม ID3ของRoss Quinlanมีความแม่นยำสูงกับตัวอย่างที่ดีและเป็นตัวแทนของปัญหา แต่ทำงานได้ไม่ดีกับข้อมูลที่มีอคติ ส่วนใหญ่แล้ว การนำเสนอแบบจำลองที่ดีขึ้นด้วยการนำเสนอข้อมูลเข้าและข้อมูลออกที่ระมัดระวังและปราศจากอคติก็เพียงพอแล้ว พื้นที่ที่เกี่ยวข้องอย่างยิ่งที่การค้นหาโครงสร้างและแบบจำลองที่เหมาะสมเป็นประเด็นสำคัญคือ การทำ เหมือง ข้อความ

XPathเป็นกลไกมาตรฐานที่ใช้ในการอ้างอิงถึงโหนดและรายการข้อมูลภายใน XML มีความคล้ายคลึงกับเทคนิคมาตรฐานสำหรับการนำทางลำดับชั้นของไดเร็กทอรีที่ใช้ในอินเทอร์เฟซผู้ใช้ของระบบปฏิบัติการ ในการขุดค้นข้อมูลและโครงสร้างจากข้อมูล XML ในรูปแบบใดก็ตาม จำเป็นต้องมีส่วนขยายอย่างน้อยสองอย่างเพิ่มเติมจากวิธีการขุดค้นข้อมูลแบบดั้งเดิม ได้แก่ ความสามารถในการเชื่อมโยงคำสั่ง XPath กับรูปแบบข้อมูลใดๆ และคำสั่งย่อยกับแต่ละโหนดข้อมูลในรูปแบบข้อมูลนั้น และความสามารถในการขุดค้นการมีอยู่และจำนวนของโหนดใดๆ หรือชุดของโหนดภายในเอกสาร

ตัวอย่างเช่น หากต้องการแสดงแผนผังครอบครัวในรูปแบบ XML การใช้ส่วนขยายเหล่านี้จะสามารถสร้างชุดข้อมูลที่มีโหนดของบุคคลทั้งหมดในแผนผัง ข้อมูลต่างๆ เช่น ชื่อและอายุเมื่อเสียชีวิต และจำนวนของโหนดที่เกี่ยวข้อง เช่น จำนวนบุตร การค้นหาที่ซับซ้อนยิ่งขึ้นสามารถดึงข้อมูลต่างๆ เช่น อายุขัยของปู่ย่าตายาย เป็นต้น

การเพิ่มประเภทข้อมูลเหล่านี้ที่เกี่ยวข้องกับโครงสร้างของเอกสารหรือข้อความ ช่วยให้การวิเคราะห์โครงสร้างทำได้ง่ายขึ้น

ดูเพิ่มเติม

  • การประชุมเชิงปฏิบัติการนานาชาติครั้งที่ 5 ว่าด้วยการทำเหมืองข้อมูลและการเรียนรู้ด้วยกราฟ ณ กรุงฟลอเรนซ์ วันที่ 1-3 สิงหาคม 2550
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Structure_mining&oldid=1285857217 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การขุดโครงสร้าง

การขุดค้นโครงสร้างหรือการขุดค้นข้อมูลที่มีโครงสร้างคือกระบวนการค้นหาและสกัดข้อมูลที่เป็นประโยชน์จาก ชุด...

คำอธิบาย

การเติบโตของการใช้ ข้อมูลกึ่งโครงสร้าง ได้สร้างโอกาสใหม่ๆ สำหรับการทำเหมืองข้อมูล ซึ่งโดยปกติแล้วจะเกี่ยวข้องกับชุดข้อมูลแบบตาราง สะท้อนให้เห็นถึงความสัมพันธ์ที่แน่นแฟ้นระหว่าง การทำเหมืองข้อมูล และ ฐานข้อมูลเชิงสัมพันธ์...

ดูเพิ่มเติม

เคอร์เนลกราฟ เนื้อหาที่มีโครงสร้าง การเขียนโปรแกรมแบบอุปนัย

ลิงก์ภายนอก

การประชุมเชิงปฏิบัติการนานาชาติครั้งที่ 5 ว่าด้วยการทำเหมืองข้อมูลและการเรียนรู้ด้วยกราฟ ณ กรุงฟลอเรนซ์ วันที่ 1-3 สิงหาคม 2550 ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Structure_mining&oldid=1285857217 "