อ่าน 1 นาที
การขุดโครงสร้าง
การขุดค้นโครงสร้างหรือการขุดค้นข้อมูลที่มีโครงสร้างคือกระบวนการค้นหาและสกัดข้อมูลที่เป็นประโยชน์จาก ชุด...
การขุดโครงสร้าง
การขุดค้นโครงสร้างหรือการขุดค้นข้อมูลที่มีโครงสร้างคือกระบวนการค้นหาและสกัดข้อมูลที่เป็นประโยชน์จาก ชุด ข้อมูลกึ่งโครงสร้างการขุดค้นกราฟการขุดค้นรูปแบบลำดับและการขุดค้นโมเลกุลเป็นกรณีพิเศษของการขุดค้นข้อมูลที่มีโครงสร้าง
คำอธิบาย
การเติบโตของการใช้ข้อมูลกึ่งโครงสร้างได้สร้างโอกาสใหม่ๆ สำหรับการทำเหมืองข้อมูล ซึ่งโดยปกติแล้วจะเกี่ยวข้องกับชุดข้อมูลแบบตาราง สะท้อนให้เห็นถึงความสัมพันธ์ที่แน่นแฟ้นระหว่างการทำเหมืองข้อมูลและฐานข้อมูลเชิงสัมพันธ์ข้อมูลที่น่าสนใจและสามารถนำมาขุดค้นได้จำนวนมากในโลกนั้นไม่สามารถจัดเก็บลงในฐานข้อมูลเชิงสัมพันธ์ได้อย่างง่ายดาย แม้ว่าวิศวกรซอฟต์แวร์รุ่นหนึ่งจะได้รับการฝึกฝนให้เชื่อว่านี่เป็นวิธีเดียวในการจัดการข้อมูล และโดยทั่วไปแล้วอัลกอริทึมการทำเหมืองข้อมูลได้รับการพัฒนาขึ้นเพื่อรับมือกับข้อมูลแบบตารางเท่านั้น
XMLซึ่งเป็นวิธีการแสดงข้อมูลกึ่งโครงสร้างที่ใช้บ่อยที่สุด สามารถแสดงได้ทั้งข้อมูลแบบตารางและโครงสร้างแบบต้นไม้ การแสดงข้อมูลใดๆ ที่จะแลกเปลี่ยนระหว่างสองแอปพลิเคชันใน XML มักจะอธิบายด้วยสคีมา ซึ่งมักเขียนด้วยXSDตัวอย่างการใช้งานจริงของสคีมาดังกล่าว เช่นNewsMLมักมีความซับซ้อนมาก โดยมีโครงสร้างย่อยเสริมหลายส่วน ใช้สำหรับแสดงข้อมูลกรณีพิเศษ บ่อยครั้งประมาณ 90% ของสคีมาเกี่ยวข้องกับการกำหนดรายการข้อมูลเสริมและโครงสร้างย่อยเหล่านี้
ดังนั้น ข้อความและข้อมูลที่ส่งหรือเข้ารหัสโดยใช้ XML และเป็นไปตามโครงสร้างเดียวกัน อาจมีข้อมูลที่แตกต่างกันอย่างมาก ขึ้นอยู่กับสิ่งที่กำลังส่ง
ข้อมูลลักษณะนี้ก่อให้เกิดปัญหาใหญ่สำหรับการทำเหมืองข้อมูลแบบดั้งเดิม ข้อความสองข้อความที่สอดคล้องกับโครงสร้างข้อมูลเดียวกันอาจมีข้อมูลที่เหมือนกันเพียงเล็กน้อย การสร้างชุดข้อมูลฝึกฝนจากข้อมูลดังกล่าวหมายความว่า หากพยายามจัดรูปแบบข้อมูลเป็นตารางสำหรับการทำเหมืองข้อมูลแบบดั้งเดิม ส่วนใหญ่ของตารางอาจว่างเปล่า
ในการออกแบบอัลกอริธึมการทำเหมืองข้อมูลส่วนใหญ่ มักมีการตั้งสมมติฐานโดยปริยายว่า ข้อมูลที่นำเสนอจะสมบูรณ์ อีกสิ่งที่จำเป็นคือ อัลกอริธึมการทำเหมืองข้อมูลที่ใช้จริง ไม่ว่าจะเป็นแบบมีผู้กำกับดูแลหรือไม่มีผู้กำกับดูแล ต้องสามารถจัดการกับข้อมูลที่กระจัดกระจายได้ กล่าวคือ อัลกอริธึมการเรียนรู้ของเครื่องทำงานได้ไม่ดีกับชุดข้อมูลที่ไม่สมบูรณ์ ซึ่งมีเพียงบางส่วนของข้อมูลเท่านั้น ตัวอย่างเช่น วิธีการที่ใช้โครงข่ายประสาทเทียม หรืออัลกอริธึม ID3ของRoss Quinlanมีความแม่นยำสูงกับตัวอย่างที่ดีและเป็นตัวแทนของปัญหา แต่ทำงานได้ไม่ดีกับข้อมูลที่มีอคติ ส่วนใหญ่แล้ว การนำเสนอแบบจำลองที่ดีขึ้นด้วยการนำเสนอข้อมูลเข้าและข้อมูลออกที่ระมัดระวังและปราศจากอคติก็เพียงพอแล้ว พื้นที่ที่เกี่ยวข้องอย่างยิ่งที่การค้นหาโครงสร้างและแบบจำลองที่เหมาะสมเป็นประเด็นสำคัญคือ การทำ เหมือง ข้อความ
XPathเป็นกลไกมาตรฐานที่ใช้ในการอ้างอิงถึงโหนดและรายการข้อมูลภายใน XML มีความคล้ายคลึงกับเทคนิคมาตรฐานสำหรับการนำทางลำดับชั้นของไดเร็กทอรีที่ใช้ในอินเทอร์เฟซผู้ใช้ของระบบปฏิบัติการ ในการขุดค้นข้อมูลและโครงสร้างจากข้อมูล XML ในรูปแบบใดก็ตาม จำเป็นต้องมีส่วนขยายอย่างน้อยสองอย่างเพิ่มเติมจากวิธีการขุดค้นข้อมูลแบบดั้งเดิม ได้แก่ ความสามารถในการเชื่อมโยงคำสั่ง XPath กับรูปแบบข้อมูลใดๆ และคำสั่งย่อยกับแต่ละโหนดข้อมูลในรูปแบบข้อมูลนั้น และความสามารถในการขุดค้นการมีอยู่และจำนวนของโหนดใดๆ หรือชุดของโหนดภายในเอกสาร
ตัวอย่างเช่น หากต้องการแสดงแผนผังครอบครัวในรูปแบบ XML การใช้ส่วนขยายเหล่านี้จะสามารถสร้างชุดข้อมูลที่มีโหนดของบุคคลทั้งหมดในแผนผัง ข้อมูลต่างๆ เช่น ชื่อและอายุเมื่อเสียชีวิต และจำนวนของโหนดที่เกี่ยวข้อง เช่น จำนวนบุตร การค้นหาที่ซับซ้อนยิ่งขึ้นสามารถดึงข้อมูลต่างๆ เช่น อายุขัยของปู่ย่าตายาย เป็นต้น
การเพิ่มประเภทข้อมูลเหล่านี้ที่เกี่ยวข้องกับโครงสร้างของเอกสารหรือข้อความ ช่วยให้การวิเคราะห์โครงสร้างทำได้ง่ายขึ้น
ดูเพิ่มเติม
ลิงก์ภายนอก
- การประชุมเชิงปฏิบัติการนานาชาติครั้งที่ 5 ว่าด้วยการทำเหมืองข้อมูลและการเรียนรู้ด้วยกราฟ ณ กรุงฟลอเรนซ์ วันที่ 1-3 สิงหาคม 2550
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การขุดโครงสร้าง
การขุดค้นโครงสร้างหรือการขุดค้นข้อมูลที่มีโครงสร้างคือกระบวนการค้นหาและสกัดข้อมูลที่เป็นประโยชน์จาก ชุด...
คำอธิบาย
การเติบโตของการใช้ ข้อมูลกึ่งโครงสร้าง ได้สร้างโอกาสใหม่ๆ สำหรับการทำเหมืองข้อมูล ซึ่งโดยปกติแล้วจะเกี่ยวข้องกับชุดข้อมูลแบบตาราง สะท้อนให้เห็นถึงความสัมพันธ์ที่แน่นแฟ้นระหว่าง การทำเหมืองข้อมูล และ ฐานข้อมูลเชิงสัมพันธ์...
ดูเพิ่มเติม
เคอร์เนลกราฟ เนื้อหาที่มีโครงสร้าง การเขียนโปรแกรมแบบอุปนัย
ลิงก์ภายนอก
การประชุมเชิงปฏิบัติการนานาชาติครั้งที่ 5 ว่าด้วยการทำเหมืองข้อมูลและการเรียนรู้ด้วยกราฟ ณ กรุงฟลอเรนซ์ วันที่ 1-3 สิงหาคม 2550 ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Structure_mining&oldid=1285857217 "