กลับไปหน้าบทความ

อ่าน 2 นาที

การขุดแนวคิด

การขุดค้นแนวคิด เป็นกิจกรรมที่ส่งผลให้เกิดการสกัด แนวคิด จาก สิ่งประดิษฐ์ วิธีแก้ปัญหาสำหรับงานนี้มักเกี่ยวข้องกับแง่มุมของ ปัญญาประดิษฐ์ และ สถิติ เช่น การขุดค้นข้อมูล และการ...

การขุดแนวคิด

การขุดค้นแนวคิดเป็นกิจกรรมที่ส่งผลให้เกิดการสกัดแนวคิดจากสิ่งประดิษฐ์วิธีแก้ปัญหาสำหรับงานนี้มักเกี่ยวข้องกับแง่มุมของปัญญาประดิษฐ์และสถิติเช่นการขุดค้นข้อมูลและการขุดค้นข้อความ[ 1 ] [ 2 ]เนื่องจากสิ่งประดิษฐ์มักเป็นลำดับของคำและสัญลักษณ์อื่นๆ ที่มีโครงสร้างหลวมๆ (มากกว่าแนวคิด) ปัญหาจึงไม่ใช่เรื่องง่ายแต่สามารถให้ข้อมูลเชิงลึกที่มีประสิทธิภาพเกี่ยวกับความหมาย ที่มา และความคล้ายคลึงกันของเอกสารได้

วิธีการ

ตามธรรมเนียมแล้ว การแปลงคำเป็นแนวคิดจะดำเนินการโดยใช้พจนานุกรม คำ พ้องความหมาย [ 3 ] และสำหรับเทคนิคการคำนวณ แนวโน้มก็คือจะทำเช่นเดียวกัน พจนานุกรมคำพ้องความหมายที่ใช้จะถูกสร้างขึ้นเป็นพิเศษสำหรับงานนี้ หรือเป็นแบบจำลองภาษาที่มีอยู่ก่อนแล้ว ซึ่งมักจะเกี่ยวข้องกับWordNet ของ Princeton

การจับคู่คำกับแนวคิด[ 4 ]มักจะคลุมเครือ โดยทั่วไปแล้วแต่ละคำในภาษาหนึ่งๆ จะสัมพันธ์กับแนวคิดที่เป็นไปได้หลายอย่าง มนุษย์ใช้บริบทเพื่อแยกแยะความหมายต่างๆ ของข้อความที่กำหนด ซึ่ง ระบบ การแปลด้วยเครื่องจักร ที่มีอยู่ ไม่สามารถอนุมานบริบทได้ง่ายๆ

อย่างไรก็ตาม สำหรับวัตถุประสงค์ของการค้นหาแนวคิด ความกำกวมเหล่านี้มักมีความสำคัญน้อยกว่าในกรณีของการแปลด้วยเครื่องจักร เนื่องจากในเอกสารขนาดใหญ่ ความกำกวมมักจะลดลงไปเอง คล้ายกับกรณีของการค้นหาข้อมูลจากข้อความ

มีเทคนิคมากมายสำหรับการขจัดความกำกวมที่สามารถนำมาใช้ได้ ตัวอย่างเช่น การวิเคราะห์ทางภาษาศาสตร์ของข้อความ และการใช้ข้อมูลความถี่ของการเชื่อมโยงคำและแนวคิดที่สามารถอนุมานได้จากคลังข้อความขนาดใหญ่ เมื่อไม่นานมานี้ เทคนิคที่อิงตามความคล้ายคลึงทางความหมายระหว่างแนวคิดที่เป็นไปได้และบริบทได้ปรากฏขึ้นและได้รับความสนใจในวงการวิทยาศาสตร์

แอปพลิเคชัน

การตรวจจับและจัดทำดัชนีเอกสารที่คล้ายคลึงกันในคลังข้อมูลขนาดใหญ่

หนึ่งในผลพลอยได้จากการคำนวณสถิติเอกสารในโดเมนของแนวคิด แทนที่จะเป็นโดเมนของคำ คือ แนวคิดต่างๆ จะสร้างโครงสร้างแบบต้นไม้ตามธรรมชาติโดยอาศัยความ สัมพันธ์ แบบไฮเปอร์นีมีและเมโรนีมีโครงสร้างเหล่านี้สามารถนำมาใช้สร้างสถิติการเป็นสมาชิกของต้นไม้แบบง่ายๆ ซึ่งสามารถใช้ระบุตำแหน่งของเอกสารใดๆ ในพื้นที่แนวคิดแบบยูคลิดได้หากพิจารณาขนาดของเอกสารเป็นมิติอีกมิติหนึ่งของพื้นที่นี้ด้วย ก็จะสามารถสร้างระบบการจัดทำดัชนีที่มีประสิทธิภาพสูงมากได้ เทคนิคนี้กำลังถูกนำไปใช้ในเชิงพาณิชย์เพื่อค้นหาเอกสารทางกฎหมายที่คล้ายคลึงกันในคลังเอกสารขนาด 2.5 ล้านฉบับ

การจัดกลุ่มเอกสารตามหัวข้อ

เทคนิคการจัดกลุ่มเชิงตัวเลขมาตรฐานอาจใช้ใน "พื้นที่แนวคิด" ดังที่ได้อธิบายไว้ข้างต้น เพื่อค้นหาและจัดทำดัชนีเอกสารตามหัวข้อที่อนุมานได้ เทคนิคเหล่านี้มีประสิทธิภาพเชิงตัวเลขมากกว่า เทคนิค การขุดข้อมูลจากข้อความและมีแนวโน้มที่จะทำงานได้ง่ายกว่า กล่าวคือ สามารถจับคู่กับมาตรวัดความคล้ายคลึงที่มนุษย์สร้างขึ้นได้ดีกว่า

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Concept_mining&oldid=1230620765 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การขุดแนวคิด

การขุดค้นแนวคิด เป็นกิจกรรมที่ส่งผลให้เกิดการสกัด แนวคิด จาก สิ่งประดิษฐ์ วิธีแก้ปัญหาสำหรับงานนี้มักเกี่ยวข้องกับแง่มุมของ ปัญญาประดิษฐ์ และ สถิติ เช่น การขุดค้นข้อมูล และการ...

วิธีการ

ตามธรรมเนียมแล้ว การแปลงคำเป็นแนวคิดจะดำเนินการโดยใช้ พจนานุกรม คำ พ้องความหมาย [ 3 ] และ สำหรับเทคนิคการคำนวณ แนวโน้มก็คือจะทำเช่นเดียวกัน พจนานุกรมคำพ้องความหมายที่ใช้จะถูกสร้างขึ้นเป็นพิเศษสำหรับงานนี้ หรือเป็นแบบจำลองภาษาที่มีอยู่ก่อนแล้ว...

การตรวจจับและจัดทำดัชนีเอกสารที่คล้ายคลึงกันในคลังข้อมูลขนาดใหญ่

หนึ่งในผลพลอยได้จากการคำนวณสถิติเอกสารในโดเมนของแนวคิด แทนที่จะเป็นโดเมนของคำ คือ แนวคิดต่างๆ จะสร้างโครงสร้างแบบต้นไม้ตามธรรมชาติโดยอาศัยความ สัมพันธ์ แบบไฮเปอร์นีมี และ เมโรนีมี โครงสร้างเหล่านี้สามารถนำมาใช้สร้างสถิติการเป็นสมาชิกของต้นไม้แบบง่ายๆ...

การจัดกลุ่มเอกสารตามหัวข้อ

เทคนิคการจัดกลุ่มเชิงตัวเลขมาตรฐานอาจใช้ใน "พื้นที่แนวคิด" ดังที่ได้อธิบายไว้ข้างต้น เพื่อค้นหาและจัดทำดัชนีเอกสารตามหัวข้อที่อนุมานได้ เทคนิคเหล่านี้มีประสิทธิภาพเชิงตัวเลขมากกว่า เทคนิค การขุดข้อมูลจากข้อความ และมีแนวโน้มที่จะทำงานได้ง่ายกว่า กล่าวคือ...