อ่าน 2 นาที
การขุดแนวคิด
การขุดค้นแนวคิด เป็นกิจกรรมที่ส่งผลให้เกิดการสกัด แนวคิด จาก สิ่งประดิษฐ์ วิธีแก้ปัญหาสำหรับงานนี้มักเกี่ยวข้องกับแง่มุมของ ปัญญาประดิษฐ์ และ สถิติ เช่น การขุดค้นข้อมูล และการ...
การขุดแนวคิด
การขุดค้นแนวคิดเป็นกิจกรรมที่ส่งผลให้เกิดการสกัดแนวคิดจากสิ่งประดิษฐ์วิธีแก้ปัญหาสำหรับงานนี้มักเกี่ยวข้องกับแง่มุมของปัญญาประดิษฐ์และสถิติเช่นการขุดค้นข้อมูลและการขุดค้นข้อความ[ 1 ] [ 2 ]เนื่องจากสิ่งประดิษฐ์มักเป็นลำดับของคำและสัญลักษณ์อื่นๆ ที่มีโครงสร้างหลวมๆ (มากกว่าแนวคิด) ปัญหาจึงไม่ใช่เรื่องง่ายแต่สามารถให้ข้อมูลเชิงลึกที่มีประสิทธิภาพเกี่ยวกับความหมาย ที่มา และความคล้ายคลึงกันของเอกสารได้
วิธีการ
ตามธรรมเนียมแล้ว การแปลงคำเป็นแนวคิดจะดำเนินการโดยใช้พจนานุกรม คำ พ้องความหมาย [ 3 ] และสำหรับเทคนิคการคำนวณ แนวโน้มก็คือจะทำเช่นเดียวกัน พจนานุกรมคำพ้องความหมายที่ใช้จะถูกสร้างขึ้นเป็นพิเศษสำหรับงานนี้ หรือเป็นแบบจำลองภาษาที่มีอยู่ก่อนแล้ว ซึ่งมักจะเกี่ยวข้องกับWordNet ของ Princeton
การจับคู่คำกับแนวคิด[ 4 ]มักจะคลุมเครือ โดยทั่วไปแล้วแต่ละคำในภาษาหนึ่งๆ จะสัมพันธ์กับแนวคิดที่เป็นไปได้หลายอย่าง มนุษย์ใช้บริบทเพื่อแยกแยะความหมายต่างๆ ของข้อความที่กำหนด ซึ่ง ระบบ การแปลด้วยเครื่องจักร ที่มีอยู่ ไม่สามารถอนุมานบริบทได้ง่ายๆ
อย่างไรก็ตาม สำหรับวัตถุประสงค์ของการค้นหาแนวคิด ความกำกวมเหล่านี้มักมีความสำคัญน้อยกว่าในกรณีของการแปลด้วยเครื่องจักร เนื่องจากในเอกสารขนาดใหญ่ ความกำกวมมักจะลดลงไปเอง คล้ายกับกรณีของการค้นหาข้อมูลจากข้อความ
มีเทคนิคมากมายสำหรับการขจัดความกำกวมที่สามารถนำมาใช้ได้ ตัวอย่างเช่น การวิเคราะห์ทางภาษาศาสตร์ของข้อความ และการใช้ข้อมูลความถี่ของการเชื่อมโยงคำและแนวคิดที่สามารถอนุมานได้จากคลังข้อความขนาดใหญ่ เมื่อไม่นานมานี้ เทคนิคที่อิงตามความคล้ายคลึงทางความหมายระหว่างแนวคิดที่เป็นไปได้และบริบทได้ปรากฏขึ้นและได้รับความสนใจในวงการวิทยาศาสตร์
แอปพลิเคชัน
การตรวจจับและจัดทำดัชนีเอกสารที่คล้ายคลึงกันในคลังข้อมูลขนาดใหญ่
หนึ่งในผลพลอยได้จากการคำนวณสถิติเอกสารในโดเมนของแนวคิด แทนที่จะเป็นโดเมนของคำ คือ แนวคิดต่างๆ จะสร้างโครงสร้างแบบต้นไม้ตามธรรมชาติโดยอาศัยความ สัมพันธ์ แบบไฮเปอร์นีมีและเมโรนีมีโครงสร้างเหล่านี้สามารถนำมาใช้สร้างสถิติการเป็นสมาชิกของต้นไม้แบบง่ายๆ ซึ่งสามารถใช้ระบุตำแหน่งของเอกสารใดๆ ในพื้นที่แนวคิดแบบยูคลิดได้หากพิจารณาขนาดของเอกสารเป็นมิติอีกมิติหนึ่งของพื้นที่นี้ด้วย ก็จะสามารถสร้างระบบการจัดทำดัชนีที่มีประสิทธิภาพสูงมากได้ เทคนิคนี้กำลังถูกนำไปใช้ในเชิงพาณิชย์เพื่อค้นหาเอกสารทางกฎหมายที่คล้ายคลึงกันในคลังเอกสารขนาด 2.5 ล้านฉบับ
การจัดกลุ่มเอกสารตามหัวข้อ
เทคนิคการจัดกลุ่มเชิงตัวเลขมาตรฐานอาจใช้ใน "พื้นที่แนวคิด" ดังที่ได้อธิบายไว้ข้างต้น เพื่อค้นหาและจัดทำดัชนีเอกสารตามหัวข้อที่อนุมานได้ เทคนิคเหล่านี้มีประสิทธิภาพเชิงตัวเลขมากกว่า เทคนิค การขุดข้อมูลจากข้อความและมีแนวโน้มที่จะทำงานได้ง่ายกว่า กล่าวคือ สามารถจับคู่กับมาตรวัดความคล้ายคลึงที่มนุษย์สร้างขึ้นได้ดีกว่า
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การขุดแนวคิด
การขุดค้นแนวคิด เป็นกิจกรรมที่ส่งผลให้เกิดการสกัด แนวคิด จาก สิ่งประดิษฐ์ วิธีแก้ปัญหาสำหรับงานนี้มักเกี่ยวข้องกับแง่มุมของ ปัญญาประดิษฐ์ และ สถิติ เช่น การขุดค้นข้อมูล และการ...
วิธีการ
ตามธรรมเนียมแล้ว การแปลงคำเป็นแนวคิดจะดำเนินการโดยใช้ พจนานุกรม คำ พ้องความหมาย [ 3 ] และ สำหรับเทคนิคการคำนวณ แนวโน้มก็คือจะทำเช่นเดียวกัน พจนานุกรมคำพ้องความหมายที่ใช้จะถูกสร้างขึ้นเป็นพิเศษสำหรับงานนี้ หรือเป็นแบบจำลองภาษาที่มีอยู่ก่อนแล้ว...
การตรวจจับและจัดทำดัชนีเอกสารที่คล้ายคลึงกันในคลังข้อมูลขนาดใหญ่
หนึ่งในผลพลอยได้จากการคำนวณสถิติเอกสารในโดเมนของแนวคิด แทนที่จะเป็นโดเมนของคำ คือ แนวคิดต่างๆ จะสร้างโครงสร้างแบบต้นไม้ตามธรรมชาติโดยอาศัยความ สัมพันธ์ แบบไฮเปอร์นีมี และ เมโรนีมี โครงสร้างเหล่านี้สามารถนำมาใช้สร้างสถิติการเป็นสมาชิกของต้นไม้แบบง่ายๆ...
การจัดกลุ่มเอกสารตามหัวข้อ
เทคนิคการจัดกลุ่มเชิงตัวเลขมาตรฐานอาจใช้ใน "พื้นที่แนวคิด" ดังที่ได้อธิบายไว้ข้างต้น เพื่อค้นหาและจัดทำดัชนีเอกสารตามหัวข้อที่อนุมานได้ เทคนิคเหล่านี้มีประสิทธิภาพเชิงตัวเลขมากกว่า เทคนิค การขุดข้อมูลจากข้อความ และมีแนวโน้มที่จะทำงานได้ง่ายกว่า กล่าวคือ...