กลับไปหน้าบทความ

อ่าน 3 นาที

อัลกอริทึมรอคคิโอ

อั ลกอริทึม Rocchio อิงตามวิธี การป้อนกลับความเกี่ยวข้อง ที่พบใน ระบบ การค้นหาข้อมูล ซึ่งมีที่มาจาก ระบบค้นหาข้อมูล SMART ที่พัฒนาขึ้นระหว่างปี 1960 ถึง 1964...

อัลกอริทึมรอคคิโอ

อัลกอริทึม Rocchioอิงตามวิธีการป้อนกลับความเกี่ยวข้องที่พบใน ระบบ การค้นหาข้อมูลซึ่งมีที่มาจากระบบค้นหาข้อมูล SMARTที่พัฒนาขึ้นระหว่างปี 1960 ถึง 1964 เช่นเดียวกับระบบการค้นหาอื่นๆ อีกมากมายอัลกอริทึม Rocchio ได้รับการพัฒนาโดยใช้แบบจำลองพื้นที่เวกเตอร์สมมติฐานพื้นฐานคือผู้ใช้ส่วนใหญ่มีความเข้าใจทั่วไปว่าเอกสารใดควรถูกระบุว่าเกี่ยวข้องหรือไม่เกี่ยวข้อง[ 1 ]ดังนั้น คำค้นหาของผู้ใช้จึงได้รับการแก้ไขเพื่อรวมเอกสารที่เกี่ยวข้องและไม่เกี่ยวข้องในเปอร์เซ็นต์ที่กำหนด เพื่อเป็นวิธีการเพิ่มการเรียกคืนของเครื่องมือค้นหา และอาจ รวมถึงความแม่นยำด้วย จำนวนเอกสารที่เกี่ยวข้องและไม่เกี่ยวข้องที่อนุญาตให้ป้อนในคำค้นหาจะถูกกำหนดโดยสิ่งที่เรียกว่าน้ำหนัก กล่าว คือตัวแปรและแสดงไว้ด้านล่างในส่วนอัลกอริทึม[ 1 ]

อัลกอริทึม

สูตร และคำจำกัดความตัวแปรสำหรับข้อเสนอแนะความเกี่ยวข้อง ของ Rocchio มีดังต่อไปนี้: [ 1 ]

ตัวแปร ค่า
เวกเตอร์แบบสอบถามที่แก้ไขแล้ว
เวกเตอร์คำถามดั้งเดิม
เวกเตอร์เอกสารที่เกี่ยวข้อง
เวกเตอร์เอกสารที่ไม่เกี่ยวข้อง
น้ำหนักการสืบค้นดั้งเดิม
น้ำหนักของเอกสารที่เกี่ยวข้อง
น้ำหนักเอกสารที่ไม่เกี่ยวข้อง
ชุดเอกสารที่เกี่ยวข้อง
ชุดเอกสารที่ไม่เกี่ยวข้องกัน

ดังที่แสดงในสูตร น้ำหนักที่เกี่ยวข้อง ( , , ) มีหน้าที่ในการกำหนดรูปร่างของเวกเตอร์ ที่แก้ไขแล้ว ไปในทิศทางที่ใกล้หรือไกลจากคำค้นหาเดิม เอกสารที่เกี่ยวข้อง และเอกสารที่ไม่เกี่ยวข้อง โดยเฉพาะอย่างยิ่ง ค่าสำหรับและควรเพิ่มหรือลดตามสัดส่วนของชุดเอกสารที่ผู้ใช้จัดประเภท หากผู้ใช้ตัดสินใจว่าคำค้นหาที่แก้ไขแล้วไม่ควรมีคำจากคำค้นหาเดิม เอกสารที่เกี่ยวข้อง หรือเอกสารที่ไม่เกี่ยวข้อง ค่าของน้ำหนักที่สอดคล้องกัน ( , , ) สำหรับหมวดหมู่นั้นควรตั้งค่าเป็น 0

ในส่วนหลังของอัลกอริธึม ตัวแปร, และจะถูกนำเสนอให้เป็นเซตของเวกเตอร์ที่ประกอบด้วยพิกัดของเอกสารที่เกี่ยวข้องและเอกสารที่ไม่เกี่ยวข้อง ในสูตรและคือเวกเตอร์ที่ใช้ในการวนซ้ำผ่านสองเซตและและสร้างผลรวม เวกเตอร์ ผล รวมเหล่านี้จะถูกทำให้เป็นมาตรฐาน กล่าวคือ หารด้วยขนาดของเซตเอกสารนั้นๆ

เพื่อให้เห็นภาพการเปลี่ยนแปลงที่เกิดขึ้นกับเวกเตอร์ที่แก้ไขแล้ว โปรดดูภาพด้านล่าง[ 1 ]เมื่อน้ำหนักเพิ่มขึ้นหรือลดลงสำหรับเอกสารประเภทใดประเภทหนึ่ง พิกัดของเวกเตอร์ที่แก้ไขแล้วจะเริ่มเคลื่อนเข้าใกล้หรือไกลออกไปจากจุดศูนย์กลางของกลุ่มเอกสาร ดังนั้น หากน้ำหนักเพิ่มขึ้นสำหรับเอกสารที่เกี่ยวข้องพิกัด ของเวกเตอร์ที่แก้ไขแล้ว จะสะท้อนให้เห็นว่าอยู่ใกล้กับจุดศูนย์กลางของเอกสารที่เกี่ยวข้องมากขึ้น

ความซับซ้อนเชิงเวลา

ตัวแปร ค่า
ชุดเอกสารที่มีป้ายกำกับ
จำนวนโทเค็นเฉลี่ยต่อเอกสาร
ชุดชั้นเรียน
ชุดคำศัพท์/ศัพท์เฉพาะ
จำนวนโทเค็นในเอกสาร
จำนวนประเภทในเอกสาร

ความซับซ้อน ของเวลาในการฝึกฝนและทดสอบอัลกอริทึมแสดงไว้ด้านล่าง ตามด้วยคำจำกัดความของแต่ละตัวแปรโปรดทราบว่าเมื่ออยู่ในขั้นตอนการทดสอบ ความซับซ้อนของเวลาสามารถลดลงเหลือเพียงการคำนวณระยะทางแบบยุคลิด ระหว่าง จุดศูนย์กลางของคลาสกับเอกสารที่เกี่ยวข้อง ดังแสดงโดย:

การฝึกอบรม = การทดสอบ = [ 1 ]

การใช้งาน

การจัดประเภทของรอคคิโอ

แม้ว่าการจัดอันดับเอกสารที่ไม่เกี่ยวข้องจะมีประโยชน์อยู่บ้าง แต่ การจัดอันดับเอกสาร ที่เกี่ยวข้องจะทำให้ผู้ใช้ได้รับเอกสารที่แม่นยำยิ่งขึ้น ดังนั้น ค่าถ่วงน้ำหนักของอัลกอริทึม ( , , ) ในการจัดประเภทของ Rocchio โดยทั่วไป จึงอยู่ที่ประมาณ= 1, = 0.8 และ= 0.1 ระบบ การค้นหาข้อมูล สมัยใหม่ ได้พัฒนาไปสู่การกำจัดเอกสารที่ไม่เกี่ยวข้องโดยการตั้งค่า c = 0 และพิจารณาเฉพาะเอกสารที่เกี่ยวข้องเท่านั้น แม้ว่าระบบการค้นหาข้อมูล บางระบบ จะยังไม่กำจัดความจำเป็นของเอกสารที่ไม่เกี่ยวข้อง แต่ส่วนใหญ่ได้จำกัดผลกระทบต่อคำค้นหาที่แก้ไขแล้วโดยการพิจารณาเฉพาะเอกสารที่ไม่เกี่ยวข้องที่แข็งแกร่งที่สุดในชุดข้อมูล เท่านั้น

ข้อจำกัด

อัลกอริทึม Rocchio มักล้มเหลวในการจำแนกคลาสและความสัมพันธ์แบบหลายโมดอล ตัวอย่างเช่น ประเทศพม่าถูกเปลี่ยนชื่อเป็นเมียนมาร์ในปี 1989 ดังนั้น การค้นหา "พม่า" และ "เมียนมาร์" จะปรากฏห่างกันมากขึ้นในแบบจำลองพื้นที่เวกเตอร์แม้ว่าทั้งสองจะมีต้นกำเนิดที่คล้ายคลึงกันก็ตาม[ 1 ]

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Rocchio_algorithm&oldid=1340484566 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ อัลกอริทึมรอคคิโอ

อั ลกอริทึม Rocchio อิงตามวิธี การป้อนกลับความเกี่ยวข้อง ที่พบใน ระบบ การค้นหาข้อมูล ซึ่งมีที่มาจาก ระบบค้นหาข้อมูล SMART ที่พัฒนาขึ้นระหว่างปี 1960 ถึง 1964...

อัลกอริทึม

สูตร และคำจำกัดความตัวแปรสำหรับข้อเสนอแนะความเกี่ยวข้อง ของ Rocchio มีดังต่อไปนี้: [ 1 ]

ความซับซ้อนเชิงเวลา

ความซับซ้อน ของ เวลา ในการฝึกฝนและทดสอบอัลกอริทึมแสดงไว้ด้านล่าง ตามด้วยคำจำกัดความของแต่ละ ตัวแปร โปรดทราบว่าเมื่ออยู่ในขั้นตอนการทดสอบ ความซับซ้อนของเวลาสามารถลดลงเหลือเพียงการคำนวณ ระยะทางแบบยุคลิด ระหว่าง จุดศูนย์กลางของ คลาสกับเอกสารที่เกี่ยวข้อง...

การใช้งาน

แม้ว่าการจัดอันดับเอกสารที่ไม่เกี่ยวข้องจะมีประโยชน์อยู่บ้าง แต่ การจัดอันดับเอกสาร ที่เกี่ยวข้องจะทำให้ผู้ใช้ได้รับเอกสารที่แม่นยำยิ่งขึ้น ดังนั้น ค่าถ่วงน้ำหนักของอัลกอริทึม ( , , ) ใน การจัดประเภทของ Rocchio โดยทั่วไป จึงอยู่ที่ประมาณ= 1, = 0.8 และ= 0.