อ่าน 3 นาที
อัลกอริทึมรอคคิโอ
อั ลกอริทึม Rocchio อิงตามวิธี การป้อนกลับความเกี่ยวข้อง ที่พบใน ระบบ การค้นหาข้อมูล ซึ่งมีที่มาจาก ระบบค้นหาข้อมูล SMART ที่พัฒนาขึ้นระหว่างปี 1960 ถึง 1964...
อัลกอริทึมรอคคิโอ
อัลกอริทึม Rocchioอิงตามวิธีการป้อนกลับความเกี่ยวข้องที่พบใน ระบบ การค้นหาข้อมูลซึ่งมีที่มาจากระบบค้นหาข้อมูล SMARTที่พัฒนาขึ้นระหว่างปี 1960 ถึง 1964 เช่นเดียวกับระบบการค้นหาอื่นๆ อีกมากมายอัลกอริทึม Rocchio ได้รับการพัฒนาโดยใช้แบบจำลองพื้นที่เวกเตอร์สมมติฐานพื้นฐานคือผู้ใช้ส่วนใหญ่มีความเข้าใจทั่วไปว่าเอกสารใดควรถูกระบุว่าเกี่ยวข้องหรือไม่เกี่ยวข้อง[ 1 ]ดังนั้น คำค้นหาของผู้ใช้จึงได้รับการแก้ไขเพื่อรวมเอกสารที่เกี่ยวข้องและไม่เกี่ยวข้องในเปอร์เซ็นต์ที่กำหนด เพื่อเป็นวิธีการเพิ่มการเรียกคืนของเครื่องมือค้นหา และอาจ รวมถึงความแม่นยำด้วย จำนวนเอกสารที่เกี่ยวข้องและไม่เกี่ยวข้องที่อนุญาตให้ป้อนในคำค้นหาจะถูกกำหนดโดยสิ่งที่เรียกว่าน้ำหนัก กล่าว คือตัวแปรและแสดงไว้ด้านล่างในส่วนอัลกอริทึม[ 1 ]
อัลกอริทึม
สูตร และคำจำกัดความตัวแปรสำหรับข้อเสนอแนะความเกี่ยวข้อง ของ Rocchio มีดังต่อไปนี้: [ 1 ]
| ตัวแปร | ค่า |
|---|---|
| เวกเตอร์แบบสอบถามที่แก้ไขแล้ว | |
| เวกเตอร์คำถามดั้งเดิม | |
| เวกเตอร์เอกสารที่เกี่ยวข้อง | |
| เวกเตอร์เอกสารที่ไม่เกี่ยวข้อง | |
| น้ำหนักการสืบค้นดั้งเดิม | |
| น้ำหนักของเอกสารที่เกี่ยวข้อง | |
| น้ำหนักเอกสารที่ไม่เกี่ยวข้อง | |
| ชุดเอกสารที่เกี่ยวข้อง | |
| ชุดเอกสารที่ไม่เกี่ยวข้องกัน |
ดังที่แสดงในสูตร น้ำหนักที่เกี่ยวข้อง ( , , ) มีหน้าที่ในการกำหนดรูปร่างของเวกเตอร์ ที่แก้ไขแล้ว ไปในทิศทางที่ใกล้หรือไกลจากคำค้นหาเดิม เอกสารที่เกี่ยวข้อง และเอกสารที่ไม่เกี่ยวข้อง โดยเฉพาะอย่างยิ่ง ค่าสำหรับและควรเพิ่มหรือลดตามสัดส่วนของชุดเอกสารที่ผู้ใช้จัดประเภท หากผู้ใช้ตัดสินใจว่าคำค้นหาที่แก้ไขแล้วไม่ควรมีคำจากคำค้นหาเดิม เอกสารที่เกี่ยวข้อง หรือเอกสารที่ไม่เกี่ยวข้อง ค่าของน้ำหนักที่สอดคล้องกัน ( , , ) สำหรับหมวดหมู่นั้นควรตั้งค่าเป็น 0
ในส่วนหลังของอัลกอริธึม ตัวแปร, และจะถูกนำเสนอให้เป็นเซตของเวกเตอร์ที่ประกอบด้วยพิกัดของเอกสารที่เกี่ยวข้องและเอกสารที่ไม่เกี่ยวข้อง ในสูตรและคือเวกเตอร์ที่ใช้ในการวนซ้ำผ่านสองเซตและและสร้างผลรวม เวกเตอร์ ผล รวมเหล่านี้จะถูกทำให้เป็นมาตรฐาน กล่าวคือ หารด้วยขนาดของเซตเอกสารนั้นๆ
เพื่อให้เห็นภาพการเปลี่ยนแปลงที่เกิดขึ้นกับเวกเตอร์ที่แก้ไขแล้ว โปรดดูภาพด้านล่าง[ 1 ]เมื่อน้ำหนักเพิ่มขึ้นหรือลดลงสำหรับเอกสารประเภทใดประเภทหนึ่ง พิกัดของเวกเตอร์ที่แก้ไขแล้วจะเริ่มเคลื่อนเข้าใกล้หรือไกลออกไปจากจุดศูนย์กลางของกลุ่มเอกสาร ดังนั้น หากน้ำหนักเพิ่มขึ้นสำหรับเอกสารที่เกี่ยวข้องพิกัด ของเวกเตอร์ที่แก้ไขแล้ว จะสะท้อนให้เห็นว่าอยู่ใกล้กับจุดศูนย์กลางของเอกสารที่เกี่ยวข้องมากขึ้น
ความซับซ้อนเชิงเวลา
| ตัวแปร | ค่า |
|---|---|
| ชุดเอกสารที่มีป้ายกำกับ | |
| จำนวนโทเค็นเฉลี่ยต่อเอกสาร | |
| ชุดชั้นเรียน | |
| ชุดคำศัพท์/ศัพท์เฉพาะ | |
| จำนวนโทเค็นในเอกสาร | |
| จำนวนประเภทในเอกสาร |
ความซับซ้อน ของเวลาในการฝึกฝนและทดสอบอัลกอริทึมแสดงไว้ด้านล่าง ตามด้วยคำจำกัดความของแต่ละตัวแปรโปรดทราบว่าเมื่ออยู่ในขั้นตอนการทดสอบ ความซับซ้อนของเวลาสามารถลดลงเหลือเพียงการคำนวณระยะทางแบบยุคลิด ระหว่าง จุดศูนย์กลางของคลาสกับเอกสารที่เกี่ยวข้อง ดังแสดงโดย:
การใช้งาน

แม้ว่าการจัดอันดับเอกสารที่ไม่เกี่ยวข้องจะมีประโยชน์อยู่บ้าง แต่ การจัดอันดับเอกสาร ที่เกี่ยวข้องจะทำให้ผู้ใช้ได้รับเอกสารที่แม่นยำยิ่งขึ้น ดังนั้น ค่าถ่วงน้ำหนักของอัลกอริทึม ( , , ) ในการจัดประเภทของ Rocchio โดยทั่วไป จึงอยู่ที่ประมาณ= 1, = 0.8 และ= 0.1 ระบบ การค้นหาข้อมูล สมัยใหม่ ได้พัฒนาไปสู่การกำจัดเอกสารที่ไม่เกี่ยวข้องโดยการตั้งค่า c = 0 และพิจารณาเฉพาะเอกสารที่เกี่ยวข้องเท่านั้น แม้ว่าระบบการค้นหาข้อมูล บางระบบ จะยังไม่กำจัดความจำเป็นของเอกสารที่ไม่เกี่ยวข้อง แต่ส่วนใหญ่ได้จำกัดผลกระทบต่อคำค้นหาที่แก้ไขแล้วโดยการพิจารณาเฉพาะเอกสารที่ไม่เกี่ยวข้องที่แข็งแกร่งที่สุดในชุดข้อมูล เท่านั้น
ข้อจำกัด
อัลกอริทึม Rocchio มักล้มเหลวในการจำแนกคลาสและความสัมพันธ์แบบหลายโมดอล ตัวอย่างเช่น ประเทศพม่าถูกเปลี่ยนชื่อเป็นเมียนมาร์ในปี 1989 ดังนั้น การค้นหา "พม่า" และ "เมียนมาร์" จะปรากฏห่างกันมากขึ้นในแบบจำลองพื้นที่เวกเตอร์แม้ว่าทั้งสองจะมีต้นกำเนิดที่คล้ายคลึงกันก็ตาม[ 1 ]
ดูเพิ่มเติม
- ตัวจำแนกจุดศูนย์กลางที่ใกล้ที่สุดหรือที่รู้จักกันในชื่อ ตัวจำแนก Rocchio
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ อัลกอริทึมรอคคิโอ
อั ลกอริทึม Rocchio อิงตามวิธี การป้อนกลับความเกี่ยวข้อง ที่พบใน ระบบ การค้นหาข้อมูล ซึ่งมีที่มาจาก ระบบค้นหาข้อมูล SMART ที่พัฒนาขึ้นระหว่างปี 1960 ถึง 1964...
อัลกอริทึม
สูตร และคำจำกัดความตัวแปรสำหรับข้อเสนอแนะความเกี่ยวข้อง ของ Rocchio มีดังต่อไปนี้: [ 1 ]
ความซับซ้อนเชิงเวลา
ความซับซ้อน ของ เวลา ในการฝึกฝนและทดสอบอัลกอริทึมแสดงไว้ด้านล่าง ตามด้วยคำจำกัดความของแต่ละ ตัวแปร โปรดทราบว่าเมื่ออยู่ในขั้นตอนการทดสอบ ความซับซ้อนของเวลาสามารถลดลงเหลือเพียงการคำนวณ ระยะทางแบบยุคลิด ระหว่าง จุดศูนย์กลางของ คลาสกับเอกสารที่เกี่ยวข้อง...
การใช้งาน
แม้ว่าการจัดอันดับเอกสารที่ไม่เกี่ยวข้องจะมีประโยชน์อยู่บ้าง แต่ การจัดอันดับเอกสาร ที่เกี่ยวข้องจะทำให้ผู้ใช้ได้รับเอกสารที่แม่นยำยิ่งขึ้น ดังนั้น ค่าถ่วงน้ำหนักของอัลกอริทึม ( , , ) ใน การจัดประเภทของ Rocchio โดยทั่วไป จึงอยู่ที่ประมาณ= 1, = 0.8 และ= 0.