กลับไปหน้าบทความ

อ่าน 4 นาที

โอคาปิ บีเอ็ม25

ในด้าน การ ค้นหา ข้อมูล Okapi BM25 ( BM เป็นตัวย่อของ best matching ) คือ ฟังก์ชันการจัดอันดับ ที่ใช้โดย เครื่องมือค้นหา เพื่อประเมิน ความเกี่ยวข้อง ของเอกสารกับคำค้นหาที่กำหนด...

โอคาปิ บีเอ็ม25

ในด้าน การ ค้นหาข้อมูลOkapi BM25 ( BMเป็นตัวย่อของbest matching ) คือฟังก์ชันการจัดอันดับที่ใช้โดยเครื่องมือค้นหาเพื่อประเมินความเกี่ยวข้องของเอกสารกับคำค้นหาที่กำหนด โดยอิงจากกรอบการทำงานการค้นหาแบบความน่าจะเป็นที่พัฒนาขึ้นในช่วงทศวรรษ 1970 และ 1980 โดยStephen E. Robertson , Karen Spärck Jonesและคนอื่นๆ

ชื่อของฟังก์ชันการจัดอันดับจริงคือBM25ชื่อเต็มคือOkapi BM25ซึ่งรวมถึงชื่อของระบบแรกที่ใช้ ซึ่งก็คือระบบค้นหาข้อมูล Okapi ที่นำมาใช้ที่มหาวิทยาลัยซิตี้แห่งลอนดอน[ 1 ]ในช่วงทศวรรษ 1980 และ 1990 BM25 และเวอร์ชันใหม่กว่า เช่น BM25F (เวอร์ชันของ BM25 ที่สามารถพิจารณาโครงสร้างเอกสารและข้อความแองเคอร์ได้) แสดงถึงฟังก์ชันการค้นหาแบบTF-IDF ที่ใช้ใน การค้นหาเอกสาร[ 2 ]

ฟังก์ชันการจัดอันดับ

BM25 เป็น ฟังก์ชันการค้นหา แบบ Bag-of-wordsที่จัดอันดับชุดเอกสารตามคำค้นหาที่ปรากฏในแต่ละเอกสาร โดยไม่คำนึงถึงความใกล้เคียงกันของคำเหล่านั้นภายในเอกสาร มันเป็นกลุ่มของฟังก์ชันการให้คะแนนที่มีส่วนประกอบและพารามิเตอร์แตกต่างกันเล็กน้อย หนึ่งในตัวอย่างการใช้งานที่โดดเด่นที่สุดของฟังก์ชันนี้มีดังต่อไปนี้

เมื่อกำหนดคำค้นQที่มีคำหลักแล้วคะแนน BM25 ของเอกสารDคือ:

โดยที่คือจำนวนครั้งที่คำหลักปรากฏในเอกสารDคือความยาวของเอกสารDเป็นคำ และavgdlคือความยาวเฉลี่ยของเอกสารในชุดข้อความที่ดึงเอกสารมาและbเป็นพารามิเตอร์อิสระ ซึ่งโดยปกติจะเลือกในกรณีที่ไม่มีการเพิ่มประสิทธิภาพขั้นสูง เช่นและ[ 3 ] คือ ค่าน้ำหนัก IDF ( ความถี่เอกสารผกผัน ) ของคำค้นหาโดยปกติจะคำนวณดังนี้:

โดยที่ Nคือจำนวนเอกสารทั้งหมดในชุด และคือจำนวนเอกสารที่มี

IDF มีการตีความได้หลายแบบและมีสูตรที่แตกต่างกันเล็กน้อย ในการคำนวณ BM25 ดั้งเดิมนั้น ส่วนประกอบ IDF ได้มาจากแบบจำลองความเป็นอิสระแบบไบนารี (Binary Independence Model )

การตีความทฤษฎีสารสนเทศของ IDF

ต่อไปนี้เป็นการตีความจากทฤษฎีสารสนเทศสมมติว่าคำค้นหาปรากฏในเอกสาร ดังนั้นเอกสารที่สุ่มเลือกมาหนึ่งฉบับจะประกอบด้วยคำค้นหานั้นด้วยความน่าจะเป็น(โดยที่คือจำนวนสมาชิกของเซตเอกสารในชุดข้อมูล) ดังนั้น เนื้อหา สารสนเทศของข้อความ " ประกอบด้วย" คือ:

สมมติว่าเรามีคำค้นหา 2 คำคือ และถ้าคำค้นหาทั้งสองปรากฏในเอกสารโดยอิสระจากกันโดยสิ้นเชิง ความน่าจะเป็นที่จะเห็นทั้งและในเอกสารที่สุ่มเลือกมาคือ:

และเนื้อหาข้อมูลของกิจกรรมดังกล่าวมีดังนี้:

โดยมีการเปลี่ยนแปลงเพียงเล็กน้อย นี่คือสิ่งที่แสดงออกมาอย่างแม่นยำโดยส่วนประกอบ IDF ของ BM25

การแก้ไข

  • ที่ค่าสุดขั้วของสัมประสิทธิ์b BM25 จะกลายเป็นฟังก์ชันการจัดอันดับที่เรียกว่าBM11 (สำหรับ) และBM15 (สำหรับ) [ 4 ]
  • BM25F [ 5 ] [ 2 ] (หรือโมเดล BM25 ที่มีการขยายไปยังฟิลด์ที่มีน้ำหนักหลายฟิลด์[ 6 ] ) เป็นการดัดแปลง BM25 ซึ่งเอกสารจะถือว่าประกอบขึ้นจากฟิลด์หลายฟิลด์ (เช่น หัวข้อข่าว เนื้อหาหลัก ข้อความลิงก์) ที่อาจมีระดับความสำคัญ ความอิ่มตัวของคำที่เกี่ยวข้อง และการปรับความยาวให้เป็นมาตรฐานที่แตกต่างกัน BM25F กำหนดฟิลด์แต่ละประเภทเป็นสตรีมโดยใช้การถ่วงน้ำหนักต่อสตรีมเพื่อปรับขนาดแต่ละสตรีมเทียบกับคะแนนที่คำนวณได้
  • BM25+ [ 7 ]เป็นส่วนขยายของ BM25 BM25+ ได้รับการพัฒนาเพื่อแก้ไขข้อบกพร่องหนึ่งของ BM25 มาตรฐาน ซึ่งส่วนประกอบของการปรับความถี่ของคำตามความยาวของเอกสารไม่ได้ถูกจำกัดขอบล่างอย่างเหมาะสม ส่งผลให้เอกสารยาวที่ตรงกับคำค้นหามักจะถูก BM25 ให้คะแนนอย่างไม่ยุติธรรมว่ามีความเกี่ยวข้องคล้ายกับเอกสารที่สั้นกว่าซึ่งไม่มีคำค้นหาเลย สูตรการให้คะแนนของ BM25+ มีพารามิเตอร์อิสระเพิ่มเติมเพียงตัวเดียว(ค่าเริ่มต้นคือ1.0ในกรณีที่ไม่มีข้อมูลการฝึกอบรม) เมื่อเทียบกับ BM25:

เอกสารอ้างอิงทั่วไป

  • Stephen E. Robertson; Steve Walker; Susan Jones; Micheline Hancock-Beaulieu และ Mike Gatford (พฤศจิกายน 1994). Okapi ที่ TREC-3 . รายงานการประชุมการค้นหาข้อความครั้งที่ 3 (TREC 1994) . Gaithersburg, สหรัฐอเมริกา.
  • Stephen E. Robertson; Steve Walker & Micheline Hancock-Beaulieu (พฤศจิกายน 1998). Okapi ที่ TREC-7 . รายงานการประชุมการค้นหาข้อความครั้งที่เจ็ด . ไกเธอร์สเบิร์ก สหรัฐอเมริกา.
  • Spärck Jones, K. ; Walker, S.; Robertson, SE (2000). "แบบจำลองความน่าจะเป็นของการดึงข้อมูล: การพัฒนาและการทดลองเปรียบเทียบ: ตอนที่ 1". การประมวลผลและ การจัดการข้อมูล36 (6): 779– 808. CiteSeerX  10.1.1.134.6108 . doi : 10.1016/S0306-4573(00)00015-7 .
  • Spärck Jones, K. ; Walker, S.; Robertson, SE (2000). "แบบจำลองความน่าจะเป็นของการดึงข้อมูล: การพัฒนาและการทดลองเปรียบเทียบ: ตอนที่ 2" การประมวลผลและ การจัดการข้อมูล36 (6): 809– 840. doi : 10.1016/S0306-4573(00)00016-9 .
  • Stephen Robertson & Hugo Zaragoza (2009). "กรอบความเกี่ยวข้องเชิงความน่าจะเป็น: BM25 และอื่นๆ"พื้นฐานและแนวโน้มในการค้นหาข้อมูล 3 ( 4): 333– 389. CiteSeerX  10.1.1.156.5282 . doi : 10.1561/1500000019 . S2CID  207178704 .
  • Robertson, Stephen ; Zaragoza, Hugo (2009). กรอบความเกี่ยวข้องเชิงความน่าจะเป็น: BM25 และอื่นๆ (PDF) . NOW Publishers, Inc. ISBN 978-1-60198-308-4.
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Okapi_BM25&oldid=1356130773 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ โอคาปิ บีเอ็ม25

ในด้าน การ ค้นหา ข้อมูล Okapi BM25 ( BM เป็นตัวย่อของ best matching ) คือ ฟังก์ชันการจัดอันดับ ที่ใช้โดย เครื่องมือค้นหา เพื่อประเมิน ความเกี่ยวข้อง ของเอกสารกับคำค้นหาที่กำหนด...

ฟังก์ชันการจัดอันดับ

BM25 เป็น ฟังก์ชันการค้นหา แบบ Bag-of-words ที่จัดอันดับชุดเอกสารตามคำค้นหาที่ปรากฏในแต่ละเอกสาร โดยไม่คำนึงถึงความใกล้เคียงกันของคำเหล่านั้นภายในเอกสาร มันเป็นกลุ่มของฟังก์ชันการให้คะแนนที่มีส่วนประกอบและพารามิเตอร์แตกต่างกันเล็กน้อย...

การตีความทฤษฎีสารสนเทศของ IDF

ต่อไปนี้เป็นการตีความจาก ทฤษฎีสารสนเทศ สมมติว่าคำค้นหาปรากฏในเอกสาร ดังนั้นเอกสารที่สุ่มเลือกมาหนึ่งฉบับจะประกอบด้วยคำค้นหานั้นด้วยความน่าจะเป็น(โดยที่คือจำนวนสมาชิกของเซตเอกสารในชุดข้อมูล) ดังนั้น เนื้อหา สารสนเทศ ของข้อความ " ประกอบด้วย" คือ: q...

การแก้ไข

ที่ค่าสุดขั้วของสัมประสิทธิ์ b BM25 จะกลายเป็นฟังก์ชันการจัดอันดับที่เรียกว่า BM11 (สำหรับ) และ BM15 (สำหรับ) [ 4 ] ข = 1 {\displaystyle b=1} ข = 0 {\displaystyle b=0} BM25F [ 5 ] [ 2 ] (หรือ โมเดล BM25 ที่มีการขยายไปยังฟิลด์ที่มีน้ำหนักหลายฟิลด์ [ 6 ] )...