โอคาปิ บีเอ็ม25

ในด้าน การ ค้นหาข้อมูลOkapi BM25 ( BMเป็นตัวย่อของbest matching ) คือฟังก์ชันการจัดอันดับที่ใช้โดยเครื่องมือค้นหาเพื่อประเมินความเกี่ยวข้องของเอกสารกับคำค้นหาที่กำหนด โดยอิงจากกรอบการทำงานการค้นหาแบบความน่าจะเป็นที่พัฒนาขึ้นในช่วงทศวรรษ 1970 และ 1980 โดยStephen E. Robertson , Karen Spärck Jonesและคนอื่นๆ

ชื่อของฟังก์ชันการจัดอันดับจริงคือBM25ชื่อเต็มคือOkapi BM25ซึ่งรวมถึงชื่อของระบบแรกที่ใช้ ซึ่งก็คือระบบค้นหาข้อมูล Okapi ที่นำมาใช้ที่มหาวิทยาลัยซิตี้แห่งลอนดอน^[¹^]ในช่วงทศวรรษ 1980 และ 1990 BM25 และเวอร์ชันใหม่กว่า เช่น BM25F (เวอร์ชันของ BM25 ที่สามารถพิจารณาโครงสร้างเอกสารและข้อความแองเคอร์ได้) แสดงถึงฟังก์ชันการค้นหาแบบTF-IDF ที่ใช้ใน การค้นหาเอกสาร^[²^]

ฟังก์ชันการจัดอันดับ

BM25 เป็น ฟังก์ชันการค้นหา แบบ Bag-of-wordsที่จัดอันดับชุดเอกสารตามคำค้นหาที่ปรากฏในแต่ละเอกสาร โดยไม่คำนึงถึงความใกล้เคียงกันของคำเหล่านั้นภายในเอกสาร มันเป็นกลุ่มของฟังก์ชันการให้คะแนนที่มีส่วนประกอบและพารามิเตอร์แตกต่างกันเล็กน้อย หนึ่งในตัวอย่างการใช้งานที่โดดเด่นที่สุดของฟังก์ชันนี้มีดังต่อไปนี้

เมื่อกำหนดคำค้น $Q$ ที่มีคำหลักแล้วคะแนน BM25 ของเอกสาร $D$ คือ: $q_{1},...,q_{n}$

{\text{score}}(D,Q)=\sum _{i=1}^{n}{\text{IDF}}(q_{i})\cdot {\frac {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {\frac {|D|}{\text{avgdl}}}\right)}}

โดยที่คือจำนวนครั้งที่คำหลักปรากฏในเอกสาร $D$ คือความยาวของเอกสาร $D$ เป็นคำ และ $avgdl$ คือความยาวเฉลี่ยของเอกสารในชุดข้อความที่ดึงเอกสารมาและ $b$ เป็นพารามิเตอร์อิสระ ซึ่งโดยปกติจะเลือกในกรณีที่ไม่มีการเพิ่มประสิทธิภาพขั้นสูง เช่นและ[ ³^]^คือ ค่าน้ำหนัก IDF ( ความถี่เอกสารผกผัน ) ของคำค้นหาโดยปกติจะคำนวณดังนี้: $f(q_{i},D)$ $q_{i}$ $|D|$ $k_{1}$ $k_{1}\in [1.2,2.0]$ $b=0.75$ ${\text{IDF}}(q_{i})$ $q_{i}$

{\text{IDF}}(q_{i})=\ln \left({\frac {Nn(q_{i})+0.5}{n(q_{i})+0.5}}+1\right)

โดยที่ $N$ คือจำนวนเอกสารทั้งหมดในชุด และคือจำนวนเอกสารที่มี $n(q_{i})$ $q_{i}$

IDF มีการตีความได้หลายแบบและมีสูตรที่แตกต่างกันเล็กน้อย ในการคำนวณ BM25 ดั้งเดิมนั้น ส่วนประกอบ IDF ได้มาจากแบบจำลองความเป็นอิสระแบบไบนารี (Binary Independence Model )

การตีความทฤษฎีสารสนเทศของ IDF

ต่อไปนี้เป็นการตีความจากทฤษฎีสารสนเทศสมมติว่าคำค้นหาปรากฏในเอกสาร ดังนั้นเอกสารที่สุ่มเลือกมาหนึ่งฉบับจะประกอบด้วยคำค้นหานั้นด้วยความน่าจะเป็น(โดยที่คือจำนวนสมาชิกของเซตเอกสารในชุดข้อมูล) ดังนั้น เนื้อหา สารสนเทศของข้อความ " ประกอบด้วย" คือ: $q$ $n(q)$ $D$ ${\frac {n(q)}{N}}$ $N$ $D$ $q$

-\log {\frac {n(q)}{N}}=\log {\frac {N}{n(q)}}.

สมมติว่าเรามีคำค้นหา 2 คำคือ และถ้าคำค้นหาทั้งสองปรากฏในเอกสารโดยอิสระจากกันโดยสิ้นเชิง ความน่าจะเป็นที่จะเห็นทั้งและในเอกสารที่สุ่มเลือกมาคือ: $q_{1}$ $q_{2}$ $q_{1}$ $q_{2}$ $D$

{\frac {n(q_{1})}{N}}\cdot {\frac {n(q_{2})}{N}},

และเนื้อหาข้อมูลของกิจกรรมดังกล่าวมีดังนี้:

\sum _{i=1}^{2}\log {\frac {N}{n(q_{i})}}.

โดยมีการเปลี่ยนแปลงเพียงเล็กน้อย นี่คือสิ่งที่แสดงออกมาอย่างแม่นยำโดยส่วนประกอบ IDF ของ BM25

การแก้ไข

ที่ค่าสุดขั้วของสัมประสิทธิ์ $b$ BM25 จะกลายเป็นฟังก์ชันการจัดอันดับที่เรียกว่าBM11 (สำหรับ) และBM15 (สำหรับ) ^[⁴^] $b=1$ $b=0$
BM25F ^{[ 5 ]}^{[ 2 ]} (หรือโมเดล BM25 ที่มีการขยายไปยังฟิลด์ที่มีน้ำหนักหลายฟิลด์^{[ 6 ]} ) เป็นการดัดแปลง BM25 ซึ่งเอกสารจะถือว่าประกอบขึ้นจากฟิลด์หลายฟิลด์ (เช่น หัวข้อข่าว เนื้อหาหลัก ข้อความลิงก์) ที่อาจมีระดับความสำคัญ ความอิ่มตัวของคำที่เกี่ยวข้อง และการปรับความยาวให้เป็นมาตรฐานที่แตกต่างกัน BM25F กำหนดฟิลด์แต่ละประเภทเป็นสตรีมโดยใช้การถ่วงน้ำหนักต่อสตรีมเพื่อปรับขนาดแต่ละสตรีมเทียบกับคะแนนที่คำนวณได้

BM25+ ^{[ 7 ]}เป็นส่วนขยายของ BM25 BM25+ ได้รับการพัฒนาเพื่อแก้ไขข้อบกพร่องหนึ่งของ BM25 มาตรฐาน ซึ่งส่วนประกอบของการปรับความถี่ของคำตามความยาวของเอกสารไม่ได้ถูกจำกัดขอบล่างอย่างเหมาะสม ส่งผลให้เอกสารยาวที่ตรงกับคำค้นหามักจะถูก BM25 ให้คะแนนอย่างไม่ยุติธรรมว่ามีความเกี่ยวข้องคล้ายกับเอกสารที่สั้นกว่าซึ่งไม่มีคำค้นหาเลย สูตรการให้คะแนนของ BM25+ มีพารามิเตอร์อิสระเพิ่มเติมเพียงตัวเดียว(ค่าเริ่มต้นคือ $1.0$ ในกรณีที่ไม่มีข้อมูลการฝึกอบรม) เมื่อเทียบกับ BM25: $\delta$

{\text{score}}(D,Q)=\sum _{i=1}^{n}{\text{IDF}}(q_{i})\cdot \left[{\frac {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {\frac {|D|}{\text{avgdl}}}\right)}}+\delta \right]

เอกสารอ้างอิงทั่วไป

Stephen E. Robertson; Steve Walker; Susan Jones; Micheline Hancock-Beaulieu และ Mike Gatford (พฤศจิกายน 1994). Okapi ที่ TREC-3 . รายงานการประชุมการค้นหาข้อความครั้งที่ 3 (TREC 1994) . Gaithersburg, สหรัฐอเมริกา.
Stephen E. Robertson; Steve Walker & Micheline Hancock-Beaulieu (พฤศจิกายน 1998). Okapi ที่ TREC-7 . รายงานการประชุมการค้นหาข้อความครั้งที่เจ็ด . ไกเธอร์สเบิร์ก สหรัฐอเมริกา.
Spärck Jones, K. ; Walker, S.; Robertson, SE (2000). "แบบจำลองความน่าจะเป็นของการดึงข้อมูล: การพัฒนาและการทดลองเปรียบเทียบ: ตอนที่ 1". การประมวลผลและ การจัดการข้อมูล36 (6): 779– 808. CiteSeerX 10.1.1.134.6108 . doi : 10.1016/S0306-4573(00)00015-7 .
Spärck Jones, K. ; Walker, S.; Robertson, SE (2000). "แบบจำลองความน่าจะเป็นของการดึงข้อมูล: การพัฒนาและการทดลองเปรียบเทียบ: ตอนที่ 2" การประมวลผลและ การจัดการข้อมูล36 (6): 809– 840. doi : 10.1016/S0306-4573(00)00016-9 .
Stephen Robertson & Hugo Zaragoza (2009). "กรอบความเกี่ยวข้องเชิงความน่าจะเป็น: BM25 และอื่นๆ"พื้นฐานและแนวโน้มในการค้นหาข้อมูล 3 ( 4): 333– 389. CiteSeerX 10.1.1.156.5282 . doi : 10.1561/1500000019 . S2CID 207178704 .

ลิงก์ภายนอก

Robertson, Stephen ; Zaragoza, Hugo (2009). กรอบความเกี่ยวข้องเชิงความน่าจะเป็น: BM25 และอื่นๆ (PDF) . NOW Publishers, Inc. ISBN 978-1-60198-308-4.

[

[

3

[

[ 5 ]

[ 6 ]

[ 7 ]