มาตรการประเมินผล (การค้นหาข้อมูล)

มาตรวัดการประเมินผลสำหรับ ระบบ การค้นหาข้อมูล (IR) จะประเมินว่าดัชนี เครื่องมือค้นหา หรือฐานข้อมูลนั้นสามารถส่งคืนผลลัพธ์จากชุดทรัพยากรที่ตรงกับคำค้นหาของผู้ใช้ได้ดีเพียงใด ดังนั้น มาตรวัดการประเมินผลจึงมีความสำคัญอย่างยิ่งต่อความสำเร็จของระบบสารสนเทศและแพลตฟอร์มดิจิทัล

ปัจจัยสำคัญที่สุดในการพิจารณาประสิทธิภาพของระบบสำหรับผู้ใช้คือความเกี่ยวข้องโดยรวมของผลลัพธ์ที่ดึงมาเพื่อตอบสนองต่อคำถาม^{[ 1 ]}ความสำเร็จของระบบ IR อาจถูกตัดสินจากเกณฑ์ต่างๆ รวมถึงความเกี่ยวข้อง ความเร็ว ความพึงพอใจของผู้ใช้ ความสามารถในการใช้งาน ประสิทธิภาพ และความน่าเชื่อถือ^{[ 2 ]}มาตรการประเมินอาจถูกจัดประเภทได้หลายวิธี รวมถึงแบบออฟไลน์หรือออนไลน์ แบบอิงผู้ใช้หรือแบบอิงระบบ และรวมถึงวิธีการต่างๆ เช่น พฤติกรรมของผู้ใช้ที่สังเกตได้ ชุดทดสอบ ความแม่นยำและการเรียกคืน และคะแนนจากชุดทดสอบมาตรฐานที่เตรียมไว้

การประเมินระบบการค้นหาข้อมูลควรมีการตรวจสอบความถูกต้องของมาตรการที่ใช้ด้วย กล่าวคือ การประเมินว่ามาตรการเหล่านั้นวัดสิ่งที่ตั้งใจจะวัดได้ดีเพียงใด และระบบนั้นเหมาะสมกับกรณีการใช้งานที่ตั้งใจไว้ได้ดีเพียงใด^{[ 3 ]}โดยทั่วไปมาตรการจะใช้ในสองบริบท ได้แก่ การทดลองออนไลน์ ซึ่งประเมินปฏิสัมพันธ์ของผู้ใช้กับระบบค้นหา และการประเมินแบบออฟไลน์ ซึ่งวัดประสิทธิภาพของระบบการค้นหาข้อมูลบนชุดข้อมูลแบบคงที่แบบออฟไลน์

พื้นหลัง

วิธีการจัดทำดัชนีและการจัดหมวดหมู่เพื่อช่วยในการค้นหาข้อมูลมีประวัติอันยาวนานย้อนกลับไปถึงห้องสมุดและแหล่งรวบรวมข้อมูลในยุคแรก การประเมินประสิทธิภาพอย่างเป็นระบบเริ่มขึ้นอย่างจริงจังในช่วงทศวรรษ 1950 เนื่องจากการขยายตัวอย่างรวดเร็วของการผลิตงานวิจัยในด้านการทหาร รัฐบาล และการศึกษา และการนำระบบแคตตาล็อกคอมพิวเตอร์มาใช้ ในเวลานั้น มีระบบการจัดทำดัชนี การจัดหมวดหมู่ และการจัดทำแคตตาล็อกที่แตกต่างกันหลายระบบที่ใช้งานอยู่ ซึ่งมีค่าใช้จ่ายในการผลิตสูง และยังไม่ชัดเจนว่าระบบใดมีประสิทธิภาพมากที่สุด^{[ 4 ]}

Cyril Cleverdonบรรณารักษ์ของวิทยาลัยการบิน Cranfield ประเทศอังกฤษ ได้เริ่มการทดลองชุดหนึ่งเกี่ยวกับดัชนีและการเรียกค้นข้อมูลสิ่งพิมพ์ในสิ่งที่เรียกว่าแบบจำลอง Cranfield หรือการทดสอบ Cranfield ซึ่งกำหนดมาตรฐานสำหรับการวัดผลการประเมิน IR เป็นเวลาหลายปี^{[ 4 ]} Cleverdon ได้พัฒนาการทดสอบที่เรียกว่า 'การค้นหารายการที่รู้จัก' เพื่อตรวจสอบว่าระบบ IR ส่งคืนเอกสารที่ทราบว่ามีความเกี่ยวข้องหรือถูกต้องสำหรับการค้นหาที่กำหนดหรือไม่ การทดลองของ Cleverdon ได้กำหนดแง่มุมสำคัญหลายประการที่จำเป็นสำหรับการประเมิน IR ได้แก่ ชุดทดสอบ ชุดคำถาม และชุดรายการที่เกี่ยวข้องที่กำหนดไว้ล่วงหน้า ซึ่งเมื่อรวมกันแล้วจะกำหนดความแม่นยำและการเรียกคืน

แนวทางของเคลเวอร์ดันเป็นต้นแบบสำหรับ การจัดงาน ประชุมค้นหาข้อความ (Text Retrieval Conference ) ที่ประสบความสำเร็จ ซึ่งเริ่มต้นขึ้นในปี 1992

แอปพลิเคชัน

การประเมินระบบ IR เป็นหัวใจสำคัญของความสำเร็จของเครื่องมือค้นหาใดๆ รวมถึงการค้นหาทางอินเทอร์เน็ต การค้นหาเว็บไซต์ ฐานข้อมูล และแคตตาล็อกห้องสมุด มาตรการประเมินจะถูกนำมาใช้ในการศึกษาพฤติกรรมข้อมูลการทดสอบการใช้งานต้นทุนทางธุรกิจ และการประเมินประสิทธิภาพ การวัดประสิทธิผลของระบบ IR เป็นจุดสนใจหลักของการวิจัย IR โดยอาศัยชุดทดสอบร่วมกับมาตรการประเมิน^{[ 5 ]}มีการจัดการประชุมทางวิชาการหลายรายการที่มุ่งเน้นเฉพาะมาตรการประเมิน ได้แก่ การประชุม Text Retrieval Conference (TREC), Conference and Labs of the Evaluation Forum (CLEF) และ NTCIR

มาตรการออนไลน์

โดยทั่วไปแล้ว ตัวชี้วัดออนไลน์จะสร้างขึ้นจากบันทึกการค้นหา ตัวชี้วัดเหล่านี้มักใช้เพื่อประเมินความสำเร็จของ การ ทดสอบ A/B

อัตราการละทิ้งเซสชัน

อัตราการละทิ้งเซสชัน คือ อัตราส่วนของเซสชันการค้นหาที่ไม่ส่งผลให้เกิดการคลิก

อัตราการคลิกผ่าน

อัตราการคลิกผ่าน (CTR) คืออัตราส่วนของผู้ใช้ที่คลิกลิงก์เฉพาะต่อจำนวนผู้ใช้ทั้งหมดที่ดูหน้าเว็บ อีเมล หรือโฆษณา โดยทั่วไปจะใช้ในการวัดความสำเร็จของ แคมเปญ โฆษณาออนไลน์สำหรับเว็บไซต์ใดเว็บไซต์หนึ่ง รวมถึงประสิทธิภาพของแคมเปญอีเมลด้วย^{[ 6 ]}

อัตราความสำเร็จของเซสชั่น

อัตราความสำเร็จของเซสชันวัดอัตราส่วนของเซสชันผู้ใช้ที่นำไปสู่ความสำเร็จ การกำหนด "ความสำเร็จ" มักขึ้นอยู่กับบริบท แต่สำหรับการค้นหา ผลลัพธ์ที่ประสบความสำเร็จมักวัดโดยใช้เวลาที่ใช้บนหน้าจอเป็นปัจจัยหลัก ควบคู่ไปกับการโต้ตอบของผู้ใช้ในปัจจัยรอง ตัวอย่างเช่น การที่ผู้ใช้คัดลอก URL ของผลลัพธ์ถือเป็นผลลัพธ์ที่ประสบความสำเร็จ เช่นเดียวกับการคัดลอก/วางจากส่วนย่อยของผลการค้นหา

อัตราผลลัพธ์เป็นศูนย์

อัตราผลลัพธ์เป็นศูนย์ ( ZRR ) คืออัตราส่วนของหน้าผลการค้นหาของเครื่องมือค้นหา (SERPs) ที่แสดงผลลัพธ์เป็นศูนย์ ตัวชี้วัดนี้บ่งชี้ถึง ปัญหา การเรียกคืนข้อมูลหรือข้อมูลที่ค้นหาไม่อยู่ในดัชนี

เมตริกแบบออฟไลน์

โดยทั่วไปแล้ว ตัวชี้วัดแบบออฟไลน์จะถูกสร้างขึ้นจากการประเมินความเกี่ยวข้อง ซึ่งผู้ประเมินจะให้คะแนนคุณภาพของผลการค้นหา สามารถใช้มาตราส่วนทั้งแบบไบนารี (เกี่ยวข้อง/ไม่เกี่ยวข้อง) และแบบหลายระดับ (เช่น ความเกี่ยวข้องจาก 0 ถึง 5) เพื่อให้คะแนนเอกสารแต่ละฉบับที่ได้มาจากการค้นหา ในทางปฏิบัติ การค้นหาอาจไม่สมบูรณ์และอาจมีความเกี่ยวข้องในระดับที่แตกต่างกัน ตัวอย่างเช่น มีความกำกวมในการค้นหา "mars": ผู้ประเมินไม่ทราบว่าผู้ใช้กำลังค้นหาดาวอังคารช็อกโกแลต แท่ง Marsนักร้องBruno Marsหรือเทพเจ้า Mars ของโรมัน

ความแม่นยำ

ความแม่นยำ คือ สัดส่วนของเอกสารที่ดึงมาได้ซึ่งเกี่ยวข้องกับความต้องการข้อมูลของผู้ใช้

{\mbox{precision}}={\frac {|\{{\mbox{เอกสารที่เกี่ยวข้อง}}\}\cap \{{\mbox{เอกสารที่ดึงมา}}\}|}{|\{{\mbox{เอกสารที่ดึงมา}}\}|}}

ในการจำแนกแบบไบนารีความแม่นยำ (Precision) เปรียบได้กับค่าทำนายเชิงบวก (Positive Predictive Value ) ความแม่นยำจะพิจารณาเอกสารทั้งหมดที่ดึงมาได้ นอกจากนี้ยังสามารถประเมินได้โดยพิจารณาเฉพาะผลลัพธ์อันดับต้น ๆ ที่ระบบส่งคืนโดยใช้Precision@kได้อีกด้วย

โปรดทราบว่าความหมายและการใช้งานของ "ความแม่นยำ" ในสาขาการค้นหาข้อมูลนั้นแตกต่างจากคำจำกัดความของความถูกต้องและความแม่นยำในสาขาวิทยาศาสตร์และสถิติ อื่น ๆ

การเรียกคืน

Recall คือสัดส่วนของเอกสารที่เกี่ยวข้องกับคำค้นหาที่ถูกดึงข้อมูลมาได้สำเร็จ

{\mbox{recall}}={\frac {|\{{\mbox{เอกสารที่เกี่ยวข้อง}}\}\cap \{{\mbox{เอกสารที่ดึงมา}}\}|}{|\{{\mbox{เอกสารที่เกี่ยวข้อง}}\}|}}

ในการจำแนกประเภทแบบไบนารี ค่า recall มักถูกเรียกว่าsensitivityดังนั้นจึงสามารถมองได้ว่าเป็นความน่าจะเป็นที่เอกสารที่เกี่ยวข้องจะถูกค้นพบโดยคำค้นหา

การทำให้ได้ค่า Recall 100% นั้นเป็นเรื่องง่ายมาก เพียงแค่แสดงเอกสารทั้งหมดที่ได้จากการค้นหาแต่ละครั้ง ดังนั้น ค่า Recall เพียงอย่างเดียวจึงไม่เพียงพอ จำเป็นต้องวัดจำนวนเอกสารที่ไม่เกี่ยวข้องด้วย เช่น โดยการคำนวณค่า Precision

ผลกระทบ

สัดส่วนของเอกสารที่ไม่เกี่ยวข้องที่ถูกค้นพบ จากเอกสารที่ไม่เกี่ยวข้องทั้งหมดที่มีอยู่:

{\mbox{fall-out}}={\frac {|\{{\mbox{เอกสารที่ไม่เกี่ยวข้อง}}\}\cap \{{\mbox{เอกสารที่ดึงมา}}\}|}{|\{{\mbox{เอกสารที่ไม่เกี่ยวข้อง}}\}|}}

ในการจำแนกแบบไบนารี ความผิดพลาดที่เกิดขึ้น (fall-out) เป็นสิ่งที่ตรงข้ามกับความจำเพาะ (specificity)และมีค่าเท่ากับ 0.5 อาจมองได้ว่าเป็นความน่าจะเป็นที่เอกสารที่ไม่เกี่ยวข้องจะถูกดึงออกมาจากคำค้นหา $(1-{\mbox{specificity}})$

การทำให้ผลลัพธ์เป็น 0% โดยการส่งคืนเอกสารเป็นศูนย์ในการตอบสนองต่อการค้นหาใดๆ นั้นเป็นเรื่องง่ายดาย

ค่า F-score / ค่า F-measure

ค่าเฉลี่ยฮาร์มอนิกถ่วงน้ำหนักของความแม่นยำและการเรียกคืน ซึ่งก็คือค่า F-measure แบบดั้งเดิมหรือค่า F-score ที่สมดุล มีดังนี้:

F={\frac {2\cdot \mathrm {precision} \cdot \mathrm {recall} }{(\mathrm {precision} +\mathrm {recall} )}}

สิ่งนี้เรียกอีกอย่างว่าการวัดผล เนื่องจากค่าการเรียกคืนและความแม่นยำมีน้ำหนักเท่ากัน $F_{1}$

สูตรทั่วไปสำหรับจำนวนจริงที่ไม่เป็นลบคือ: $\beta$

F_{\beta }={\frac {(1+\beta ^{2})\cdot (\mathrm {precision} \cdot \mathrm {recall} )}{(\beta ^{2}\cdot \mathrm {precision} +\mathrm {recall} )}}\,

มาตรวัด F ที่ใช้กันทั่วไปอีกสองแบบ ได้แก่มาตรวัดที่ให้น้ำหนักกับค่าการเรียกคืน (recall) เป็นสองเท่าของค่าความแม่นยำ (precision) และมาตรวัดที่ให้น้ำหนักกับค่าความแม่นยำเป็นสองเท่าของค่าการเรียกคืน (recall) $F_{2}$ $F_{0.5}$

ค่า F-measure ถูกคิดค้นโดยvan Rijsbergen (1979) เพื่อ"วัดประสิทธิภาพของการเรียกคืนข้อมูลเมื่อเทียบกับผู้ใช้ที่ให้ความสำคัญกับการเรียกคืนข้อมูลมากกว่าความแม่นยำ" โดยอิงจากมาตรวัดประสิทธิภาพของ van Rijsbergen ความสัมพันธ์ระหว่างทั้งสองคือ: $F_{\beta }$ $\beta$ $E=1-{\frac {1}{{\frac {\alpha }{P}}+{\frac {1-\alpha }{R}}}}$

F_{\beta }=1-E

ที่ไหน

\alpha ={\frac {1}{1+\beta ^{2}}}

เนื่องจากค่า F-measure ผสานข้อมูลจากทั้งค่าความแม่นยำ (precision) และค่าการเรียกคืน (recall) เข้าด้วยกัน จึงเป็นวิธีแสดงประสิทธิภาพโดยรวมโดยไม่ต้องแสดงตัวเลขสองตัวแยกกัน

ความแม่นยำเฉลี่ย

ความแม่นยำและการเรียกคืนเป็นเมตริกค่าเดียวที่อิงตามรายการเอกสารทั้งหมดที่ระบบส่งคืน สำหรับระบบที่ส่งคืนลำดับเอกสารที่จัดอันดับ ควรพิจารณาลำดับที่เอกสารที่ส่งคืนแสดงด้วย การคำนวณความแม่นยำและการเรียกคืนในทุกตำแหน่งในลำดับเอกสารที่จัดอันดับ สามารถสร้างเส้นโค้งความแม่นยำ-การเรียกคืน โดยพล็อตความแม่นยำเป็นฟังก์ชันของการเรียกคืนความแม่นยำเฉลี่ยคำนวณค่าเฉลี่ยของในช่วงเวลาตั้งแต่ถึง: ^[⁷^] $p(r)$ $r$ $p(r)$ $r=0$ $r=1$

\operatorname {AveP} =\int _{0}^{1}p(r)dr

นั่นคือพื้นที่ใต้เส้นโค้งความแม่นยำ-การเรียกคืน (precision-recall curve) ในทางปฏิบัติ ค่าอินทิกรัลนี้จะถูกแทนที่ด้วยผลรวมจำกัดของทุกตำแหน่งในลำดับการจัดอันดับของเอกสาร:

\operatorname {AveP} =\sum _{k=1}^{n}P(k)\Delta r(k)

โดยที่คือลำดับในลำดับของเอกสารที่ดึงมาคือจำนวนเอกสารที่ดึงมาคือความแม่นยำที่จุดตัดในรายการ และคือการเปลี่ยนแปลงในการเรียกคืนจากรายการไปยัง^[⁷^] $k$ $n$ $P(k)$ $k$ $\Delta r(k)$ $k-1$ $k$

ผลรวมจำกัดนี้เทียบเท่ากับ:

\operatorname {AveP} ={\frac {\sum _{k=1}^{n}P(k)\times \operatorname {rel} (k)}{\mbox{total number of relevant documents}}}\!

โดยที่ฟังก์ชันตัวบ่งชี้มีค่าเท่ากับ 1 หากรายการที่อันดับนั้นเป็นเอกสารที่เกี่ยวข้อง และมีค่าเท่ากับศูนย์ในกรณีอื่น^[⁸^]โปรดทราบว่าค่าเฉลี่ยจะคำนวณจากเอกสารที่เกี่ยวข้องในเอกสารที่ถูกดึงมา 1,000 รายการ และเอกสารที่เกี่ยวข้องที่ไม่ได้ถูกดึงมาจะได้รับคะแนนความแม่นยำเป็นศูนย์ $\operatorname {rel} (k)$ $k$

ผู้เขียนบางคนเลือกที่จะแทรกฟังก์ชันเพื่อลดผลกระทบของ "การแกว่ง" ในเส้นโค้ง^[⁹^]^[¹⁰^]ตัวอย่างเช่น การแข่งขัน PASCAL Visual Object Classes (เกณฑ์มาตรฐานสำหรับการตรวจจับวัตถุด้วยคอมพิวเตอร์วิชั่น) จนถึงปี 2010 ^[¹¹^]คำนวณความแม่นยำเฉลี่ยโดยการหาค่าเฉลี่ยของความแม่นยำเหนือชุดระดับการเรียกคืนที่เว้นระยะห่างเท่าๆ กัน {0, 0.1, 0.2, ... 1.0}: ^[⁹^]^[¹⁰^] $p(r)$

\operatorname {AveP} ={\frac {1}{11}}\sum _{r\in \{0,0.1,\ldots ,1.0\}}p_{\operatorname {interp} }(r)

โดยที่ค่าความแม่นยำที่ได้จากการประมาณค่าแบบสอดแทรก (interpolated precision) จะใช้ค่าความแม่นยำสูงสุดเหนือค่าการเรียกคืน (recall) ทั้งหมดที่มากกว่า: $p_{\operatorname {interp} }(r)$ $r$

p_{\operatorname {interp} }(r)=\operatorname {max} _{{\tilde {r}}:{\tilde {r}}\geq r}p({\tilde {r}})

.

ทางเลือกอื่นคือการหาฟังก์ชันวิเคราะห์โดยการสมมติการแจกแจงพารามิเตอร์เฉพาะสำหรับค่าการตัดสินใจพื้นฐาน ตัวอย่างเช่นเส้นโค้งความแม่นยำ-การเรียกคืนแบบไบนอร์มอลสามารถหาได้โดยการสมมติว่าค่าการตัดสินใจในทั้งสองคลาสเป็นไปตามการแจกแจงแบบเกาส์เซียน^[¹²^] $p(r)$

ค่า AveP ต่ำสุดที่สามารถทำได้สำหรับงานจำแนกประเภทที่กำหนดนั้นคำนวณได้จากสูตร:

${\frac {1}{n_{pos}}}\sum _{k=1}^{n_{pos}}{\frac {k}{k+n_{neg}}}$ ^{[ 13 ]}

ความแม่นยำที่ k

สำหรับการค้นหาข้อมูลสมัยใหม่ (ระดับเว็บ) ค่า recall ไม่ถือเป็นตัวชี้วัดที่มีความหมายอีกต่อไป เนื่องจากคำค้นหาจำนวนมากมีเอกสารที่เกี่ยวข้องหลายพันฉบับ และมีผู้ใช้เพียงไม่กี่รายที่สนใจจะอ่านเอกสารทั้งหมดค่า precisionที่ k เอกสาร (P@k) ยังคงเป็นตัวชี้วัดที่มีประโยชน์ (เช่น P@10 หรือ "Precision at 10" สอดคล้องกับจำนวนผลลัพธ์ที่เกี่ยวข้องใน 10 เอกสารแรกที่ค้นหาได้) แต่ไม่สามารถคำนึงถึงตำแหน่งของเอกสารที่เกี่ยวข้องใน k อันดับแรกได้^{[ 14 ]} ข้อเสียอีกประการหนึ่งคือ ในการค้นหาที่มีผลลัพธ์ที่เกี่ยวข้องน้อยกว่า k แม้แต่ระบบที่สมบูรณ์แบบก็จะมีคะแนนน้อยกว่า 1 ^{[ 15 ]} การให้คะแนนด้วยตนเองทำได้ง่ายกว่า เนื่องจากต้องตรวจสอบเฉพาะผลลัพธ์ k อันดับแรกเท่านั้นเพื่อพิจารณาว่าเกี่ยวข้องหรือไม่

ความแม่นยำ R

ความแม่นยำของ R จำเป็นต้องทราบเอกสารทั้งหมดที่เกี่ยวข้องกับคำค้นหา จำนวนเอกสารที่เกี่ยวข้องจะถูกใช้เป็นเกณฑ์ในการคำนวณ และจะแตกต่างกันไปตามคำค้นหา ตัวอย่างเช่น หากมีเอกสาร 15 ฉบับที่เกี่ยวข้องกับ "สีแดง" ในคลังข้อมูล (R=15) ความแม่นยำของ R สำหรับ "สีแดง" จะพิจารณาเอกสาร 15 ฉบับแรกที่ส่งคืน นับจำนวนเอกสารที่เกี่ยวข้องและแปลงเป็นเศษส่วนความเกี่ยวข้อง: ^[¹⁶^] $R$ $r$ $r/R=r/15$

โปรดทราบว่า R-Precision เทียบเท่ากับทั้งความแม่นยำที่ตำแหน่งที่ -th (P@ ) และการเรียกคืนที่ตำแหน่งที่ -th ^[¹⁵^] $R$ $R$ $R$

จากประสบการณ์ มาตรการนี้มักมีความสัมพันธ์สูงกับความแม่นยำเฉลี่ย^{[ 15 ]}

ความแม่นยำเฉลี่ย

ค่าความแม่นยำเฉลี่ย (MAP) สำหรับชุดคำค้นหา คือ ค่าเฉลี่ยของ คะแนน ความแม่นยำเฉลี่ยของแต่ละคำค้นหา

\operatorname {MAP} ={\frac {\sum _{q=1}^{Q}\operatorname {AveP(q)} }{Q}}\!

โดยที่Qคือจำนวนคำถาม

กำไรสะสมที่ลดลง

DCG ใช้มาตราส่วนความเกี่ยวข้องแบบแบ่งระดับของเอกสารจากชุดผลลัพธ์เพื่อประเมินประโยชน์หรือผลกำไรของเอกสารโดยพิจารณาจากตำแหน่งในรายการผลลัพธ์ สมมติฐานของ DCG คือเอกสารที่มีความเกี่ยวข้องสูงซึ่งปรากฏอยู่ในลำดับที่ต่ำกว่าในรายการผลการค้นหาควรถูกลงโทษเนื่องจากค่าความเกี่ยวข้องแบบแบ่งระดับจะลดลงตามสัดส่วนลอการิทึมของตำแหน่งผลลัพธ์^{[ 17 ]}

ค่า DCG ที่สะสม ณ ตำแหน่งลำดับใดลำดับหนึ่งนั้น กำหนดโดย: $p$

\mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}.

เนื่องจากชุดผลลัพธ์อาจมีขนาดแตกต่างกันไปในแต่ละแบบสอบถามหรือระบบ เพื่อเปรียบเทียบประสิทธิภาพ เวอร์ชันมาตรฐานของ DCG จึงใช้ DCG ในอุดมคติ โดยจะเรียงลำดับเอกสารในรายการผลลัพธ์ตามความเกี่ยวข้อง สร้าง DCG ในอุดมคติที่ตำแหน่ง p ( ) ซึ่งจะทำให้คะแนนเป็นมาตรฐาน: $IDCG_{p}$

\mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG{p}}}.

ค่า nDCG สำหรับการค้นหาทั้งหมดสามารถหาค่าเฉลี่ยเพื่อวัดประสิทธิภาพเฉลี่ยของอัลกอริทึมการจัดอันดับ โปรดทราบว่าในอัลกอริทึมการจัดอันดับที่สมบูรณ์แบบ ค่า nDCG จะเท่ากับค่า nDCG ที่สร้างเป็น 1.0 การคำนวณ nDCG ทั้งหมดจึงเป็นค่าสัมพัทธ์ในช่วง 0.0 ถึง 1.0 และสามารถเปรียบเทียบข้ามการค้นหาได้^[¹⁸^] $DCG_{p}$ $IDCG_{p}$

มาตรการอื่นๆ

อันดับผกผันเฉลี่ย
bpref - การวัดผลรวมของจำนวนเอกสารที่เกี่ยวข้องที่ได้รับการจัดอันดับก่อนเอกสารที่ไม่เกี่ยวข้อง^{[ 16 ]}
GMAP - ค่าเฉลี่ยเรขาคณิตของความแม่นยำเฉลี่ย (ต่อหัวข้อ) ^{[ 16 ]}
มาตรการที่อิงตามความเกี่ยวข้องเพียงเล็กน้อยและความหลากหลายของเอกสาร - ดูความเกี่ยวข้อง (การค้นหาข้อมูล) § ปัญหาและทางเลือก
มาตรการทั้งความเกี่ยวข้องและความน่าเชื่อถือ (สำหรับข่าวปลอมในผลการค้นหา) ^{[ 19 ]}
อัตราความสำเร็จ

การแสดงภาพ

ภาพแสดงประสิทธิภาพการค้นหาข้อมูลประกอบด้วย:

กราฟที่แสดงความแม่นยำบนแกนหนึ่งและการเรียกคืนบนอีกแกนหนึ่ง^{[ 16 ]}
ฮิสโตแกรมของความแม่นยำเฉลี่ยในหัวข้อต่างๆ^{[ 16 ]}
เส้นโค้ง ลักษณะการทำงานของผู้รับ (ROC curve)
เมทริกซ์ความสับสน

มาตรการที่ไม่เกี่ยวข้อง

จำนวนการสอบถามต่อครั้ง

การวัดจำนวนการค้นหาที่เกิดขึ้นในระบบค้นหาต่อ (เดือน/วัน/ชั่วโมง/นาที/วินาที) ช่วยติดตามการใช้งานระบบค้นหา สามารถนำไปใช้ในการวินิจฉัยเพื่อระบุการเพิ่มขึ้นอย่างผิดปกติของการค้นหา หรือใช้เป็นค่าพื้นฐานเมื่อเปรียบเทียบกับตัวชี้วัดอื่นๆ เช่น เวลาในการตอบสนองของการค้นหา ตัวอย่างเช่น การเพิ่มขึ้นอย่างผิดปกติของปริมาณการค้นหา อาจใช้เพื่ออธิบายการเพิ่มขึ้นของเวลาในการตอบสนองของการค้นหาได้

ดูเพิ่มเติม

การเรียนรู้การจัดอันดับ

[ 1 ]

[ 2 ]

[ 3 ]

[ 5 ]

[ 6 ]

[

[

[

[

[

[

[ 13 ]

[ 14 ]

[ 15 ]

[

[ 17 ]

[

[ 19 ]

มาตรการประเมินผล (การค้นหาข้อมูล)

พื้นหลัง

แอปพลิเคชัน

มาตรการออนไลน์

อัตราการละทิ้งเซสชัน

อัตราการคลิกผ่าน

อัตราความสำเร็จของเซสชั่น

อัตราผลลัพธ์เป็นศูนย์

เมตริกแบบออฟไลน์

ความแม่นยำ

การเรียกคืน

ผลกระทบ

ค่า F-score / ค่า F-measure

ความแม่นยำเฉลี่ย

ความแม่นยำที่ k

ความแม่นยำ R

ความแม่นยำเฉลี่ย

กำไรสะสมที่ลดลง

มาตรการอื่นๆ

การแสดงภาพ

มาตรการที่ไม่เกี่ยวข้อง

จำนวนการสอบถามต่อครั้ง

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ