กลับไปหน้าบทความ

อ่าน 8 นาที

มาตรการประเมินผล (การค้นหาข้อมูล)

มาตรวัดการประเมินผล สำหรับ ระบบ การค้นหาข้อมูล (IR) จะประเมินว่าดัชนี เครื่องมือค้นหา หรือฐานข้อมูลนั้นสามารถส่งคืนผลลัพธ์จากชุดทรัพยากรที่ตรงกับคำค้นหาของผู้ใช้ได้ดีเพียงใด...

มาตรการประเมินผล (การค้นหาข้อมูล)

มาตรวัดการประเมินผลสำหรับ ระบบ การค้นหาข้อมูล (IR) จะประเมินว่าดัชนี เครื่องมือค้นหา หรือฐานข้อมูลนั้นสามารถส่งคืนผลลัพธ์จากชุดทรัพยากรที่ตรงกับคำค้นหาของผู้ใช้ได้ดีเพียงใด ดังนั้น มาตรวัดการประเมินผลจึงมีความสำคัญอย่างยิ่งต่อความสำเร็จของระบบสารสนเทศและแพลตฟอร์มดิจิทัล

ปัจจัยสำคัญที่สุดในการพิจารณาประสิทธิภาพของระบบสำหรับผู้ใช้คือความเกี่ยวข้องโดยรวมของผลลัพธ์ที่ดึงมาเพื่อตอบสนองต่อคำถาม[ 1 ]ความสำเร็จของระบบ IR อาจถูกตัดสินจากเกณฑ์ต่างๆ รวมถึงความเกี่ยวข้อง ความเร็ว ความพึงพอใจของผู้ใช้ ความสามารถในการใช้งาน ประสิทธิภาพ และความน่าเชื่อถือ[ 2 ]มาตรการประเมินอาจถูกจัดประเภทได้หลายวิธี รวมถึงแบบออฟไลน์หรือออนไลน์ แบบอิงผู้ใช้หรือแบบอิงระบบ และรวมถึงวิธีการต่างๆ เช่น พฤติกรรมของผู้ใช้ที่สังเกตได้ ชุดทดสอบ ความแม่นยำและการเรียกคืน และคะแนนจากชุดทดสอบมาตรฐานที่เตรียมไว้

การประเมินระบบการค้นหาข้อมูลควรมีการตรวจสอบความถูกต้องของมาตรการที่ใช้ด้วย กล่าวคือ การประเมินว่ามาตรการเหล่านั้นวัดสิ่งที่ตั้งใจจะวัดได้ดีเพียงใด และระบบนั้นเหมาะสมกับกรณีการใช้งานที่ตั้งใจไว้ได้ดีเพียงใด[ 3 ]โดยทั่วไปมาตรการจะใช้ในสองบริบท ได้แก่ การทดลองออนไลน์ ซึ่งประเมินปฏิสัมพันธ์ของผู้ใช้กับระบบค้นหา และการประเมินแบบออฟไลน์ ซึ่งวัดประสิทธิภาพของระบบการค้นหาข้อมูลบนชุดข้อมูลแบบคงที่แบบออฟไลน์

พื้นหลัง

วิธีการจัดทำดัชนีและการจัดหมวดหมู่เพื่อช่วยในการค้นหาข้อมูลมีประวัติอันยาวนานย้อนกลับไปถึงห้องสมุดและแหล่งรวบรวมข้อมูลในยุคแรก การประเมินประสิทธิภาพอย่างเป็นระบบเริ่มขึ้นอย่างจริงจังในช่วงทศวรรษ 1950 เนื่องจากการขยายตัวอย่างรวดเร็วของการผลิตงานวิจัยในด้านการทหาร รัฐบาล และการศึกษา และการนำระบบแคตตาล็อกคอมพิวเตอร์มาใช้ ในเวลานั้น มีระบบการจัดทำดัชนี การจัดหมวดหมู่ และการจัดทำแคตตาล็อกที่แตกต่างกันหลายระบบที่ใช้งานอยู่ ซึ่งมีค่าใช้จ่ายในการผลิตสูง และยังไม่ชัดเจนว่าระบบใดมีประสิทธิภาพมากที่สุด[ 4 ]

Cyril Cleverdonบรรณารักษ์ของวิทยาลัยการบิน Cranfield ประเทศอังกฤษ ได้เริ่มการทดลองชุดหนึ่งเกี่ยวกับดัชนีและการเรียกค้นข้อมูลสิ่งพิมพ์ในสิ่งที่เรียกว่าแบบจำลอง Cranfield หรือการทดสอบ Cranfield ซึ่งกำหนดมาตรฐานสำหรับการวัดผลการประเมิน IR เป็นเวลาหลายปี[ 4 ] Cleverdon ได้พัฒนาการทดสอบที่เรียกว่า 'การค้นหารายการที่รู้จัก' เพื่อตรวจสอบว่าระบบ IR ส่งคืนเอกสารที่ทราบว่ามีความเกี่ยวข้องหรือถูกต้องสำหรับการค้นหาที่กำหนดหรือไม่ การทดลองของ Cleverdon ได้กำหนดแง่มุมสำคัญหลายประการที่จำเป็นสำหรับการประเมิน IR ได้แก่ ชุดทดสอบ ชุดคำถาม และชุดรายการที่เกี่ยวข้องที่กำหนดไว้ล่วงหน้า ซึ่งเมื่อรวมกันแล้วจะกำหนดความแม่นยำและการเรียกคืน

แนวทางของเคลเวอร์ดันเป็นต้นแบบสำหรับ การจัดงาน ประชุมค้นหาข้อความ (Text Retrieval Conference ) ที่ประสบความสำเร็จ ซึ่งเริ่มต้นขึ้นในปี 1992

แอปพลิเคชัน

การประเมินระบบ IR เป็นหัวใจสำคัญของความสำเร็จของเครื่องมือค้นหาใดๆ รวมถึงการค้นหาทางอินเทอร์เน็ต การค้นหาเว็บไซต์ ฐานข้อมูล และแคตตาล็อกห้องสมุด มาตรการประเมินจะถูกนำมาใช้ในการศึกษาพฤติกรรมข้อมูลการทดสอบการใช้งานต้นทุนทางธุรกิจ และการประเมินประสิทธิภาพ การวัดประสิทธิผลของระบบ IR เป็นจุดสนใจหลักของการวิจัย IR โดยอาศัยชุดทดสอบร่วมกับมาตรการประเมิน[ 5 ]มีการจัดการประชุมทางวิชาการหลายรายการที่มุ่งเน้นเฉพาะมาตรการประเมิน ได้แก่ การประชุม Text Retrieval Conference (TREC), Conference and Labs of the Evaluation Forum (CLEF) และ NTCIR

มาตรการออนไลน์

โดยทั่วไปแล้ว ตัวชี้วัดออนไลน์จะสร้างขึ้นจากบันทึกการค้นหา ตัวชี้วัดเหล่านี้มักใช้เพื่อประเมินความสำเร็จของ การ ทดสอบ A/B

อัตราการละทิ้งเซสชัน

อัตราการละทิ้งเซสชัน คือ อัตราส่วนของเซสชันการค้นหาที่ไม่ส่งผลให้เกิดการคลิก

อัตราการคลิกผ่าน

อัตราการคลิกผ่าน (CTR) คืออัตราส่วนของผู้ใช้ที่คลิกลิงก์เฉพาะต่อจำนวนผู้ใช้ทั้งหมดที่ดูหน้าเว็บ อีเมล หรือโฆษณา โดยทั่วไปจะใช้ในการวัดความสำเร็จของ แคมเปญ โฆษณาออนไลน์สำหรับเว็บไซต์ใดเว็บไซต์หนึ่ง รวมถึงประสิทธิภาพของแคมเปญอีเมลด้วย[ 6 ]

อัตราความสำเร็จของเซสชั่น

อัตราความสำเร็จของเซสชันวัดอัตราส่วนของเซสชันผู้ใช้ที่นำไปสู่ความสำเร็จ การกำหนด "ความสำเร็จ" มักขึ้นอยู่กับบริบท แต่สำหรับการค้นหา ผลลัพธ์ที่ประสบความสำเร็จมักวัดโดยใช้เวลาที่ใช้บนหน้าจอเป็นปัจจัยหลัก ควบคู่ไปกับการโต้ตอบของผู้ใช้ในปัจจัยรอง ตัวอย่างเช่น การที่ผู้ใช้คัดลอก URL ของผลลัพธ์ถือเป็นผลลัพธ์ที่ประสบความสำเร็จ เช่นเดียวกับการคัดลอก/วางจากส่วนย่อยของผลการค้นหา

อัตราผลลัพธ์เป็นศูนย์

อัตราผลลัพธ์เป็นศูนย์ ( ZRR ) คืออัตราส่วนของหน้าผลการค้นหาของเครื่องมือค้นหา (SERPs) ที่แสดงผลลัพธ์เป็นศูนย์ ตัวชี้วัดนี้บ่งชี้ถึง ปัญหา การเรียกคืนข้อมูลหรือข้อมูลที่ค้นหาไม่อยู่ในดัชนี

เมตริกแบบออฟไลน์

โดยทั่วไปแล้ว ตัวชี้วัดแบบออฟไลน์จะถูกสร้างขึ้นจากการประเมินความเกี่ยวข้อง ซึ่งผู้ประเมินจะให้คะแนนคุณภาพของผลการค้นหา สามารถใช้มาตราส่วนทั้งแบบไบนารี (เกี่ยวข้อง/ไม่เกี่ยวข้อง) และแบบหลายระดับ (เช่น ความเกี่ยวข้องจาก 0 ถึง 5) เพื่อให้คะแนนเอกสารแต่ละฉบับที่ได้มาจากการค้นหา ในทางปฏิบัติ การค้นหาอาจไม่สมบูรณ์และอาจมีความเกี่ยวข้องในระดับที่แตกต่างกัน ตัวอย่างเช่น มีความกำกวมในการค้นหา "mars": ผู้ประเมินไม่ทราบว่าผู้ใช้กำลังค้นหาดาวอังคารช็อกโกแลต แท่ง Marsนักร้องBruno Marsหรือเทพเจ้า Mars ของโรมัน

ความแม่นยำ

ความแม่นยำ คือ สัดส่วนของเอกสารที่ดึงมาได้ซึ่งเกี่ยวข้องกับความต้องการข้อมูลของผู้ใช้

ในการจำแนกแบบไบนารีความแม่นยำ (Precision) เปรียบได้กับค่าทำนายเชิงบวก (Positive Predictive Value ) ความแม่นยำจะพิจารณาเอกสารทั้งหมดที่ดึงมาได้ นอกจากนี้ยังสามารถประเมินได้โดยพิจารณาเฉพาะผลลัพธ์อันดับต้น ๆ ที่ระบบส่งคืนโดยใช้Precision@kได้อีกด้วย

โปรดทราบว่าความหมายและการใช้งานของ "ความแม่นยำ" ในสาขาการค้นหาข้อมูลนั้นแตกต่างจากคำจำกัดความของความถูกต้องและความแม่นยำในสาขาวิทยาศาสตร์และสถิติ อื่น ๆ

การเรียกคืน

Recall คือสัดส่วนของเอกสารที่เกี่ยวข้องกับคำค้นหาที่ถูกดึงข้อมูลมาได้สำเร็จ

ในการจำแนกประเภทแบบไบนารี ค่า recall มักถูกเรียกว่าsensitivityดังนั้นจึงสามารถมองได้ว่าเป็นความน่าจะเป็นที่เอกสารที่เกี่ยวข้องจะถูกค้นพบโดยคำค้นหา

การทำให้ได้ค่า Recall 100% นั้นเป็นเรื่องง่ายมาก เพียงแค่แสดงเอกสารทั้งหมดที่ได้จากการค้นหาแต่ละครั้ง ดังนั้น ค่า Recall เพียงอย่างเดียวจึงไม่เพียงพอ จำเป็นต้องวัดจำนวนเอกสารที่ไม่เกี่ยวข้องด้วย เช่น โดยการคำนวณค่า Precision

ผลกระทบ

สัดส่วนของเอกสารที่ไม่เกี่ยวข้องที่ถูกค้นพบ จากเอกสารที่ไม่เกี่ยวข้องทั้งหมดที่มีอยู่:

ในการจำแนกแบบไบนารี ความผิดพลาดที่เกิดขึ้น (fall-out) เป็นสิ่งที่ตรงข้ามกับความจำเพาะ (specificity)และมีค่าเท่ากับ 0.5 อาจมองได้ว่าเป็นความน่าจะเป็นที่เอกสารที่ไม่เกี่ยวข้องจะถูกดึงออกมาจากคำค้นหา

การทำให้ผลลัพธ์เป็น 0% โดยการส่งคืนเอกสารเป็นศูนย์ในการตอบสนองต่อการค้นหาใดๆ นั้นเป็นเรื่องง่ายดาย

ค่า F-score / ค่า F-measure

ค่าเฉลี่ยฮาร์มอนิกถ่วงน้ำหนักของความแม่นยำและการเรียกคืน ซึ่งก็คือค่า F-measure แบบดั้งเดิมหรือค่า F-score ที่สมดุล มีดังนี้:

สิ่งนี้เรียกอีกอย่างว่าการวัดผล เนื่องจากค่าการเรียกคืนและความแม่นยำมีน้ำหนักเท่ากัน

สูตรทั่วไปสำหรับจำนวนจริงที่ไม่เป็นลบคือ:

มาตรวัด F ที่ใช้กันทั่วไปอีกสองแบบ ได้แก่มาตรวัดที่ให้น้ำหนักกับค่าการเรียกคืน (recall) เป็นสองเท่าของค่าความแม่นยำ (precision) และมาตรวัดที่ให้น้ำหนักกับค่าความแม่นยำเป็นสองเท่าของค่าการเรียกคืน (recall)

ค่า F-measure ถูกคิดค้นโดยvan Rijsbergen (1979) เพื่อ"วัดประสิทธิภาพของการเรียกคืนข้อมูลเมื่อเทียบกับผู้ใช้ที่ให้ความสำคัญกับการเรียกคืนข้อมูลมากกว่าความแม่นยำ" โดยอิงจากมาตรวัดประสิทธิภาพของ van Rijsbergen ความสัมพันธ์ระหว่างทั้งสองคือ:

ที่ไหน

เนื่องจากค่า F-measure ผสานข้อมูลจากทั้งค่าความแม่นยำ (precision) และค่าการเรียกคืน (recall) เข้าด้วยกัน จึงเป็นวิธีแสดงประสิทธิภาพโดยรวมโดยไม่ต้องแสดงตัวเลขสองตัวแยกกัน

ความแม่นยำเฉลี่ย

ความแม่นยำและการเรียกคืนเป็นเมตริกค่าเดียวที่อิงตามรายการเอกสารทั้งหมดที่ระบบส่งคืน สำหรับระบบที่ส่งคืนลำดับเอกสารที่จัดอันดับ ควรพิจารณาลำดับที่เอกสารที่ส่งคืนแสดงด้วย การคำนวณความแม่นยำและการเรียกคืนในทุกตำแหน่งในลำดับเอกสารที่จัดอันดับ สามารถสร้างเส้นโค้งความแม่นยำ-การเรียกคืน โดยพล็อตความแม่นยำเป็นฟังก์ชันของการเรียกคืนความแม่นยำเฉลี่ยคำนวณค่าเฉลี่ยของในช่วงเวลาตั้งแต่ถึง: [ 7 ]

นั่นคือพื้นที่ใต้เส้นโค้งความแม่นยำ-การเรียกคืน (precision-recall curve) ในทางปฏิบัติ ค่าอินทิกรัลนี้จะถูกแทนที่ด้วยผลรวมจำกัดของทุกตำแหน่งในลำดับการจัดอันดับของเอกสาร:

โดยที่คือลำดับในลำดับของเอกสารที่ดึงมาคือจำนวนเอกสารที่ดึงมาคือความแม่นยำที่จุดตัดในรายการ และคือการเปลี่ยนแปลงในการเรียกคืนจากรายการไปยัง[ 7 ]

ผลรวมจำกัดนี้เทียบเท่ากับ:

โดยที่ฟังก์ชันตัวบ่งชี้มีค่าเท่ากับ 1 หากรายการที่อันดับนั้นเป็นเอกสารที่เกี่ยวข้อง และมีค่าเท่ากับศูนย์ในกรณีอื่น[ 8 ]โปรดทราบว่าค่าเฉลี่ยจะคำนวณจากเอกสารที่เกี่ยวข้องในเอกสารที่ถูกดึงมา 1,000 รายการ และเอกสารที่เกี่ยวข้องที่ไม่ได้ถูกดึงมาจะได้รับคะแนนความแม่นยำเป็นศูนย์

ผู้เขียนบางคนเลือกที่จะแทรกฟังก์ชันเพื่อลดผลกระทบของ "การแกว่ง" ในเส้นโค้ง[ 9 ] [ 10 ]ตัวอย่างเช่น การแข่งขัน PASCAL Visual Object Classes (เกณฑ์มาตรฐานสำหรับการตรวจจับวัตถุด้วยคอมพิวเตอร์วิชั่น) จนถึงปี 2010 [ 11 ]คำนวณความแม่นยำเฉลี่ยโดยการหาค่าเฉลี่ยของความแม่นยำเหนือชุดระดับการเรียกคืนที่เว้นระยะห่างเท่าๆ กัน {0, 0.1, 0.2, ... 1.0}: [ 9 ] [ 10 ]

โดยที่ค่าความแม่นยำที่ได้จากการประมาณค่าแบบสอดแทรก (interpolated precision) จะใช้ค่าความแม่นยำสูงสุดเหนือค่าการเรียกคืน (recall) ทั้งหมดที่มากกว่า:

.

ทางเลือกอื่นคือการหาฟังก์ชันวิเคราะห์โดยการสมมติการแจกแจงพารามิเตอร์เฉพาะสำหรับค่าการตัดสินใจพื้นฐาน ตัวอย่างเช่นเส้นโค้งความแม่นยำ-การเรียกคืนแบบไบนอร์มอลสามารถหาได้โดยการสมมติว่าค่าการตัดสินใจในทั้งสองคลาสเป็นไปตามการแจกแจงแบบเกาส์เซียน[ 12 ]

ค่า AveP ต่ำสุดที่สามารถทำได้สำหรับงานจำแนกประเภทที่กำหนดนั้นคำนวณได้จากสูตร:

[ 13 ]

ความแม่นยำที่ k

สำหรับการค้นหาข้อมูลสมัยใหม่ (ระดับเว็บ) ค่า recall ไม่ถือเป็นตัวชี้วัดที่มีความหมายอีกต่อไป เนื่องจากคำค้นหาจำนวนมากมีเอกสารที่เกี่ยวข้องหลายพันฉบับ และมีผู้ใช้เพียงไม่กี่รายที่สนใจจะอ่านเอกสารทั้งหมดค่า precisionที่ k เอกสาร (P@k) ยังคงเป็นตัวชี้วัดที่มีประโยชน์ (เช่น P@10 หรือ "Precision at 10" สอดคล้องกับจำนวนผลลัพธ์ที่เกี่ยวข้องใน 10 เอกสารแรกที่ค้นหาได้) แต่ไม่สามารถคำนึงถึงตำแหน่งของเอกสารที่เกี่ยวข้องใน k อันดับแรกได้[ 14 ] ข้อเสียอีกประการหนึ่งคือ ในการค้นหาที่มีผลลัพธ์ที่เกี่ยวข้องน้อยกว่า k แม้แต่ระบบที่สมบูรณ์แบบก็จะมีคะแนนน้อยกว่า 1 [ 15 ] การให้คะแนนด้วยตนเองทำได้ง่ายกว่า เนื่องจากต้องตรวจสอบเฉพาะผลลัพธ์ k อันดับแรกเท่านั้นเพื่อพิจารณาว่าเกี่ยวข้องหรือไม่

ความแม่นยำ R

ความแม่นยำของ R จำเป็นต้องทราบเอกสารทั้งหมดที่เกี่ยวข้องกับคำค้นหา จำนวนเอกสารที่เกี่ยวข้องจะถูกใช้เป็นเกณฑ์ในการคำนวณ และจะแตกต่างกันไปตามคำค้นหา ตัวอย่างเช่น หากมีเอกสาร 15 ฉบับที่เกี่ยวข้องกับ "สีแดง" ในคลังข้อมูล (R=15) ความแม่นยำของ R สำหรับ "สีแดง" จะพิจารณาเอกสาร 15 ฉบับแรกที่ส่งคืน นับจำนวนเอกสารที่เกี่ยวข้องและแปลงเป็นเศษส่วนความเกี่ยวข้อง: [ 16 ]

โปรดทราบว่า R-Precision เทียบเท่ากับทั้งความแม่นยำที่ตำแหน่งที่ -th (P@ ) และการเรียกคืนที่ตำแหน่งที่ -th [ 15 ]

จากประสบการณ์ มาตรการนี้มักมีความสัมพันธ์สูงกับความแม่นยำเฉลี่ย[ 15 ]

ความแม่นยำเฉลี่ย

ค่าความแม่นยำเฉลี่ย (MAP) สำหรับชุดคำค้นหา คือ ค่าเฉลี่ยของ คะแนน ความแม่นยำเฉลี่ยของแต่ละคำค้นหา

โดยที่Qคือจำนวนคำถาม

กำไรสะสมที่ลดลง

DCG ใช้มาตราส่วนความเกี่ยวข้องแบบแบ่งระดับของเอกสารจากชุดผลลัพธ์เพื่อประเมินประโยชน์หรือผลกำไรของเอกสารโดยพิจารณาจากตำแหน่งในรายการผลลัพธ์ สมมติฐานของ DCG คือเอกสารที่มีความเกี่ยวข้องสูงซึ่งปรากฏอยู่ในลำดับที่ต่ำกว่าในรายการผลการค้นหาควรถูกลงโทษเนื่องจากค่าความเกี่ยวข้องแบบแบ่งระดับจะลดลงตามสัดส่วนลอการิทึมของตำแหน่งผลลัพธ์[ 17 ]

ค่า DCG ที่สะสม ณ ตำแหน่งลำดับใดลำดับหนึ่งนั้น กำหนดโดย:

เนื่องจากชุดผลลัพธ์อาจมีขนาดแตกต่างกันไปในแต่ละแบบสอบถามหรือระบบ เพื่อเปรียบเทียบประสิทธิภาพ เวอร์ชันมาตรฐานของ DCG จึงใช้ DCG ในอุดมคติ โดยจะเรียงลำดับเอกสารในรายการผลลัพธ์ตามความเกี่ยวข้อง สร้าง DCG ในอุดมคติที่ตำแหน่ง p ( ) ซึ่งจะทำให้คะแนนเป็นมาตรฐาน:

ค่า nDCG สำหรับการค้นหาทั้งหมดสามารถหาค่าเฉลี่ยเพื่อวัดประสิทธิภาพเฉลี่ยของอัลกอริทึมการจัดอันดับ โปรดทราบว่าในอัลกอริทึมการจัดอันดับที่สมบูรณ์แบบ ค่า nDCG จะเท่ากับค่า nDCG ที่สร้างเป็น 1.0 การคำนวณ nDCG ทั้งหมดจึงเป็นค่าสัมพัทธ์ในช่วง 0.0 ถึง 1.0 และสามารถเปรียบเทียบข้ามการค้นหาได้[ 18 ]

มาตรการอื่นๆ

  • อันดับผกผันเฉลี่ย
  • bpref - การวัดผลรวมของจำนวนเอกสารที่เกี่ยวข้องที่ได้รับการจัดอันดับก่อนเอกสารที่ไม่เกี่ยวข้อง[ 16 ]
  • GMAP - ค่าเฉลี่ยเรขาคณิตของความแม่นยำเฉลี่ย (ต่อหัวข้อ) [ 16 ]
  • มาตรการที่อิงตามความเกี่ยวข้องเพียงเล็กน้อยและความหลากหลายของเอกสาร - ดูความเกี่ยวข้อง (การค้นหาข้อมูล) § ปัญหาและทางเลือก
  • มาตรการทั้งความเกี่ยวข้องและความน่าเชื่อถือ (สำหรับข่าวปลอมในผลการค้นหา) [ 19 ]
  • อัตราความสำเร็จ

การแสดงภาพ

ภาพแสดงประสิทธิภาพการค้นหาข้อมูลประกอบด้วย:

มาตรการที่ไม่เกี่ยวข้อง

จำนวนการสอบถามต่อครั้ง

การวัดจำนวนการค้นหาที่เกิดขึ้นในระบบค้นหาต่อ (เดือน/วัน/ชั่วโมง/นาที/วินาที) ช่วยติดตามการใช้งานระบบค้นหา สามารถนำไปใช้ในการวินิจฉัยเพื่อระบุการเพิ่มขึ้นอย่างผิดปกติของการค้นหา หรือใช้เป็นค่าพื้นฐานเมื่อเปรียบเทียบกับตัวชี้วัดอื่นๆ เช่น เวลาในการตอบสนองของการค้นหา ตัวอย่างเช่น การเพิ่มขึ้นอย่างผิดปกติของปริมาณการค้นหา อาจใช้เพื่ออธิบายการเพิ่มขึ้นของเวลาในการตอบสนองของการค้นหาได้

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Evaluation_measures_(information_retrieval)&oldid=1360656682#Average_precision "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ มาตรการประเมินผล (การค้นหาข้อมูล)

มาตรวัดการประเมินผล สำหรับ ระบบ การค้นหาข้อมูล (IR) จะประเมินว่าดัชนี เครื่องมือค้นหา หรือฐานข้อมูลนั้นสามารถส่งคืนผลลัพธ์จากชุดทรัพยากรที่ตรงกับคำค้นหาของผู้ใช้ได้ดีเพียงใด...

พื้นหลัง

วิธีการจัดทำดัชนีและการจัดหมวดหมู่เพื่อช่วยในการค้นหาข้อมูลมีประวัติอันยาวนานย้อนกลับไปถึงห้องสมุดและแหล่งรวบรวมข้อมูลในยุคแรก การประเมินประสิทธิภาพอย่างเป็นระบบเริ่มขึ้นอย่างจริงจังในช่วงทศวรรษ 1950...

แอปพลิเคชัน

การประเมินระบบ IR เป็นหัวใจสำคัญของความสำเร็จของเครื่องมือค้นหาใดๆ รวมถึงการค้นหาทางอินเทอร์เน็ต การค้นหาเว็บไซต์ ฐานข้อมูล และแคตตาล็อกห้องสมุด มาตรการประเมินจะถูกนำมาใช้ในการศึกษา พฤติกรรมข้อมูล การ ทดสอบการใช้งาน ต้นทุนทางธุรกิจ และการประเมินประสิทธิภาพ...

มาตรการออนไลน์

โดยทั่วไปแล้ว ตัวชี้วัดออนไลน์จะสร้างขึ้นจากบันทึกการค้นหา ตัวชี้วัดเหล่านี้มักใช้เพื่อประเมินความสำเร็จของ การ ทดสอบ A/B