อ่าน 8 นาที
มาตรการประเมินผล (การค้นหาข้อมูล)
มาตรวัดการประเมินผล สำหรับ ระบบ การค้นหาข้อมูล (IR) จะประเมินว่าดัชนี เครื่องมือค้นหา หรือฐานข้อมูลนั้นสามารถส่งคืนผลลัพธ์จากชุดทรัพยากรที่ตรงกับคำค้นหาของผู้ใช้ได้ดีเพียงใด...
มาตรการประเมินผล (การค้นหาข้อมูล)
มาตรวัดการประเมินผลสำหรับ ระบบ การค้นหาข้อมูล (IR) จะประเมินว่าดัชนี เครื่องมือค้นหา หรือฐานข้อมูลนั้นสามารถส่งคืนผลลัพธ์จากชุดทรัพยากรที่ตรงกับคำค้นหาของผู้ใช้ได้ดีเพียงใด ดังนั้น มาตรวัดการประเมินผลจึงมีความสำคัญอย่างยิ่งต่อความสำเร็จของระบบสารสนเทศและแพลตฟอร์มดิจิทัล
ปัจจัยสำคัญที่สุดในการพิจารณาประสิทธิภาพของระบบสำหรับผู้ใช้คือความเกี่ยวข้องโดยรวมของผลลัพธ์ที่ดึงมาเพื่อตอบสนองต่อคำถาม[ 1 ]ความสำเร็จของระบบ IR อาจถูกตัดสินจากเกณฑ์ต่างๆ รวมถึงความเกี่ยวข้อง ความเร็ว ความพึงพอใจของผู้ใช้ ความสามารถในการใช้งาน ประสิทธิภาพ และความน่าเชื่อถือ[ 2 ]มาตรการประเมินอาจถูกจัดประเภทได้หลายวิธี รวมถึงแบบออฟไลน์หรือออนไลน์ แบบอิงผู้ใช้หรือแบบอิงระบบ และรวมถึงวิธีการต่างๆ เช่น พฤติกรรมของผู้ใช้ที่สังเกตได้ ชุดทดสอบ ความแม่นยำและการเรียกคืน และคะแนนจากชุดทดสอบมาตรฐานที่เตรียมไว้
การประเมินระบบการค้นหาข้อมูลควรมีการตรวจสอบความถูกต้องของมาตรการที่ใช้ด้วย กล่าวคือ การประเมินว่ามาตรการเหล่านั้นวัดสิ่งที่ตั้งใจจะวัดได้ดีเพียงใด และระบบนั้นเหมาะสมกับกรณีการใช้งานที่ตั้งใจไว้ได้ดีเพียงใด[ 3 ]โดยทั่วไปมาตรการจะใช้ในสองบริบท ได้แก่ การทดลองออนไลน์ ซึ่งประเมินปฏิสัมพันธ์ของผู้ใช้กับระบบค้นหา และการประเมินแบบออฟไลน์ ซึ่งวัดประสิทธิภาพของระบบการค้นหาข้อมูลบนชุดข้อมูลแบบคงที่แบบออฟไลน์
พื้นหลัง
วิธีการจัดทำดัชนีและการจัดหมวดหมู่เพื่อช่วยในการค้นหาข้อมูลมีประวัติอันยาวนานย้อนกลับไปถึงห้องสมุดและแหล่งรวบรวมข้อมูลในยุคแรก การประเมินประสิทธิภาพอย่างเป็นระบบเริ่มขึ้นอย่างจริงจังในช่วงทศวรรษ 1950 เนื่องจากการขยายตัวอย่างรวดเร็วของการผลิตงานวิจัยในด้านการทหาร รัฐบาล และการศึกษา และการนำระบบแคตตาล็อกคอมพิวเตอร์มาใช้ ในเวลานั้น มีระบบการจัดทำดัชนี การจัดหมวดหมู่ และการจัดทำแคตตาล็อกที่แตกต่างกันหลายระบบที่ใช้งานอยู่ ซึ่งมีค่าใช้จ่ายในการผลิตสูง และยังไม่ชัดเจนว่าระบบใดมีประสิทธิภาพมากที่สุด[ 4 ]
Cyril Cleverdonบรรณารักษ์ของวิทยาลัยการบิน Cranfield ประเทศอังกฤษ ได้เริ่มการทดลองชุดหนึ่งเกี่ยวกับดัชนีและการเรียกค้นข้อมูลสิ่งพิมพ์ในสิ่งที่เรียกว่าแบบจำลอง Cranfield หรือการทดสอบ Cranfield ซึ่งกำหนดมาตรฐานสำหรับการวัดผลการประเมิน IR เป็นเวลาหลายปี[ 4 ] Cleverdon ได้พัฒนาการทดสอบที่เรียกว่า 'การค้นหารายการที่รู้จัก' เพื่อตรวจสอบว่าระบบ IR ส่งคืนเอกสารที่ทราบว่ามีความเกี่ยวข้องหรือถูกต้องสำหรับการค้นหาที่กำหนดหรือไม่ การทดลองของ Cleverdon ได้กำหนดแง่มุมสำคัญหลายประการที่จำเป็นสำหรับการประเมิน IR ได้แก่ ชุดทดสอบ ชุดคำถาม และชุดรายการที่เกี่ยวข้องที่กำหนดไว้ล่วงหน้า ซึ่งเมื่อรวมกันแล้วจะกำหนดความแม่นยำและการเรียกคืน
แนวทางของเคลเวอร์ดันเป็นต้นแบบสำหรับ การจัดงาน ประชุมค้นหาข้อความ (Text Retrieval Conference ) ที่ประสบความสำเร็จ ซึ่งเริ่มต้นขึ้นในปี 1992
แอปพลิเคชัน
การประเมินระบบ IR เป็นหัวใจสำคัญของความสำเร็จของเครื่องมือค้นหาใดๆ รวมถึงการค้นหาทางอินเทอร์เน็ต การค้นหาเว็บไซต์ ฐานข้อมูล และแคตตาล็อกห้องสมุด มาตรการประเมินจะถูกนำมาใช้ในการศึกษาพฤติกรรมข้อมูลการทดสอบการใช้งานต้นทุนทางธุรกิจ และการประเมินประสิทธิภาพ การวัดประสิทธิผลของระบบ IR เป็นจุดสนใจหลักของการวิจัย IR โดยอาศัยชุดทดสอบร่วมกับมาตรการประเมิน[ 5 ]มีการจัดการประชุมทางวิชาการหลายรายการที่มุ่งเน้นเฉพาะมาตรการประเมิน ได้แก่ การประชุม Text Retrieval Conference (TREC), Conference and Labs of the Evaluation Forum (CLEF) และ NTCIR
มาตรการออนไลน์
โดยทั่วไปแล้ว ตัวชี้วัดออนไลน์จะสร้างขึ้นจากบันทึกการค้นหา ตัวชี้วัดเหล่านี้มักใช้เพื่อประเมินความสำเร็จของ การ ทดสอบ A/B
อัตราการละทิ้งเซสชัน
อัตราการละทิ้งเซสชัน คือ อัตราส่วนของเซสชันการค้นหาที่ไม่ส่งผลให้เกิดการคลิก
อัตราการคลิกผ่าน
อัตราการคลิกผ่าน (CTR) คืออัตราส่วนของผู้ใช้ที่คลิกลิงก์เฉพาะต่อจำนวนผู้ใช้ทั้งหมดที่ดูหน้าเว็บ อีเมล หรือโฆษณา โดยทั่วไปจะใช้ในการวัดความสำเร็จของ แคมเปญ โฆษณาออนไลน์สำหรับเว็บไซต์ใดเว็บไซต์หนึ่ง รวมถึงประสิทธิภาพของแคมเปญอีเมลด้วย[ 6 ]
อัตราความสำเร็จของเซสชั่น
อัตราความสำเร็จของเซสชันวัดอัตราส่วนของเซสชันผู้ใช้ที่นำไปสู่ความสำเร็จ การกำหนด "ความสำเร็จ" มักขึ้นอยู่กับบริบท แต่สำหรับการค้นหา ผลลัพธ์ที่ประสบความสำเร็จมักวัดโดยใช้เวลาที่ใช้บนหน้าจอเป็นปัจจัยหลัก ควบคู่ไปกับการโต้ตอบของผู้ใช้ในปัจจัยรอง ตัวอย่างเช่น การที่ผู้ใช้คัดลอก URL ของผลลัพธ์ถือเป็นผลลัพธ์ที่ประสบความสำเร็จ เช่นเดียวกับการคัดลอก/วางจากส่วนย่อยของผลการค้นหา
อัตราผลลัพธ์เป็นศูนย์
อัตราผลลัพธ์เป็นศูนย์ ( ZRR ) คืออัตราส่วนของหน้าผลการค้นหาของเครื่องมือค้นหา (SERPs) ที่แสดงผลลัพธ์เป็นศูนย์ ตัวชี้วัดนี้บ่งชี้ถึง ปัญหา การเรียกคืนข้อมูลหรือข้อมูลที่ค้นหาไม่อยู่ในดัชนี
เมตริกแบบออฟไลน์
โดยทั่วไปแล้ว ตัวชี้วัดแบบออฟไลน์จะถูกสร้างขึ้นจากการประเมินความเกี่ยวข้อง ซึ่งผู้ประเมินจะให้คะแนนคุณภาพของผลการค้นหา สามารถใช้มาตราส่วนทั้งแบบไบนารี (เกี่ยวข้อง/ไม่เกี่ยวข้อง) และแบบหลายระดับ (เช่น ความเกี่ยวข้องจาก 0 ถึง 5) เพื่อให้คะแนนเอกสารแต่ละฉบับที่ได้มาจากการค้นหา ในทางปฏิบัติ การค้นหาอาจไม่สมบูรณ์และอาจมีความเกี่ยวข้องในระดับที่แตกต่างกัน ตัวอย่างเช่น มีความกำกวมในการค้นหา "mars": ผู้ประเมินไม่ทราบว่าผู้ใช้กำลังค้นหาดาวอังคารช็อกโกแลต แท่ง Marsนักร้องBruno Marsหรือเทพเจ้า Mars ของโรมัน
ความแม่นยำ
ความแม่นยำ คือ สัดส่วนของเอกสารที่ดึงมาได้ซึ่งเกี่ยวข้องกับความต้องการข้อมูลของผู้ใช้
ในการจำแนกแบบไบนารีความแม่นยำ (Precision) เปรียบได้กับค่าทำนายเชิงบวก (Positive Predictive Value ) ความแม่นยำจะพิจารณาเอกสารทั้งหมดที่ดึงมาได้ นอกจากนี้ยังสามารถประเมินได้โดยพิจารณาเฉพาะผลลัพธ์อันดับต้น ๆ ที่ระบบส่งคืนโดยใช้Precision@kได้อีกด้วย
โปรดทราบว่าความหมายและการใช้งานของ "ความแม่นยำ" ในสาขาการค้นหาข้อมูลนั้นแตกต่างจากคำจำกัดความของความถูกต้องและความแม่นยำในสาขาวิทยาศาสตร์และสถิติ อื่น ๆ
การเรียกคืน
Recall คือสัดส่วนของเอกสารที่เกี่ยวข้องกับคำค้นหาที่ถูกดึงข้อมูลมาได้สำเร็จ
ในการจำแนกประเภทแบบไบนารี ค่า recall มักถูกเรียกว่าsensitivityดังนั้นจึงสามารถมองได้ว่าเป็นความน่าจะเป็นที่เอกสารที่เกี่ยวข้องจะถูกค้นพบโดยคำค้นหา
การทำให้ได้ค่า Recall 100% นั้นเป็นเรื่องง่ายมาก เพียงแค่แสดงเอกสารทั้งหมดที่ได้จากการค้นหาแต่ละครั้ง ดังนั้น ค่า Recall เพียงอย่างเดียวจึงไม่เพียงพอ จำเป็นต้องวัดจำนวนเอกสารที่ไม่เกี่ยวข้องด้วย เช่น โดยการคำนวณค่า Precision
ผลกระทบ
สัดส่วนของเอกสารที่ไม่เกี่ยวข้องที่ถูกค้นพบ จากเอกสารที่ไม่เกี่ยวข้องทั้งหมดที่มีอยู่:
ในการจำแนกแบบไบนารี ความผิดพลาดที่เกิดขึ้น (fall-out) เป็นสิ่งที่ตรงข้ามกับความจำเพาะ (specificity)และมีค่าเท่ากับ 0.5 อาจมองได้ว่าเป็นความน่าจะเป็นที่เอกสารที่ไม่เกี่ยวข้องจะถูกดึงออกมาจากคำค้นหา
การทำให้ผลลัพธ์เป็น 0% โดยการส่งคืนเอกสารเป็นศูนย์ในการตอบสนองต่อการค้นหาใดๆ นั้นเป็นเรื่องง่ายดาย
ค่า F-score / ค่า F-measure
ค่าเฉลี่ยฮาร์มอนิกถ่วงน้ำหนักของความแม่นยำและการเรียกคืน ซึ่งก็คือค่า F-measure แบบดั้งเดิมหรือค่า F-score ที่สมดุล มีดังนี้:
สิ่งนี้เรียกอีกอย่างว่าการวัดผล เนื่องจากค่าการเรียกคืนและความแม่นยำมีน้ำหนักเท่ากัน
สูตรทั่วไปสำหรับจำนวนจริงที่ไม่เป็นลบคือ:
มาตรวัด F ที่ใช้กันทั่วไปอีกสองแบบ ได้แก่มาตรวัดที่ให้น้ำหนักกับค่าการเรียกคืน (recall) เป็นสองเท่าของค่าความแม่นยำ (precision) และมาตรวัดที่ให้น้ำหนักกับค่าความแม่นยำเป็นสองเท่าของค่าการเรียกคืน (recall)
ค่า F-measure ถูกคิดค้นโดยvan Rijsbergen (1979) เพื่อ"วัดประสิทธิภาพของการเรียกคืนข้อมูลเมื่อเทียบกับผู้ใช้ที่ให้ความสำคัญกับการเรียกคืนข้อมูลมากกว่าความแม่นยำ" โดยอิงจากมาตรวัดประสิทธิภาพของ van Rijsbergen ความสัมพันธ์ระหว่างทั้งสองคือ:
- ที่ไหน
เนื่องจากค่า F-measure ผสานข้อมูลจากทั้งค่าความแม่นยำ (precision) และค่าการเรียกคืน (recall) เข้าด้วยกัน จึงเป็นวิธีแสดงประสิทธิภาพโดยรวมโดยไม่ต้องแสดงตัวเลขสองตัวแยกกัน
ความแม่นยำเฉลี่ย
ความแม่นยำและการเรียกคืนเป็นเมตริกค่าเดียวที่อิงตามรายการเอกสารทั้งหมดที่ระบบส่งคืน สำหรับระบบที่ส่งคืนลำดับเอกสารที่จัดอันดับ ควรพิจารณาลำดับที่เอกสารที่ส่งคืนแสดงด้วย การคำนวณความแม่นยำและการเรียกคืนในทุกตำแหน่งในลำดับเอกสารที่จัดอันดับ สามารถสร้างเส้นโค้งความแม่นยำ-การเรียกคืน โดยพล็อตความแม่นยำเป็นฟังก์ชันของการเรียกคืนความแม่นยำเฉลี่ยคำนวณค่าเฉลี่ยของในช่วงเวลาตั้งแต่ถึง: [ 7 ]
นั่นคือพื้นที่ใต้เส้นโค้งความแม่นยำ-การเรียกคืน (precision-recall curve) ในทางปฏิบัติ ค่าอินทิกรัลนี้จะถูกแทนที่ด้วยผลรวมจำกัดของทุกตำแหน่งในลำดับการจัดอันดับของเอกสาร:
โดยที่คือลำดับในลำดับของเอกสารที่ดึงมาคือจำนวนเอกสารที่ดึงมาคือความแม่นยำที่จุดตัดในรายการ และคือการเปลี่ยนแปลงในการเรียกคืนจากรายการไปยัง[ 7 ]
ผลรวมจำกัดนี้เทียบเท่ากับ:
โดยที่ฟังก์ชันตัวบ่งชี้มีค่าเท่ากับ 1 หากรายการที่อันดับนั้นเป็นเอกสารที่เกี่ยวข้อง และมีค่าเท่ากับศูนย์ในกรณีอื่น[ 8 ]โปรดทราบว่าค่าเฉลี่ยจะคำนวณจากเอกสารที่เกี่ยวข้องในเอกสารที่ถูกดึงมา 1,000 รายการ และเอกสารที่เกี่ยวข้องที่ไม่ได้ถูกดึงมาจะได้รับคะแนนความแม่นยำเป็นศูนย์
ผู้เขียนบางคนเลือกที่จะแทรกฟังก์ชันเพื่อลดผลกระทบของ "การแกว่ง" ในเส้นโค้ง[ 9 ] [ 10 ]ตัวอย่างเช่น การแข่งขัน PASCAL Visual Object Classes (เกณฑ์มาตรฐานสำหรับการตรวจจับวัตถุด้วยคอมพิวเตอร์วิชั่น) จนถึงปี 2010 [ 11 ]คำนวณความแม่นยำเฉลี่ยโดยการหาค่าเฉลี่ยของความแม่นยำเหนือชุดระดับการเรียกคืนที่เว้นระยะห่างเท่าๆ กัน {0, 0.1, 0.2, ... 1.0}: [ 9 ] [ 10 ]
โดยที่ค่าความแม่นยำที่ได้จากการประมาณค่าแบบสอดแทรก (interpolated precision) จะใช้ค่าความแม่นยำสูงสุดเหนือค่าการเรียกคืน (recall) ทั้งหมดที่มากกว่า:
- .
ทางเลือกอื่นคือการหาฟังก์ชันวิเคราะห์โดยการสมมติการแจกแจงพารามิเตอร์เฉพาะสำหรับค่าการตัดสินใจพื้นฐาน ตัวอย่างเช่นเส้นโค้งความแม่นยำ-การเรียกคืนแบบไบนอร์มอลสามารถหาได้โดยการสมมติว่าค่าการตัดสินใจในทั้งสองคลาสเป็นไปตามการแจกแจงแบบเกาส์เซียน[ 12 ]
ค่า AveP ต่ำสุดที่สามารถทำได้สำหรับงานจำแนกประเภทที่กำหนดนั้นคำนวณได้จากสูตร:
ความแม่นยำที่ k
สำหรับการค้นหาข้อมูลสมัยใหม่ (ระดับเว็บ) ค่า recall ไม่ถือเป็นตัวชี้วัดที่มีความหมายอีกต่อไป เนื่องจากคำค้นหาจำนวนมากมีเอกสารที่เกี่ยวข้องหลายพันฉบับ และมีผู้ใช้เพียงไม่กี่รายที่สนใจจะอ่านเอกสารทั้งหมดค่า precisionที่ k เอกสาร (P@k) ยังคงเป็นตัวชี้วัดที่มีประโยชน์ (เช่น P@10 หรือ "Precision at 10" สอดคล้องกับจำนวนผลลัพธ์ที่เกี่ยวข้องใน 10 เอกสารแรกที่ค้นหาได้) แต่ไม่สามารถคำนึงถึงตำแหน่งของเอกสารที่เกี่ยวข้องใน k อันดับแรกได้[ 14 ] ข้อเสียอีกประการหนึ่งคือ ในการค้นหาที่มีผลลัพธ์ที่เกี่ยวข้องน้อยกว่า k แม้แต่ระบบที่สมบูรณ์แบบก็จะมีคะแนนน้อยกว่า 1 [ 15 ] การให้คะแนนด้วยตนเองทำได้ง่ายกว่า เนื่องจากต้องตรวจสอบเฉพาะผลลัพธ์ k อันดับแรกเท่านั้นเพื่อพิจารณาว่าเกี่ยวข้องหรือไม่
ความแม่นยำ R
ความแม่นยำของ R จำเป็นต้องทราบเอกสารทั้งหมดที่เกี่ยวข้องกับคำค้นหา จำนวนเอกสารที่เกี่ยวข้องจะถูกใช้เป็นเกณฑ์ในการคำนวณ และจะแตกต่างกันไปตามคำค้นหา ตัวอย่างเช่น หากมีเอกสาร 15 ฉบับที่เกี่ยวข้องกับ "สีแดง" ในคลังข้อมูล (R=15) ความแม่นยำของ R สำหรับ "สีแดง" จะพิจารณาเอกสาร 15 ฉบับแรกที่ส่งคืน นับจำนวนเอกสารที่เกี่ยวข้องและแปลงเป็นเศษส่วนความเกี่ยวข้อง: [ 16 ]
โปรดทราบว่า R-Precision เทียบเท่ากับทั้งความแม่นยำที่ตำแหน่งที่ -th (P@ ) และการเรียกคืนที่ตำแหน่งที่ -th [ 15 ]
จากประสบการณ์ มาตรการนี้มักมีความสัมพันธ์สูงกับความแม่นยำเฉลี่ย[ 15 ]
ความแม่นยำเฉลี่ย
ค่าความแม่นยำเฉลี่ย (MAP) สำหรับชุดคำค้นหา คือ ค่าเฉลี่ยของ คะแนน ความแม่นยำเฉลี่ยของแต่ละคำค้นหา
โดยที่Qคือจำนวนคำถาม
กำไรสะสมที่ลดลง
DCG ใช้มาตราส่วนความเกี่ยวข้องแบบแบ่งระดับของเอกสารจากชุดผลลัพธ์เพื่อประเมินประโยชน์หรือผลกำไรของเอกสารโดยพิจารณาจากตำแหน่งในรายการผลลัพธ์ สมมติฐานของ DCG คือเอกสารที่มีความเกี่ยวข้องสูงซึ่งปรากฏอยู่ในลำดับที่ต่ำกว่าในรายการผลการค้นหาควรถูกลงโทษเนื่องจากค่าความเกี่ยวข้องแบบแบ่งระดับจะลดลงตามสัดส่วนลอการิทึมของตำแหน่งผลลัพธ์[ 17 ]
ค่า DCG ที่สะสม ณ ตำแหน่งลำดับใดลำดับหนึ่งนั้น กำหนดโดย:
เนื่องจากชุดผลลัพธ์อาจมีขนาดแตกต่างกันไปในแต่ละแบบสอบถามหรือระบบ เพื่อเปรียบเทียบประสิทธิภาพ เวอร์ชันมาตรฐานของ DCG จึงใช้ DCG ในอุดมคติ โดยจะเรียงลำดับเอกสารในรายการผลลัพธ์ตามความเกี่ยวข้อง สร้าง DCG ในอุดมคติที่ตำแหน่ง p ( ) ซึ่งจะทำให้คะแนนเป็นมาตรฐาน:
ค่า nDCG สำหรับการค้นหาทั้งหมดสามารถหาค่าเฉลี่ยเพื่อวัดประสิทธิภาพเฉลี่ยของอัลกอริทึมการจัดอันดับ โปรดทราบว่าในอัลกอริทึมการจัดอันดับที่สมบูรณ์แบบ ค่า nDCG จะเท่ากับค่า nDCG ที่สร้างเป็น 1.0 การคำนวณ nDCG ทั้งหมดจึงเป็นค่าสัมพัทธ์ในช่วง 0.0 ถึง 1.0 และสามารถเปรียบเทียบข้ามการค้นหาได้[ 18 ]
มาตรการอื่นๆ
- อันดับผกผันเฉลี่ย
- bpref - การวัดผลรวมของจำนวนเอกสารที่เกี่ยวข้องที่ได้รับการจัดอันดับก่อนเอกสารที่ไม่เกี่ยวข้อง[ 16 ]
- GMAP - ค่าเฉลี่ยเรขาคณิตของความแม่นยำเฉลี่ย (ต่อหัวข้อ) [ 16 ]
- มาตรการที่อิงตามความเกี่ยวข้องเพียงเล็กน้อยและความหลากหลายของเอกสาร - ดูความเกี่ยวข้อง (การค้นหาข้อมูล) § ปัญหาและทางเลือก
- มาตรการทั้งความเกี่ยวข้องและความน่าเชื่อถือ (สำหรับข่าวปลอมในผลการค้นหา) [ 19 ]
- อัตราความสำเร็จ
การแสดงภาพ
ภาพแสดงประสิทธิภาพการค้นหาข้อมูลประกอบด้วย:
- กราฟที่แสดงความแม่นยำบนแกนหนึ่งและการเรียกคืนบนอีกแกนหนึ่ง[ 16 ]
- ฮิสโตแกรมของความแม่นยำเฉลี่ยในหัวข้อต่างๆ[ 16 ]
- เส้นโค้ง ลักษณะการทำงานของผู้รับ (ROC curve)
- เมทริกซ์ความสับสน
มาตรการที่ไม่เกี่ยวข้อง
จำนวนการสอบถามต่อครั้ง
การวัดจำนวนการค้นหาที่เกิดขึ้นในระบบค้นหาต่อ (เดือน/วัน/ชั่วโมง/นาที/วินาที) ช่วยติดตามการใช้งานระบบค้นหา สามารถนำไปใช้ในการวินิจฉัยเพื่อระบุการเพิ่มขึ้นอย่างผิดปกติของการค้นหา หรือใช้เป็นค่าพื้นฐานเมื่อเปรียบเทียบกับตัวชี้วัดอื่นๆ เช่น เวลาในการตอบสนองของการค้นหา ตัวอย่างเช่น การเพิ่มขึ้นอย่างผิดปกติของปริมาณการค้นหา อาจใช้เพื่ออธิบายการเพิ่มขึ้นของเวลาในการตอบสนองของการค้นหาได้
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ มาตรการประเมินผล (การค้นหาข้อมูล)
มาตรวัดการประเมินผล สำหรับ ระบบ การค้นหาข้อมูล (IR) จะประเมินว่าดัชนี เครื่องมือค้นหา หรือฐานข้อมูลนั้นสามารถส่งคืนผลลัพธ์จากชุดทรัพยากรที่ตรงกับคำค้นหาของผู้ใช้ได้ดีเพียงใด...
พื้นหลัง
วิธีการจัดทำดัชนีและการจัดหมวดหมู่เพื่อช่วยในการค้นหาข้อมูลมีประวัติอันยาวนานย้อนกลับไปถึงห้องสมุดและแหล่งรวบรวมข้อมูลในยุคแรก การประเมินประสิทธิภาพอย่างเป็นระบบเริ่มขึ้นอย่างจริงจังในช่วงทศวรรษ 1950...
แอปพลิเคชัน
การประเมินระบบ IR เป็นหัวใจสำคัญของความสำเร็จของเครื่องมือค้นหาใดๆ รวมถึงการค้นหาทางอินเทอร์เน็ต การค้นหาเว็บไซต์ ฐานข้อมูล และแคตตาล็อกห้องสมุด มาตรการประเมินจะถูกนำมาใช้ในการศึกษา พฤติกรรมข้อมูล การ ทดสอบการใช้งาน ต้นทุนทางธุรกิจ และการประเมินประสิทธิภาพ...
มาตรการออนไลน์
โดยทั่วไปแล้ว ตัวชี้วัดออนไลน์จะสร้างขึ้นจากบันทึกการค้นหา ตัวชี้วัดเหล่านี้มักใช้เพื่อประเมินความสำเร็จของ การ ทดสอบ A/B