การประเมินตัวจำแนกไบนารี

Q: ข้อมูลสำคัญเกี่ยวกับ การประเมินตัวจำแนกไบนารี

โดยทั่วไป การประเมิน ตัวจำแนกแบบไบนารี จะกำหนดค่าตัวเลขให้กับตัวจำแนกนั้น เพื่อแสดงถึงความแม่นยำ ตัวอย่างเช่น อัตราความผิดพลาด ซึ่งวัดว่าตัวจำแนกทำผิดพลาดบ่อยแค่ไหน

Q: ความไวและความจำเพาะ

สถิติพื้นฐานที่ไม่ขึ้นอยู่กับอัตราการแพร่ระบาด ได้แก่ ความไวและความ จำเพาะ

จากเมทริกซ์ความสับสนคุณสามารถอนุมานค่าพื้นฐานได้สี่ค่า

โดยทั่วไป การประเมินตัวจำแนกแบบไบนารีจะกำหนดค่าตัวเลขให้กับตัวจำแนกนั้น เพื่อแสดงถึงความแม่นยำ ตัวอย่างเช่น อัตราความผิดพลาด ซึ่งวัดว่าตัวจำแนกทำผิดพลาดบ่อยแค่ไหน

มีตัวชี้วัดหลายอย่างที่สามารถนำมาใช้ได้ โดยแต่ละสาขาจะมีตัวชี้วัดที่นิยมใช้แตกต่างกัน ตัวอย่างเช่น ในทางการแพทย์ มักใช้ ค่าความไว (sensitivity) และค่าความจำเพาะ (specificity)ในขณะที่ในวิทยาศาสตร์คอมพิวเตอร์นิยมใช้ ค่าความแม่นยำ (precision) และค่าการเรียกคืน (recall) มากกว่า

ข้อแตกต่างที่สำคัญคือระหว่างตัวชี้วัดที่ไม่ขึ้นอยู่กับความชุกหรือความเบี่ยงเบน (ความถี่ที่แต่ละกลุ่มปรากฏในประชากร) และตัวชี้วัดที่ขึ้นอยู่กับความชุก – ทั้งสองประเภทมีประโยชน์ แต่มีคุณสมบัติที่แตกต่างกันมาก

โดยทั่วไป การประเมินผลมักใช้เพื่อเปรียบเทียบวิธีการจำแนกประเภทสองวิธี เพื่อที่จะเลือกใช้วิธีหนึ่งและละทิ้งอีกวิธีหนึ่ง การเปรียบเทียบดังกล่าวจะทำได้โดยตรงมากขึ้นด้วยรูปแบบการประเมินผลที่ให้ผลลัพธ์เป็นตัวชี้วัด เดียว แทนที่จะเป็นตัว ชี้วัดสองตัว

ตารางความน่าจะเป็น

เมื่อมีชุดข้อมูล การจำแนกประเภท (ผลลัพธ์ของตัวจำแนกประเภทบนชุดข้อมูลนั้น) จะให้ตัวเลขสองตัว คือ จำนวนบวกและจำนวนลบ ซึ่งรวมกันแล้วจะได้ขนาดทั้งหมดของชุดข้อมูล ในการประเมินตัวจำแนกประเภท เราจะเปรียบเทียบผลลัพธ์ของตัวจำแนกประเภทกับผลการจำแนกประเภทอ้างอิงอื่น – ในอุดมคติคือการจำแนกประเภทที่สมบูรณ์แบบ แต่ในทางปฏิบัติคือผลลัพธ์ของ การทดสอบ มาตรฐาน อื่น – และสร้างตารางไขว้ข้อมูลลงในตารางความสัมพันธ์ 2×2 โดยเปรียบเทียบการจำแนกประเภททั้งสอง จากนั้นเราจะประเมินตัวจำแนกประเภทเทียบกับมาตรฐานโดยการคำนวณสถิติสรุปของตัวเลขทั้ง 4 ตัวนี้ โดยทั่วไปแล้ว สถิติเหล่านี้จะไม่ขึ้นอยู่กับขนาด (การปรับขนาดตัวเลขทั้งหมดด้วยตัวประกอบเดียวกันจะไม่เปลี่ยนแปลงผลลัพธ์) เพื่อให้เป็นอิสระจากขนาดประชากร ซึ่งทำได้โดยการใช้สัดส่วนของฟังก์ชันเอกพันธุ์โดยที่ง่ายที่สุดคือ ฟังก์ชัน เชิงเส้นเอกพันธุ์หรือฟังก์ชัน กำลังสองเอกพันธุ์

สมมติว่าเราทำการทดสอบคนกลุ่มหนึ่งเพื่อหาเชื้อโรค บางคนเป็นโรค และผลการทดสอบก็บอกถูกต้องว่าติดเชื้อ พวกเขาเรียกว่า ผลบวกจริง (True Positivesหรือ TP) บางคนเป็นโรค แต่ผลการทดสอบกลับบอกผิดว่าไม่เป็นโรค พวกเขาเรียกว่าผลลบเท็จ (False Negatives หรือ FN) บางคนไม่เป็นโรค และผลการทดสอบก็บอกว่าไม่เป็นโรค – เรียกว่าผลลบจริง (True Negatives หรือ TN) สุดท้าย อาจมีคนที่มีสุขภาพดีแต่ผลการทดสอบเป็นบวก – เรียกว่า ผลบวกเท็จ ( False Positivesหรือ FP) เราสามารถจัดเรียงข้อมูลเหล่านี้ลงในตารางความสัมพันธ์ 2x2 ( เมทริกซ์ความสับสน ) โดยทั่วไปแล้ว ผลการทดสอบจะอยู่บนแกนตั้ง และสภาพที่เป็นจริงจะอยู่บนแกนนอน

จากนั้นสามารถนำตัวเลขเหล่านี้มารวมกันได้ ซึ่งจะได้ผลรวมทั้งหมดและผลรวมย่อยเมื่อรวมทั้งตาราง จำนวนผลบวกจริง ผลลบเท็จ ผลลบจริง และผลบวกเท็จ จะรวมกันได้ 100% ของชุดข้อมูล เมื่อรวมคอลัมน์ (บวกในแนวตั้ง) จำนวนผลบวกจริงและผลบวกเท็จจะรวมกันได้ 100% ของผลบวกในการทดสอบ และเช่นเดียวกันสำหรับผลลบ เมื่อรวมแถว (บวกในแนวนอน) จำนวนผลบวกจริงและผลลบเท็จจะรวมกันได้ 100% ของผลบวกในเงื่อนไข (ในทางกลับกันสำหรับผลลบ) สถิติอัตราส่วนย่อยพื้นฐานได้มาจากการหารค่า 2×2=4 ในตารางด้วยผลรวมย่อย (ทั้งแถวหรือคอลัมน์) ซึ่งจะได้ตารางเสริม 2×2 อีก 2 ตาราง รวมเป็นอัตราส่วนทั้งหมด 8 อัตราส่วน อัตราส่วนเหล่านี้มี 4 คู่ที่เสริมกัน โดยแต่ละคู่รวมกันได้เท่ากับ 1 ดังนั้นตาราง 2x2 ที่ได้มาแต่ละตารางจึงสามารถสรุปได้เป็นคู่ของตัวเลข 2 ตัว พร้อมกับส่วนเติมเต็มของตัวเลขเหล่านั้น สถิติเพิ่มเติมสามารถหาได้โดยการหาอัตราส่วนของอัตราส่วนเหล่านี้ อัตราส่วนของอัตราส่วน หรือฟังก์ชันที่ซับซ้อนกว่านั้น

ตารางความน่าจะเป็นและอัตราส่วนที่ได้มาซึ่งใช้กันทั่วไปนั้นสรุปไว้ด้านล่าง โปรดดูรายละเอียดเพิ่มเติมในส่วนถัดไป

		สภาวะที่คาดการณ์ไว้		^{แหล่งที่มา:}^{[ 1 ]}^{[ 2 ]}^{[ 3 ]}^{[ 4 ]}^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}^{[ 8 ]}^{ดู พูดคุย แก้ไข}
	จำนวนประชากรทั้งหมด $= P + N$	คาดการณ์ผลเป็นบวก	คาดการณ์ผลลบ	ความรู้ความเข้าใจ ของ เจ้ามือรับ แทง(BM) $= TPR + TNR - 1$	เกณฑ์ความชุก (PT) $= ⁠ \sqrt TPR \times FPR - FPR / ทีพีอาร์ - เอฟพีอาร์ ⁠$
สภาพจริง	ผลบวกจริง (P) ^{[ a ]}	ผลบวกจริง (TP),ตรวจพบ^{[ b ]}	ผลลบเท็จ (FN), การวินิจฉัยผิด พลาด, การประเมินต่ำเกินไป	อัตราผลบวกจริง (TPR), ความจำเพาะ ( SEN), ความน่าจะเป็นของการตรวจจับ, อัตราการตรวจจับ, กำลัง $=$ $⁠$ $ทีพี / พี =$ $1 - FNR$	อัตราผลลบเท็จ (FNR) อัตราความผิดพลาดประเภท II ^{[ c ]} $= ⁠ เอฟเอ็น / พี =$ $1 - TPR$
สภาพจริง	จริงเชิงลบ (N) ^{[ d ]}	ผลบวกเท็จ (FP),สัญญาณเตือนผิดพลาด, การประเมินค่าสูงเกินไป	ผลลบจริง (TN)การปฏิเสธที่ถูกต้อง^{[ e ]}	อัตราผลบวกเท็จ (FPR) ความน่าจะเป็นของสัญญาณเตือนที่ผิดพลาด ข้อผิด พลาดประเภทที่ 1 ^{[ f ]} $= ⁠ เอฟพี / เอ็น =$ $1 - TNR$	อัตราผลลบที่ถูกต้อง (TNR), ความจำเพาะ (SPC), การเลือกสรร $= ⁠ TN / เอ็น =$ $1 - FPR$
	อัตราการแพร่ $ระบาด$ $= พี / พี + เอ็น ⁠$	ค่าการทำนายเชิงบวก (PPV) ความแม่นยำ $= ⁠ ทีพี / TP + FP =$ $1 - FDR$	อัตราการละเว้นที่ผิดพลาด (FOR) $= ⁠ เอฟเอ็น / TN + FN =$ $1 - NPV$	อัตราส่วนความน่าจะเป็นเชิงบวก (LR+) $= ⁠ ทีพีอาร์ / เอฟพีอาร์ ⁠$	อัตราส่วนความน่าจะเป็นเชิงลบ (LR−) $= ⁠ เอฟอาร์อาร์ / ทีเอ็นอาร์ ⁠$
	ความแม่นยำ (ACC) $= ⁠ TP + TN / พี + เอ็น ⁠$	อัตราการค้นพบที่ผิดพลาด (FDR) $= ⁠ เอฟพี / TP + FP =$ $1 - PPV$	ค่าทำนายเชิงลบ (NPV) $= ⁠ TN / TN + FN =$ $1 - สำหรับ$	ความโดดเด่น (MK), เดลต้าพี (Δp) $= PPV + NPV - 1$	อัตราส่วนความน่าจะเป็น ในการวินิจฉัย (DOR) $= ⁠ LR+ / LR- =$ $ TP \times TN / FP \times FN ⁠$
	ความแม่นยำที่สมดุล (BA) $= ⁠ ทีพีอาร์ + ทีเอ็นอาร์ / 2 ⁠$	คะแนนF ₁ $= ⁠ 2 PPV \times TPR / PPV + TPR =$ $ 2 TP / 2 TP + FP + FN ⁠$	ดัชนีฟาวล์เคส-มัลโลว์ (FM) $= \sqrt PPV \times TPR$	phiหรือสัมประสิทธิ์สหสัมพันธ์ของ Matthews (MCC) $= \sqrt TPR \times TNR \times PPV \times NPV$ $- \sqrt FNR \times FPR \times FOR \times FDR$	คะแนนภัยคุกคาม (TS), ดัชนีความสำเร็จที่สำคัญ (CSI), ดัชนี Jaccard $= ⁠ ทีพี / TP + FN + FP ⁠$

^จำนวนผู้ป่วยจริงที่มีผลตรวจเป็นบวกในข้อมูล
ผลการทดสอบที่บ่งชี้ถึงการมีอยู่ของสภาวะหรือลักษณะเฉพาะได้อย่างถูกต้อง
^ข้อผิดพลาดประเภทที่ 2: ผลการทดสอบที่ระบุผิดพลาดว่าเงื่อนไขหรือคุณลักษณะเฉพาะนั้นไม่มีอยู่
^จำนวนกรณีลบจริงในข้อมูล
^ผลการทดสอบที่บ่งชี้อย่างถูกต้องว่าไม่มีภาวะหรือลักษณะดังกล่าว
^ข้อผิดพลาดประเภทที่ 1: ผลการทดสอบที่ระบุผิดพลาดว่ามีเงื่อนไขหรือคุณลักษณะเฉพาะอย่างใดอย่างหนึ่งอยู่

โปรดสังเกตว่าแถวต่างๆ สอดคล้องกับสภาวะที่เป็นบวกหรือลบ (หรือถูกจัดประเภทเช่นนั้นโดยมาตรฐานอ้างอิง) ตามที่ระบุโดยการกำหนดรหัสสี และสถิติที่เกี่ยวข้องจะไม่ขึ้นอยู่กับอัตราการแพร่ระบาด ในขณะที่คอลัมน์ต่างๆ สอดคล้องกับการทดสอบที่เป็นบวกหรือลบ และสถิติที่เกี่ยวข้องจะขึ้นอยู่กับอัตราการแพร่ระบาด มีอัตราส่วนความน่าจะเป็นที่คล้ายกันสำหรับค่าการทำนาย แต่ไม่ค่อยได้ใช้ และไม่ได้แสดงไว้ข้างต้น

คู่ของตัวชี้วัด

โดยทั่วไป ความแม่นยำจะถูกประเมินด้วยตัวชี้วัดสองตัวที่จัดเรียงตามรูปแบบมาตรฐาน

ความไวและความจำเพาะ

สถิติพื้นฐานที่ไม่ขึ้นอยู่กับอัตราการแพร่ระบาด ได้แก่ความไวและความจำเพาะ

ความไวหรืออัตราการตรวจพบผลบวกที่แท้จริง (TPR) หรือที่เรียกว่าอัตราการเรียกคืนคือสัดส่วนของผู้ที่ได้รับการทดสอบแล้วได้ผลบวก (ผลบวกที่แท้จริง, TP) จากจำนวนผู้ที่ติดเชื้อจริงทั้งหมด (ภาวะติดเชื้อ, CP = TP + ผลลบที่แท้จริง) อาจมองได้ว่าเป็นความน่าจะเป็นที่การทดสอบจะให้ผลบวกเมื่อพิจารณาว่าผู้ป่วยป่วยยิ่งความไวสูงขึ้น จำนวนผู้ป่วยที่ไม่ได้รับการตรวจพบก็จะยิ่งน้อยลง (หรือในกรณีของการควบคุมคุณภาพในโรงงาน จำนวนผลิตภัณฑ์ที่บกพร่องที่จะออกสู่ตลาดก็จะยิ่งน้อยลง)

ความจำเพาะ (Specificity, SPC) หรืออัตราผลลบที่แท้จริง (True Negative Rate, TNR) คือสัดส่วนของคนที่ตรวจแล้วได้ผลลบ (ผลลบที่แท้จริง, TN) ต่อจำนวนคนทั้งหมดที่ได้ผลลบจริง ๆ (สภาวะเป็นลบ, CN = TN + FP) เช่นเดียวกับความไว (Sensitivity) สามารถมองได้ว่าเป็นความน่าจะเป็นที่ผลการตรวจจะเป็นลบเมื่อพิจารณาว่าผู้ป่วยไม่ได้ป่วยยิ่งความจำเพาะสูงเท่าไร จำนวนคนที่มีสุขภาพดีที่ถูกระบุว่าป่วยก็จะยิ่งน้อยลง (หรือในกรณีของโรงงาน ก็คือจำนวนผลิตภัณฑ์ที่ดีที่ถูกทิ้งก็จะยิ่งน้อยลง)

ความสัมพันธ์ระหว่างความไวและความจำเพาะ รวมถึงประสิทธิภาพของตัวจำแนก สามารถมองเห็นและศึกษาได้โดยใช้ เส้นโค้ง ลักษณะการทำงานของผู้รับ (ROC)

ในทางทฤษฎี ความไวและความจำเพาะเป็นอิสระต่อกันในแง่ที่ว่าสามารถบรรลุ 100% ได้ทั้งสองด้าน (เช่นในตัวอย่างลูกบอลสีแดง/น้ำเงินที่กล่าวถึงข้างต้น) อย่างไรก็ตาม ในทางปฏิบัติที่ง่ายกว่าและไม่ซับซ้อน มักจะมีการแลกเปลี่ยนกัน โดยที่ทั้งสองอย่างแปรผกผันกันในระดับหนึ่ง นี่เป็นเพราะเราแทบจะไม่วัดสิ่งที่เราต้องการจำแนกประเภทโดยตรง แต่เรามักจะวัดตัวบ่งชี้ของสิ่งที่เราต้องการจำแนกประเภท ซึ่งเรียกว่าตัวบ่งชี้ทดแทนเหตุผลที่สามารถบรรลุ 100% ได้ในตัวอย่างลูกบอลนั้นเป็นเพราะความแดงและความน้ำเงินถูกกำหนดโดยการตรวจจับความแดงและความน้ำเงินโดยตรง อย่างไรก็ตาม ตัวบ่งชี้บางครั้งอาจมีข้อบกพร่อง เช่น เมื่อสิ่งที่ไม่ใช่ตัวบ่งชี้เลียนแบบตัวบ่งชี้ หรือเมื่อตัวบ่งชี้ขึ้นอยู่กับเวลา โดยจะปรากฏให้เห็นหลังจากช่วงเวลาล่าช้าที่กำหนด ตัวอย่างต่อไปนี้เกี่ยวกับการทดสอบการตั้งครรภ์จะใช้ตัวบ่งชี้ดังกล่าว

การตรวจการตั้งครรภ์สมัยใหม่ไม่ได้ใช้การตั้งครรภ์จริงเป็นตัวบ่งชี้สถานะการตั้งครรภ์ แต่ใช้ฮอร์โมนฮิวแมนคอริโอนิกโกนาโด โทรปิน (hCG) ซึ่งพบในปัสสาวะของ หญิงตั้งครรภ์ เป็น ตัวบ่งชี้ทางอ้อมว่าผู้หญิงคนนั้นตั้งครรภ์หรือไม่ เนื่องจาก hCG สามารถผลิตได้จากเนื้องอกด้วย ความจำเพาะของการตรวจการตั้งครรภ์สมัยใหม่จึงไม่สามารถเป็น 100% ได้ (เพราะอาจมีผลบวกปลอม) นอกจากนี้ เนื่องจาก hCG พบในปัสสาวะในปริมาณน้อยมากหลังจากการปฏิสนธิและการเจริญเติบโตของตัว อ่อนในระยะแรก ความไวของการตรวจการตั้งครรภ์สมัยใหม่จึงไม่สามารถเป็น 100% ได้ (เพราะอาจมีผลลบปลอม)

ค่าการทำนายเชิงบวกและเชิงลบ

นอกเหนือจากความไวและความจำเพาะแล้ว ประสิทธิภาพของการทดสอบการจำแนกแบบไบนารีสามารถวัดได้ด้วยค่าการทำนายเชิงบวก (PPV) หรือที่รู้จักกันในชื่อความแม่นยำและค่าการทำนายเชิงลบ (NPV) ค่าการทำนายเชิงบวกตอบคำถามว่า "ถ้าผลการทดสอบเป็นบวก จะ สามารถทำนายการ มีอยู่ของโรคได้จริง ดีแค่ไหน" โดยคำนวณจาก TP/(TP + FP) นั่นคือ สัดส่วนของผลบวกที่แท้จริงจากผลบวกทั้งหมด ค่าการทำนายเชิงลบก็เช่นเดียวกัน แต่สำหรับผลลบ

ผลกระทบของอัตราการแพร่ระบาดต่อค่าการทำนาย

อัตราการแพร่ระบาดมีผลกระทบอย่างมากต่อค่าการทำนาย ยกตัวอย่างเช่น สมมติว่ามีการทดสอบโรคที่มีความไว 99% และความจำเพาะ 99% ถ้าทำการทดสอบคน 2000 คน และอัตราการแพร่ระบาด (ในกลุ่มตัวอย่าง) คือ 50% นั่นหมายความว่า 1000 คนป่วย และ 1000 คนสุขภาพดี ดังนั้นจึงมีโอกาสเกิดผลบวกจริงประมาณ 990 ราย และผลลบจริงประมาณ 990 ราย โดยมีผลบวกเท็จ 10 ราย และผลลบเท็จ 10 ราย ค่าการทำนายผลบวกและผลลบจะเท่ากับ 99% ดังนั้นจึงมีความมั่นใจในผลลัพธ์สูง

อย่างไรก็ตาม หากอัตราการแพร่ระบาดอยู่ที่เพียง 5% กล่าวคือจากประชากร 2,000 คน มีเพียง 100 คนเท่านั้นที่ป่วยจริง ค่าการทำนายก็จะเปลี่ยนแปลงไปอย่างมาก ผลลัพธ์ที่น่าจะเป็นไปได้คือ ผลบวกจริง 99 ราย ผลลบเท็จ 1 ราย ผลลบจริง 1,881 ราย และผลบวกเท็จ 19 ราย จากผู้ป่วย 19+99 รายที่ตรวจพบผลบวก มีเพียง 99 รายเท่านั้นที่ป่วยเป็นโรคจริง นั่นหมายความว่า โดยสัญชาตญาณแล้ว หากผลการตรวจของผู้ป่วยเป็นบวก โอกาสที่ผู้ป่วยจะป่วยเป็นโรคจริงมีเพียง 84% ในทางกลับกัน หากผลการตรวจของผู้ป่วยเป็นลบ โอกาสที่ผู้ป่วยจะป่วยเป็นโรคจริงมีเพียง 1 ใน 1,882 หรือ 0.05% เท่านั้น

ความแม่นยำและการเรียกคืน

ความแม่นยำและการเรียกคืนสามารถตีความได้ว่าเป็นความน่าจะเป็นแบบมีเงื่อนไข (โดยประมาณ): ความแม่นยำกำหนดโดยในขณะที่การเรียกคืนกำหนดโดย[ ⁹^]^โดยที่คือคลาสที่ทำนาย และคือคลาสจริง ปริมาณทั้งสองจึงเชื่อมโยงกันด้วยทฤษฎีบทของเบย์ส $P(C=P|{\หมวก {C}}=P)$ $P({\hat {C}}=P|C=P)$ ${\hat {C}}$ $C$

ความสัมพันธ์

อัตราส่วนเหล่านี้มีความสัมพันธ์กันหลายรูปแบบ

หากทราบอัตราการแพร่ระบาด ความไว และความจำเพาะแล้ว ค่าการทำนายผลบวกสามารถหาได้จากสูตรต่อไปนี้:

{\text{PPV}}={\frac {({\text{ความไว}})({\text{ความชุก}})}{({\text{ความไว}})({\text{ความชุก}})+(1-{\text{ความจำเพาะ}})(1-{\text{ความชุก}})}}

หากทราบอัตราการแพร่ระบาด ความไว และความจำเพาะแล้ว ค่าการทำนายเชิงลบสามารถหาได้จากสูตรต่อไปนี้:

{\text{NPV}}={\frac {({\text{specificity}})(1-{\text{prevalence}})}{({\text{specificity}})(1-{\text{prevalence}})+(1-{\text{sensitivity}})({\text{prevalence}})}}.

เมตริกแบบเอกภาพ

นอกเหนือจากตัวชี้วัดแบบคู่แล้ว ยังมีตัวชี้วัดแบบเอกภาพซึ่งให้ค่าตัวเลขเพียงค่าเดียวเพื่อใช้ประเมินผลการทดสอบอีกด้วย

สถิติที่ง่ายที่สุดอาจเป็นความแม่นยำหรือสัดส่วนที่ถูกต้อง (FC) ซึ่งวัดสัดส่วนของกรณีทั้งหมดที่ถูกจัดประเภทอย่างถูกต้อง มันคืออัตราส่วนของจำนวนการจำแนกประเภทที่ถูกต้องต่อจำนวนการจำแนกประเภทที่ถูกต้องหรือไม่ถูกต้องทั้งหมด: (TP + TN)/ประชากรทั้งหมด = (TP + TN)/(TP + TN + FP + FN) ดังนั้นจึงเป็นการเปรียบเทียบการประมาณค่าความน่าจะเป็นก่อนและหลังการทดสอบในกรณีที่ไม่รู้เรื่องเลย เราอาจเปรียบเทียบกฎกับการโยนเหรียญ (p0=0.5) การวัดนี้ ขึ้นอยู่กับ ความชุกหาก 90% ของผู้ที่มีอาการของ COVID ไม่ติดเชื้อ COVID ความน่าจะเป็นก่อนหน้า P(-) คือ 0.9 และกฎง่ายๆ "จำแนกผู้ป่วยทั้งหมดดังกล่าวว่าไม่ติดเชื้อ COVID" จะมีความแม่นยำ 90% การวินิจฉัยควรจะดีกว่านั้น เราสามารถสร้าง"การทดสอบ z แบบสัดส่วนเดียว"โดยใช้ p0 เป็น max(priors) = max(P(-),P(+)) สำหรับวิธีการวินิจฉัยที่หวังว่าจะเอาชนะกฎง่ายๆ โดยใช้ผลลัพธ์ที่น่าจะเป็นไปได้มากที่สุด ในที่นี้ สมมติฐานคือ "Ho: p ≤ 0.9 เทียบกับ Ha: p > 0.9" โดยปฏิเสธ Ho สำหรับค่า z ที่มีขนาดใหญ่ กฎการวินิจฉัยหนึ่งสามารถเปรียบเทียบกับอีกกฎหนึ่งได้ หากทราบความแม่นยำของอีกกฎหนึ่งและนำค่า p0 มาใช้แทนในการคำนวณค่าสถิติ z หากไม่ทราบและคำนวณจากข้อมูล การทดสอบเปรียบเทียบความแม่นยำสามารถทำได้โดยใช้"การทดสอบ z สองสัดส่วน โดยรวมสำหรับ Ho: p1 = p2 "

สถิติเสริมที่ใช้กันไม่บ่อยนักคือ สัดส่วนความคลาดเคลื่อน (FiC): FC + FiC = 1 หรือ (FP + FN)/(TP + TN + FP + FN) – ซึ่งก็คือผลรวมของค่าในแนวทแยงมุมตรงข้าม หารด้วยจำนวนประชากรทั้งหมด สัดส่วนความคลาดเคลื่อนถ่วงน้ำหนักด้วยต้นทุนสามารถใช้เปรียบเทียบ ต้นทุน ที่คาดว่าจะเกิดขึ้นจากการจำแนกประเภทผิดพลาดของวิธีการต่างๆ ได้

อัตราส่วนความน่าจะเป็นในการวินิจฉัย (DOR) อาจเป็นตัวชี้วัดโดยรวมที่มีประโยชน์มากกว่า ซึ่งสามารถกำหนดได้โดยตรงเป็น (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) หรือโดยอ้อมเป็นอัตราส่วนของอัตราส่วนของอัตราส่วน (อัตราส่วนของอัตราส่วนความน่าจะเป็น ซึ่งเป็นอัตราส่วนของอัตราจริงหรือค่าการทำนาย) อัตราส่วนนี้มีการตีความที่มีประโยชน์ – ในฐานะอัตราส่วนความน่าจะเป็น – และไม่ขึ้นอยู่กับความชุก โดยทั่วไปแล้วอัตราส่วนความน่าจะเป็นถือว่าไม่ขึ้นอยู่กับความชุกและตีความได้ง่ายว่าเป็นตัวคูณเพื่อเปลี่ยนความน่าจะเป็นก่อนหน้าให้เป็น ความน่าจะ เป็น ภายหลัง

ค่าF-scoreคือค่าที่ได้จากการรวมกันของค่าความแม่นยำ (precision)และ ค่า การเรียกคืน (recall ) ทำให้ได้ค่าคะแนนเดียว เป็นสถิติที่มีพารามิเตอร์เดียว คือβซึ่งเป็นตัวกำหนดน้ำหนักสัมพัทธ์ของความแม่นยำและการเรียกคืน ค่า F-score แบบดั้งเดิมหรือแบบสมดุล ( F1 score ) คือค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน:

F_{1}=2\cdot {\frac {\mathrm {precision} \cdot \mathrm {recall} }{\mathrm {precision} +\mathrm {recall} }}

.

คะแนน F ไม่ได้คำนึงถึงอัตราผลลบที่แท้จริง ดังนั้นจึงเหมาะสมกว่าสำหรับ การประเมิน การค้นหาข้อมูลและการสกัดข้อมูลซึ่งผลลบที่แท้จริงมีจำนวนนับไม่ถ้วน ในทางกลับกัน การวัดเช่นสัมประสิทธิ์ phi สัมประสิทธิ์ สหสัมพันธ์ Matthews ความรู้หรือCohen's kappaอาจเหมาะสมกว่าในการประเมินประสิทธิภาพของตัวจำแนกแบบไบนารี^{[ 10 ]}^{[ 11 ]}สัมประสิทธิ์สหสัมพันธ์ Matthews เป็นค่าเฉลี่ยเรขาคณิตของสัมประสิทธิ์การถดถอยของปัญหาและคู่ ของมัน สัมประสิทธิ์การถดถอยองค์ประกอบของสัมประสิทธิ์สหสัมพันธ์ Matthews คือความโดดเด่น (deltap) และความรู้ ( สถิติ J ของ Youdenหรือ deltap') ^{[ 12 ]}

การเลือกรูปแบบการประเมินที่เหมาะสม

แฮนด์ได้เน้นย้ำถึงความสำคัญของการเลือกวิธีการประเมินที่เหมาะสม อย่างไรก็ตาม ในบรรดาวิธีการต่างๆ มากมายสำหรับการประเมินความแม่นยำของตัวจำแนกประเภท ไม่มีวิธีการทั่วไปใดที่จะกำหนดได้ว่าควรใช้วิธีใดในสถานการณ์ใด แต่ละสาขาได้ใช้วิธีการที่แตกต่างกัน^{[ 13 ]}

คัลเลอร์เน บาวน์ ได้จำแนกวิธีการประเมินผลออกเป็น 3 แนวทางพื้นฐาน ดังนี้:

° ทางคณิตศาสตร์ - เช่น สัมประสิทธิ์สหสัมพันธ์ของแมทธิวส์ ซึ่งถือว่าข้อผิดพลาดทั้งสองประเภทเป็นปัญหาที่เท่าเทียมกันตามหลักการพื้นฐาน

° การวิเคราะห์ต้นทุนและผลประโยชน์ - โดยการนำหน่วยวัดมาใช้ (เช่น เงิน หรือปีชีวิตที่ปรับคุณภาพแล้ว ) และกำหนดค่าให้กับข้อผิดพลาดและความสำเร็จบนพื้นฐานของการวัดเชิงประจักษ์

° การตัดสินใจโดยใช้ดุลยพินิจ - ซึ่งเป็นการตัดสินใจของมนุษย์เกี่ยวกับความสำคัญสัมพัทธ์ของข้อผิดพลาดทั้งสองประเภท โดยทั่วไปแล้วจะเริ่มต้นด้วยการใช้ตัวชี้วัดสองตัว เช่น ความไวและความจำเพาะ ความแม่นยำและการเรียกคืน หรือค่าทำนายเชิงบวกและค่าทำนายเชิงลบ

ในกรณีการตัดสิน เขาได้จัดทำแผนผังการไหลเพื่อกำหนดว่าควรใช้ตัวบ่งชี้คู่ใดเมื่อใด และด้วยเหตุนี้จึงเลือกอย่างไรระหว่างReceiver Operating Characteristicและ Precision-Recall Curve ^{[ 14 ]}

การประเมินเทคโนโลยีพื้นฐาน

บ่อยครั้งที่เราต้องการประเมินไม่ใช่ตัวจำแนกเฉพาะที่ทำงานในลักษณะเฉพาะ แต่เป็นเทคโนโลยีพื้นฐานที่อยู่เบื้องหลัง โดยทั่วไป เทคโนโลยีสามารถปรับเปลี่ยนได้โดยการเปลี่ยนแปลงค่าเกณฑ์ของฟังก์ชันคะแนน ซึ่งค่าเกณฑ์นี้จะกำหนดว่าผลลัพธ์เป็นบวกหรือลบ สำหรับการประเมินดังกล่าว ตัวชี้วัดเดียวที่มีประโยชน์คือ"พื้นที่ใต้เส้นโค้ง ROC" หรือ AUC

โดยไม่คำนึงถึงความถูกต้อง

นอกเหนือจากความแม่นยำแล้ว ตัวจำแนกแบบไบนารีสามารถประเมินได้ในอีกหลายวิธี เช่น ความเร็วหรือต้นทุน

การประเมินตัวจำแนกความน่าจะเป็น

แบบจำลอง การจำแนกประเภทเชิงความน่าจะเป็นนั้นให้ผลลัพธ์ที่มากกว่าแค่ไบนารี (ใช่/ไม่ใช่) โดยจะสร้างคะแนนความน่าจะเป็นสำหรับแต่ละคลาส แบบจำลองเหล่านี้ได้รับการออกแบบมาเพื่อประเมินความเป็นไปได้หรือความน่าจะเป็นที่ตัวอย่างหนึ่งๆ จะเป็นของคลาสต่างๆ ในบริบทของการประเมินตัวจำแนกประเภทเชิงความ น่าจะเป็น ได้มีการพัฒนา ตัวชี้วัดการประเมินทางเลือกขึ้นมาเพื่อประเมินประสิทธิภาพของแบบจำลองเหล่านี้อย่างเหมาะสม ตัวชี้วัดเหล่านี้คำนึงถึงลักษณะเชิงความน่าจะเป็นของผลลัพธ์ของตัวจำแนกประเภท และให้การประเมินที่ครอบคลุมมากขึ้นเกี่ยวกับประสิทธิภาพในการกำหนดความน่าจะเป็นที่ถูกต้องให้กับคลาสต่างๆ ตัวชี้วัดการประเมินเหล่านี้มีจุดมุ่งหมายเพื่อวัดระดับการปรับเทียบ การจำแนก และความถูกต้องโดยรวมของการคาดการณ์ของตัวจำแนกประเภทเชิงความน่าจะเป็น

ในระบบสารสนเทศ

ระบบการค้นหาข้อมูล เช่นฐานข้อมูลและเครื่องมือค้นหาบนเว็บจะได้รับการประเมินด้วยตัวชี้วัดที่หลากหลายซึ่งบางส่วนได้มาจากเมทริกซ์ความสับสน (confusion matrix ) ที่แบ่งผลลัพธ์ออกเป็นผลบวกจริง (เอกสารที่ค้นหาได้อย่างถูกต้อง) ผลลบจริง (เอกสารที่ค้นหาไม่ถูกต้อง) ผลบวกเท็จ (เอกสารที่ค้นหาไม่ถูกต้อง) และผลลบเท็จ (เอกสารที่ค้นหาไม่ถูกต้อง) ตัวชี้วัดที่ใช้กันทั่วไป ได้แก่ความแม่นยำ (precision) และการเรียกคืน (recall ) ในบริบทนี้ ความแม่นยำถูกกำหนดให้เป็นสัดส่วนของเอกสารที่ค้นหาได้อย่างถูกต้องเมื่อเทียบกับเอกสารที่ค้นหาได้ทั้งหมด (ผลบวกจริงหารด้วยผลบวกจริงบวกผลบวกเท็จ) โดยใช้ชุด ผลลัพธ์ที่ เกี่ยวข้องซึ่งเลือกโดยมนุษย์ การเรียกคืนถูกกำหนดให้เป็นสัดส่วนของเอกสารที่ค้นหาได้อย่างถูกต้องเมื่อเทียบกับเอกสารที่เกี่ยวข้อง (ผลบวกจริงหารด้วยผลบวกจริงบวกผลลบเท็จ) ตัวชี้วัดที่ใช้กันน้อยกว่าคือ ความถูกต้อง (accuracy) ซึ่งถูกกำหนดให้เป็นสัดส่วนของเอกสารที่จำแนกได้อย่างถูกต้องเมื่อเทียบกับเอกสารทั้งหมด (ผลบวกจริงบวกผลลบจริงหารด้วยผลบวกจริงบวกผลลบจริงบวกผลบวกเท็จบวกผลลบเท็จ)

ตัวชี้วัดเหล่านี้ไม่มีตัวใดที่คำนึงถึงการจัดอันดับผลลัพธ์ การจัดอันดับมีความสำคัญมากสำหรับเครื่องมือค้นหาบนเว็บ เนื่องจากผู้อ่านมักจะไม่ดูผลลัพธ์เกินหน้าแรก และมีเอกสารบนเว็บมากเกินไปที่จะจัดประเภทด้วยตนเองว่าควรจะรวมหรือยกเว้นเอกสารใดในการค้นหาที่กำหนด การเพิ่มจุดตัดที่จำนวนผลลัพธ์ที่กำหนดจะคำนึงถึงการจัดอันดับในระดับหนึ่ง ตัวอย่างเช่น การวัดความแม่นยำที่ kเป็นการวัดความแม่นยำที่พิจารณาเฉพาะผลการค้นหา 10 อันดับแรก (k=10) เท่านั้น ตัวชี้วัดที่ซับซ้อนกว่า เช่นกำไรสะสมที่ลดทอนแล้วจะคำนึงถึงการจัดอันดับแต่ละรายการ และมักใช้ในกรณีที่การจัดอันดับมีความสำคัญ

ดูเพิ่มเติม

มาตรการผลกระทบต่อประชากร
ความเสี่ยงที่เกี่ยวข้อง
เปอร์เซ็นต์ความเสี่ยงที่เกี่ยวข้อง
หลักเกณฑ์การให้คะแนน (สำหรับการทำนายความน่าจะเป็น)
ค่า R-squared เทียม
อัตราส่วนความน่าจะเป็น

ลิงก์ภายนอก

ความเสียหายที่เกิดจากความแม่นยำในการจำแนกประเภทและกฎการให้คะแนนความแม่นยำที่ไม่เหมาะสมและไม่ต่อเนื่องอื่นๆ

[9] จำนวนผู้ป่วยจริงที่มีผลตรวจเป็นบวกในข้อมูล

[10] ผลการทดสอบที่บ่งชี้ถึงการมีอยู่ของสภาวะหรือลักษณะเฉพาะได้อย่างถูกต้อง

[11] ข้อผิดพลาดประเภทที่ 2: ผลการทดสอบที่ระบุผิดพลาดว่าเงื่อนไขหรือคุณลักษณะเฉพาะนั้นไม่มีอยู่

[12] จำนวนกรณีลบจริงในข้อมูล

[13] ผลการทดสอบที่บ่งชี้อย่างถูกต้องว่าไม่มีภาวะหรือลักษณะดังกล่าว

[14] ข้อผิดพลาดประเภทที่ 1: ผลการทดสอบที่ระบุผิดพลาดว่ามีเงื่อนไขหรือคุณลักษณะเฉพาะอย่างใดอย่างหนึ่งอยู่

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ a ]

[ b ]

[ c ]

[ d ]

[ e ]

[ f ]

9

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]