กลับไปหน้าบทความ

อ่าน 7 นาที

การประเมินตัวจำแนกไบนารี

โดยทั่วไป การประเมิน ตัวจำแนกแบบไบนารี จะกำหนดค่าตัวเลขให้กับตัวจำแนกนั้น เพื่อแสดงถึงความแม่นยำ ตัวอย่างเช่น อัตราความผิดพลาด ซึ่งวัดว่าตัวจำแนกทำผิดพลาดบ่อยแค่ไหน

การประเมินตัวจำแนกไบนารี

จากเมทริกซ์ความสับสนคุณสามารถอนุมานค่าพื้นฐานได้สี่ค่า

โดยทั่วไป การประเมินตัวจำแนกแบบไบนารีจะกำหนดค่าตัวเลขให้กับตัวจำแนกนั้น เพื่อแสดงถึงความแม่นยำ ตัวอย่างเช่น อัตราความผิดพลาด ซึ่งวัดว่าตัวจำแนกทำผิดพลาดบ่อยแค่ไหน

มีตัวชี้วัดหลายอย่างที่สามารถนำมาใช้ได้ โดยแต่ละสาขาจะมีตัวชี้วัดที่นิยมใช้แตกต่างกัน ตัวอย่างเช่น ในทางการแพทย์ มักใช้ ค่าความไว (sensitivity) และค่าความจำเพาะ (specificity)ในขณะที่ในวิทยาศาสตร์คอมพิวเตอร์นิยมใช้ ค่าความแม่นยำ (precision) และค่าการเรียกคืน (recall) มากกว่า

ข้อแตกต่างที่สำคัญคือระหว่างตัวชี้วัดที่ไม่ขึ้นอยู่กับความชุกหรือความเบี่ยงเบน (ความถี่ที่แต่ละกลุ่มปรากฏในประชากร) และตัวชี้วัดที่ขึ้นอยู่กับความชุก – ทั้งสองประเภทมีประโยชน์ แต่มีคุณสมบัติที่แตกต่างกันมาก

โดยทั่วไป การประเมินผลมักใช้เพื่อเปรียบเทียบวิธีการจำแนกประเภทสองวิธี เพื่อที่จะเลือกใช้วิธีหนึ่งและละทิ้งอีกวิธีหนึ่ง การเปรียบเทียบดังกล่าวจะทำได้โดยตรงมากขึ้นด้วยรูปแบบการประเมินผลที่ให้ผลลัพธ์เป็นตัวชี้วัด เดียว แทนที่จะเป็นตัว ชี้วัดสองตัว

ตารางความน่าจะเป็น

เมื่อมีชุดข้อมูล การจำแนกประเภท (ผลลัพธ์ของตัวจำแนกประเภทบนชุดข้อมูลนั้น) จะให้ตัวเลขสองตัว คือ จำนวนบวกและจำนวนลบ ซึ่งรวมกันแล้วจะได้ขนาดทั้งหมดของชุดข้อมูล ในการประเมินตัวจำแนกประเภท เราจะเปรียบเทียบผลลัพธ์ของตัวจำแนกประเภทกับผลการจำแนกประเภทอ้างอิงอื่น – ในอุดมคติคือการจำแนกประเภทที่สมบูรณ์แบบ แต่ในทางปฏิบัติคือผลลัพธ์ของ การทดสอบ มาตรฐาน อื่น – และสร้างตารางไขว้ข้อมูลลงในตารางความสัมพันธ์ 2×2 โดยเปรียบเทียบการจำแนกประเภททั้งสอง จากนั้นเราจะประเมินตัวจำแนกประเภทเทียบกับมาตรฐานโดยการคำนวณสถิติสรุปของตัวเลขทั้ง 4 ตัวนี้ โดยทั่วไปแล้ว สถิติเหล่านี้จะไม่ขึ้นอยู่กับขนาด (การปรับขนาดตัวเลขทั้งหมดด้วยตัวประกอบเดียวกันจะไม่เปลี่ยนแปลงผลลัพธ์) เพื่อให้เป็นอิสระจากขนาดประชากร ซึ่งทำได้โดยการใช้สัดส่วนของฟังก์ชันเอกพันธุ์โดยที่ง่ายที่สุดคือ ฟังก์ชัน เชิงเส้นเอกพันธุ์หรือฟังก์ชัน กำลังสองเอกพันธุ์

สมมติว่าเราทำการทดสอบคนกลุ่มหนึ่งเพื่อหาเชื้อโรค บางคนเป็นโรค และผลการทดสอบก็บอกถูกต้องว่าติดเชื้อ พวกเขาเรียกว่า ผลบวกจริง (True Positivesหรือ TP) บางคนเป็นโรค แต่ผลการทดสอบกลับบอกผิดว่าไม่เป็นโรค พวกเขาเรียกว่าผลลบเท็จ (False Negatives หรือ FN) บางคนไม่เป็นโรค และผลการทดสอบก็บอกว่าไม่เป็นโรค – เรียกว่าผลลบจริง (True Negatives หรือ TN) สุดท้าย อาจมีคนที่มีสุขภาพดีแต่ผลการทดสอบเป็นบวก – เรียกว่า ผลบวกเท็จ ( False Positivesหรือ FP) เราสามารถจัดเรียงข้อมูลเหล่านี้ลงในตารางความสัมพันธ์ 2x2 ( เมทริกซ์ความสับสน ) โดยทั่วไปแล้ว ผลการทดสอบจะอยู่บนแกนตั้ง และสภาพที่เป็นจริงจะอยู่บนแกนนอน

จากนั้นสามารถนำตัวเลขเหล่านี้มารวมกันได้ ซึ่งจะได้ผลรวมทั้งหมดและผลรวมย่อยเมื่อรวมทั้งตาราง จำนวนผลบวกจริง ผลลบเท็จ ผลลบจริง และผลบวกเท็จ จะรวมกันได้ 100% ของชุดข้อมูล เมื่อรวมคอลัมน์ (บวกในแนวตั้ง) จำนวนผลบวกจริงและผลบวกเท็จจะรวมกันได้ 100% ของผลบวกในการทดสอบ และเช่นเดียวกันสำหรับผลลบ เมื่อรวมแถว (บวกในแนวนอน) จำนวนผลบวกจริงและผลลบเท็จจะรวมกันได้ 100% ของผลบวกในเงื่อนไข (ในทางกลับกันสำหรับผลลบ) สถิติอัตราส่วนย่อยพื้นฐานได้มาจากการหารค่า 2×2=4 ในตารางด้วยผลรวมย่อย (ทั้งแถวหรือคอลัมน์) ซึ่งจะได้ตารางเสริม 2×2 อีก 2 ตาราง รวมเป็นอัตราส่วนทั้งหมด 8 อัตราส่วน อัตราส่วนเหล่านี้มี 4 คู่ที่เสริมกัน โดยแต่ละคู่รวมกันได้เท่ากับ 1 ดังนั้นตาราง 2x2 ที่ได้มาแต่ละตารางจึงสามารถสรุปได้เป็นคู่ของตัวเลข 2 ตัว พร้อมกับส่วนเติมเต็มของตัวเลขเหล่านั้น สถิติเพิ่มเติมสามารถหาได้โดยการหาอัตราส่วนของอัตราส่วนเหล่านี้ อัตราส่วนของอัตราส่วน หรือฟังก์ชันที่ซับซ้อนกว่านั้น

ตารางความน่าจะเป็นและอัตราส่วนที่ได้มาซึ่งใช้กันทั่วไปนั้นสรุปไว้ด้านล่าง โปรดดูรายละเอียดเพิ่มเติมในส่วนถัดไป

สภาวะที่คาดการณ์ไว้แหล่งที่มา: [ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ]
จำนวนประชากรทั้งหมด= P + Nคาดการณ์ผลเป็นบวกคาดการณ์ผลลบความรู้ความเข้าใจ ของ เจ้ามือรับ แทง(BM) = TPR + TNR − 1เกณฑ์ความชุก (PT) = TPR × FPR − FPR/ทีพีอาร์ − เอฟพีอาร์
สภาพจริง
ผลบวกจริง (P) [ a ]ผลบวกจริง (TP),ตรวจพบ[ b ]ผลลบเท็จ (FN), การวินิจฉัยผิด พลาด, การประเมินต่ำเกินไปอัตราผลบวกจริง (TPR), ความจำเพาะ( SEN), ความน่าจะเป็นของการตรวจจับ, อัตราการตรวจจับ, กำลัง = ทีพี/พี= 1 − FNRอัตราผลลบเท็จ (FNR) อัตราความผิดพลาดประเภท II [ c ] = เอฟเอ็น/พี= 1 − TPR
จริงเชิงลบ (N) [ d ]ผลบวกเท็จ (FP),สัญญาณเตือนผิดพลาด, การประเมินค่าสูงเกินไปผลลบจริง (TN)การปฏิเสธที่ถูกต้อง[ e ]อัตราผลบวกเท็จ (FPR) ความน่าจะเป็นของสัญญาณเตือนที่ผิดพลาด ข้อผิด พลาดประเภทที่ 1 [ f ] = เอฟพี/เอ็น= 1 − TNRอัตราผลลบที่ถูกต้อง (TNR), ความจำเพาะ (SPC), การเลือกสรร= TN/เอ็น= 1 − FPR
อัตราการแพร่ระบาด =พี/พี + เอ็นค่าการทำนายเชิงบวก (PPV) ความแม่นยำ = ทีพี/TP + FP= 1 − FDRอัตราการละเว้นที่ผิดพลาด (FOR) = เอฟเอ็น/TN + FN= 1 − NPVอัตราส่วนความน่าจะเป็นเชิงบวก (LR+) = ทีพีอาร์/เอฟพีอาร์อัตราส่วนความน่าจะเป็นเชิงลบ (LR−) = เอฟอาร์อาร์/ทีเอ็นอาร์
ความแม่นยำ (ACC) = TP + TN/พี + เอ็นอัตราการค้นพบที่ผิดพลาด (FDR) = เอฟพี/TP + FP= 1 − PPVค่าทำนายเชิงลบ (NPV) = TN/TN + FN= 1 − สำหรับความโดดเด่น (MK), เดลต้าพี (Δp) = PPV + NPV − 1อัตราส่วนความน่าจะเป็นในการวินิจฉัย (DOR) = LR+/LR−=TP × TN/FP × FN
ความแม่นยำที่สมดุล (BA) = ทีพีอาร์ + ทีเอ็นอาร์/2คะแนนF 1 = 2 PPV × TPR/PPV + TPR=2 TP/2 TP + FP + FNดัชนีฟาวล์เคส-มัลโลว์ (FM) = PPV × TPRphiหรือสัมประสิทธิ์สหสัมพันธ์ของ Matthews (MCC) = TPR × TNR × PPV × NPV - FNR × FPR × FOR × FDRคะแนนภัยคุกคาม (TS), ดัชนีความสำเร็จที่สำคัญ (CSI), ดัชนี Jaccard = ทีพี/TP + FN + FP
  1. ^จำนวนผู้ป่วยจริงที่มีผลตรวจเป็นบวกในข้อมูล
  2. ผลการทดสอบที่บ่งชี้ถึงการมีอยู่ของสภาวะหรือลักษณะเฉพาะได้อย่างถูกต้อง
  3. ^ข้อผิดพลาดประเภทที่ 2: ผลการทดสอบที่ระบุผิดพลาดว่าเงื่อนไขหรือคุณลักษณะเฉพาะนั้นไม่มีอยู่
  4. ^จำนวนกรณีลบจริงในข้อมูล
  5. ^ผลการทดสอบที่บ่งชี้อย่างถูกต้องว่าไม่มีภาวะหรือลักษณะดังกล่าว
  6. ^ข้อผิดพลาดประเภทที่ 1: ผลการทดสอบที่ระบุผิดพลาดว่ามีเงื่อนไขหรือคุณลักษณะเฉพาะอย่างใดอย่างหนึ่งอยู่

โปรดสังเกตว่าแถวต่างๆ สอดคล้องกับสภาวะที่เป็นบวกหรือลบ (หรือถูกจัดประเภทเช่นนั้นโดยมาตรฐานอ้างอิง) ตามที่ระบุโดยการกำหนดรหัสสี และสถิติที่เกี่ยวข้องจะไม่ขึ้นอยู่กับอัตราการแพร่ระบาด ในขณะที่คอลัมน์ต่างๆ สอดคล้องกับการทดสอบที่เป็นบวกหรือลบ และสถิติที่เกี่ยวข้องจะขึ้นอยู่กับอัตราการแพร่ระบาด มีอัตราส่วนความน่าจะเป็นที่คล้ายกันสำหรับค่าการทำนาย แต่ไม่ค่อยได้ใช้ และไม่ได้แสดงไว้ข้างต้น

คู่ของตัวชี้วัด

โดยทั่วไป ความแม่นยำจะถูกประเมินด้วยตัวชี้วัดสองตัวที่จัดเรียงตามรูปแบบมาตรฐาน

ความไวและความจำเพาะ

สถิติพื้นฐานที่ไม่ขึ้นอยู่กับอัตราการแพร่ระบาด ได้แก่ความไวและความจำเพาะ

ความไวหรืออัตราการตรวจพบผลบวกที่แท้จริง (TPR) หรือที่เรียกว่าอัตราการเรียกคืนคือสัดส่วนของผู้ที่ได้รับการทดสอบแล้วได้ผลบวก (ผลบวกที่แท้จริง, TP) จากจำนวนผู้ที่ติดเชื้อจริงทั้งหมด (ภาวะติดเชื้อ, CP = TP + ผลลบที่แท้จริง) อาจมองได้ว่าเป็นความน่าจะเป็นที่การทดสอบจะให้ผลบวกเมื่อพิจารณาว่าผู้ป่วยป่วยยิ่งความไวสูงขึ้น จำนวนผู้ป่วยที่ไม่ได้รับการตรวจพบก็จะยิ่งน้อยลง (หรือในกรณีของการควบคุมคุณภาพในโรงงาน จำนวนผลิตภัณฑ์ที่บกพร่องที่จะออกสู่ตลาดก็จะยิ่งน้อยลง)

ความจำเพาะ (Specificity, SPC) หรืออัตราผลลบที่แท้จริง (True Negative Rate, TNR) คือสัดส่วนของคนที่ตรวจแล้วได้ผลลบ (ผลลบที่แท้จริง, TN) ต่อจำนวนคนทั้งหมดที่ได้ผลลบจริง ๆ (สภาวะเป็นลบ, CN = TN + FP) เช่นเดียวกับความไว (Sensitivity) สามารถมองได้ว่าเป็นความน่าจะเป็นที่ผลการตรวจจะเป็นลบเมื่อพิจารณาว่าผู้ป่วยไม่ได้ป่วยยิ่งความจำเพาะสูงเท่าไร จำนวนคนที่มีสุขภาพดีที่ถูกระบุว่าป่วยก็จะยิ่งน้อยลง (หรือในกรณีของโรงงาน ก็คือจำนวนผลิตภัณฑ์ที่ดีที่ถูกทิ้งก็จะยิ่งน้อยลง)

ความสัมพันธ์ระหว่างความไวและความจำเพาะ รวมถึงประสิทธิภาพของตัวจำแนก สามารถมองเห็นและศึกษาได้โดยใช้ เส้นโค้ง ลักษณะการทำงานของผู้รับ (ROC)

ในทางทฤษฎี ความไวและความจำเพาะเป็นอิสระต่อกันในแง่ที่ว่าสามารถบรรลุ 100% ได้ทั้งสองด้าน (เช่นในตัวอย่างลูกบอลสีแดง/น้ำเงินที่กล่าวถึงข้างต้น) อย่างไรก็ตาม ในทางปฏิบัติที่ง่ายกว่าและไม่ซับซ้อน มักจะมีการแลกเปลี่ยนกัน โดยที่ทั้งสองอย่างแปรผกผันกันในระดับหนึ่ง นี่เป็นเพราะเราแทบจะไม่วัดสิ่งที่เราต้องการจำแนกประเภทโดยตรง แต่เรามักจะวัดตัวบ่งชี้ของสิ่งที่เราต้องการจำแนกประเภท ซึ่งเรียกว่าตัวบ่งชี้ทดแทนเหตุผลที่สามารถบรรลุ 100% ได้ในตัวอย่างลูกบอลนั้นเป็นเพราะความแดงและความน้ำเงินถูกกำหนดโดยการตรวจจับความแดงและความน้ำเงินโดยตรง อย่างไรก็ตาม ตัวบ่งชี้บางครั้งอาจมีข้อบกพร่อง เช่น เมื่อสิ่งที่ไม่ใช่ตัวบ่งชี้เลียนแบบตัวบ่งชี้ หรือเมื่อตัวบ่งชี้ขึ้นอยู่กับเวลา โดยจะปรากฏให้เห็นหลังจากช่วงเวลาล่าช้าที่กำหนด ตัวอย่างต่อไปนี้เกี่ยวกับการทดสอบการตั้งครรภ์จะใช้ตัวบ่งชี้ดังกล่าว

การตรวจการตั้งครรภ์สมัยใหม่ไม่ได้ใช้การตั้งครรภ์จริงเป็นตัวบ่งชี้สถานะการตั้งครรภ์ แต่ใช้ฮอร์โมนฮิวแมนคอริโอนิกโกนาโด โทรปิน (hCG) ซึ่งพบในปัสสาวะของ หญิงตั้งครรภ์ เป็น ตัวบ่งชี้ทางอ้อมว่าผู้หญิงคนนั้นตั้งครรภ์หรือไม่ เนื่องจาก hCG สามารถผลิตได้จากเนื้องอกด้วย ความจำเพาะของการตรวจการตั้งครรภ์สมัยใหม่จึงไม่สามารถเป็น 100% ได้ (เพราะอาจมีผลบวกปลอม) นอกจากนี้ เนื่องจาก hCG พบในปัสสาวะในปริมาณน้อยมากหลังจากการปฏิสนธิและการเจริญเติบโตของตัว อ่อนในระยะแรก ความไวของการตรวจการตั้งครรภ์สมัยใหม่จึงไม่สามารถเป็น 100% ได้ (เพราะอาจมีผลลบปลอม)

ค่าการทำนายเชิงบวกและเชิงลบ

นอกเหนือจากความไวและความจำเพาะแล้ว ประสิทธิภาพของการทดสอบการจำแนกแบบไบนารีสามารถวัดได้ด้วยค่าการทำนายเชิงบวก (PPV) หรือที่รู้จักกันในชื่อความแม่นยำและค่าการทำนายเชิงลบ (NPV) ค่าการทำนายเชิงบวกตอบคำถามว่า "ถ้าผลการทดสอบเป็นบวก จะ สามารถทำนายการ มีอยู่ของโรคได้จริง ดีแค่ไหน" โดยคำนวณจาก TP/(TP + FP) นั่นคือ สัดส่วนของผลบวกที่แท้จริงจากผลบวกทั้งหมด ค่าการทำนายเชิงลบก็เช่นเดียวกัน แต่สำหรับผลลบ

ผลกระทบของอัตราการแพร่ระบาดต่อค่าการทำนาย

อัตราการแพร่ระบาดมีผลกระทบอย่างมากต่อค่าการทำนาย ยกตัวอย่างเช่น สมมติว่ามีการทดสอบโรคที่มีความไว 99% และความจำเพาะ 99% ถ้าทำการทดสอบคน 2000 คน และอัตราการแพร่ระบาด (ในกลุ่มตัวอย่าง) คือ 50% นั่นหมายความว่า 1000 คนป่วย และ 1000 คนสุขภาพดี ดังนั้นจึงมีโอกาสเกิดผลบวกจริงประมาณ 990 ราย และผลลบจริงประมาณ 990 ราย โดยมีผลบวกเท็จ 10 ราย และผลลบเท็จ 10 ราย ค่าการทำนายผลบวกและผลลบจะเท่ากับ 99% ดังนั้นจึงมีความมั่นใจในผลลัพธ์สูง

อย่างไรก็ตาม หากอัตราการแพร่ระบาดอยู่ที่เพียง 5% กล่าวคือจากประชากร 2,000 คน มีเพียง 100 คนเท่านั้นที่ป่วยจริง ค่าการทำนายก็จะเปลี่ยนแปลงไปอย่างมาก ผลลัพธ์ที่น่าจะเป็นไปได้คือ ผลบวกจริง 99 ราย ผลลบเท็จ 1 ราย ผลลบจริง 1,881 ราย และผลบวกเท็จ 19 ราย จากผู้ป่วย 19+99 รายที่ตรวจพบผลบวก มีเพียง 99 รายเท่านั้นที่ป่วยเป็นโรคจริง นั่นหมายความว่า โดยสัญชาตญาณแล้ว หากผลการตรวจของผู้ป่วยเป็นบวก โอกาสที่ผู้ป่วยจะป่วยเป็นโรคจริงมีเพียง 84% ในทางกลับกัน หากผลการตรวจของผู้ป่วยเป็นลบ โอกาสที่ผู้ป่วยจะป่วยเป็นโรคจริงมีเพียง 1 ใน 1,882 หรือ 0.05% เท่านั้น

ความแม่นยำและการเรียกคืน

ความแม่นยำและการเรียกคืนสามารถตีความได้ว่าเป็นความน่าจะเป็นแบบมีเงื่อนไข (โดยประมาณ): ความแม่นยำกำหนดโดยในขณะที่การเรียกคืนกำหนดโดย[ 9 ] โดยที่คือคลาสที่ทำนาย และคือคลาสจริง ปริมาณทั้งสองจึงเชื่อมโยงกันด้วยทฤษฎีบทของเบย์

ความสัมพันธ์

อัตราส่วนเหล่านี้มีความสัมพันธ์กันหลายรูปแบบ

หากทราบอัตราการแพร่ระบาด ความไว และความจำเพาะแล้ว ค่าการทำนายผลบวกสามารถหาได้จากสูตรต่อไปนี้:

หากทราบอัตราการแพร่ระบาด ความไว และความจำเพาะแล้ว ค่าการทำนายเชิงลบสามารถหาได้จากสูตรต่อไปนี้:

เมตริกแบบเอกภาพ

นอกเหนือจากตัวชี้วัดแบบคู่แล้ว ยังมีตัวชี้วัดแบบเอกภาพซึ่งให้ค่าตัวเลขเพียงค่าเดียวเพื่อใช้ประเมินผลการทดสอบอีกด้วย

สถิติที่ง่ายที่สุดอาจเป็นความแม่นยำหรือสัดส่วนที่ถูกต้อง (FC) ซึ่งวัดสัดส่วนของกรณีทั้งหมดที่ถูกจัดประเภทอย่างถูกต้อง มันคืออัตราส่วนของจำนวนการจำแนกประเภทที่ถูกต้องต่อจำนวนการจำแนกประเภทที่ถูกต้องหรือไม่ถูกต้องทั้งหมด: (TP + TN)/ประชากรทั้งหมด = (TP + TN)/(TP + TN + FP + FN) ดังนั้นจึงเป็นการเปรียบเทียบการประมาณค่าความน่าจะเป็นก่อนและหลังการทดสอบในกรณีที่ไม่รู้เรื่องเลย เราอาจเปรียบเทียบกฎกับการโยนเหรียญ (p0=0.5) การวัดนี้ ขึ้นอยู่กับ ความชุกหาก 90% ของผู้ที่มีอาการของ COVID ไม่ติดเชื้อ COVID ความน่าจะเป็นก่อนหน้า P(-) คือ 0.9 และกฎง่ายๆ "จำแนกผู้ป่วยทั้งหมดดังกล่าวว่าไม่ติดเชื้อ COVID" จะมีความแม่นยำ 90% การวินิจฉัยควรจะดีกว่านั้น เราสามารถสร้าง"การทดสอบ z แบบสัดส่วนเดียว"โดยใช้ p0 เป็น max(priors) = max(P(-),P(+)) สำหรับวิธีการวินิจฉัยที่หวังว่าจะเอาชนะกฎง่ายๆ โดยใช้ผลลัพธ์ที่น่าจะเป็นไปได้มากที่สุด ในที่นี้ สมมติฐานคือ "Ho: p ≤ 0.9 เทียบกับ Ha: p > 0.9" โดยปฏิเสธ Ho สำหรับค่า z ที่มีขนาดใหญ่ กฎการวินิจฉัยหนึ่งสามารถเปรียบเทียบกับอีกกฎหนึ่งได้ หากทราบความแม่นยำของอีกกฎหนึ่งและนำค่า p0 มาใช้แทนในการคำนวณค่าสถิติ z หากไม่ทราบและคำนวณจากข้อมูล การทดสอบเปรียบเทียบความแม่นยำสามารถทำได้โดยใช้"การทดสอบ z สองสัดส่วน โดยรวมสำหรับ Ho: p1 = p2 "

สถิติเสริมที่ใช้กันไม่บ่อยนักคือ สัดส่วนความคลาดเคลื่อน (FiC): FC + FiC = 1 หรือ (FP + FN)/(TP + TN + FP + FN) – ซึ่งก็คือผลรวมของค่าในแนวทแยงมุมตรงข้าม หารด้วยจำนวนประชากรทั้งหมด สัดส่วนความคลาดเคลื่อนถ่วงน้ำหนักด้วยต้นทุนสามารถใช้เปรียบเทียบ ต้นทุน ที่คาดว่าจะเกิดขึ้นจากการจำแนกประเภทผิดพลาดของวิธีการต่างๆ ได้

อัตราส่วนความน่าจะเป็นในการวินิจฉัย (DOR) อาจเป็นตัวชี้วัดโดยรวมที่มีประโยชน์มากกว่า ซึ่งสามารถกำหนดได้โดยตรงเป็น (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN) หรือโดยอ้อมเป็นอัตราส่วนของอัตราส่วนของอัตราส่วน (อัตราส่วนของอัตราส่วนความน่าจะเป็น ซึ่งเป็นอัตราส่วนของอัตราจริงหรือค่าการทำนาย) อัตราส่วนนี้มีการตีความที่มีประโยชน์ – ในฐานะอัตราส่วนความน่าจะเป็น – และไม่ขึ้นอยู่กับความชุก โดยทั่วไปแล้วอัตราส่วนความน่าจะเป็นถือว่าไม่ขึ้นอยู่กับความชุกและตีความได้ง่ายว่าเป็นตัวคูณเพื่อเปลี่ยนความน่าจะเป็นก่อนหน้าให้เป็น ความน่าจะ เป็น ภายหลัง

ค่าF-scoreคือค่าที่ได้จากการรวมกันของค่าความแม่นยำ (precision)และ ค่า การเรียกคืน (recall ) ทำให้ได้ค่าคะแนนเดียว เป็นสถิติที่มีพารามิเตอร์เดียว คือβซึ่งเป็นตัวกำหนดน้ำหนักสัมพัทธ์ของความแม่นยำและการเรียกคืน ค่า F-score แบบดั้งเดิมหรือแบบสมดุล ( F1 score ) คือค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน:

.

คะแนน F ไม่ได้คำนึงถึงอัตราผลลบที่แท้จริง ดังนั้นจึงเหมาะสมกว่าสำหรับ การประเมิน การค้นหาข้อมูลและการสกัดข้อมูลซึ่งผลลบที่แท้จริงมีจำนวนนับไม่ถ้วน ในทางกลับกัน การวัดเช่นสัมประสิทธิ์ phi สัมประสิทธิ์ สหสัมพันธ์ Matthews ความรู้หรือCohen's kappaอาจเหมาะสมกว่าในการประเมินประสิทธิภาพของตัวจำแนกแบบไบนารี[ 10 ] [ 11 ]สัมประสิทธิ์สหสัมพันธ์ Matthews เป็นค่าเฉลี่ยเรขาคณิตของสัมประสิทธิ์การถดถอยของปัญหาและคู่ ของมัน สัมประสิทธิ์การถดถอยองค์ประกอบของสัมประสิทธิ์สหสัมพันธ์ Matthews คือความโดดเด่น (deltap) และความรู้ ( สถิติ J ของ Youdenหรือ deltap') [ 12 ]

การเลือกรูปแบบการประเมินที่เหมาะสม

แฮนด์ได้เน้นย้ำถึงความสำคัญของการเลือกวิธีการประเมินที่เหมาะสม อย่างไรก็ตาม ในบรรดาวิธีการต่างๆ มากมายสำหรับการประเมินความแม่นยำของตัวจำแนกประเภท ไม่มีวิธีการทั่วไปใดที่จะกำหนดได้ว่าควรใช้วิธีใดในสถานการณ์ใด แต่ละสาขาได้ใช้วิธีการที่แตกต่างกัน[ 13 ]

คัลเลอร์เน บาวน์ ได้จำแนกวิธีการประเมินผลออกเป็น 3 แนวทางพื้นฐาน ดังนี้:

° ทางคณิตศาสตร์ - เช่น สัมประสิทธิ์สหสัมพันธ์ของแมทธิวส์ ซึ่งถือว่าข้อผิดพลาดทั้งสองประเภทเป็นปัญหาที่เท่าเทียมกันตามหลักการพื้นฐาน

° การวิเคราะห์ต้นทุนและผลประโยชน์ - โดยการนำหน่วยวัดมาใช้ (เช่น เงิน หรือปีชีวิตที่ปรับคุณภาพแล้ว ) และกำหนดค่าให้กับข้อผิดพลาดและความสำเร็จบนพื้นฐานของการวัดเชิงประจักษ์

° การตัดสินใจโดยใช้ดุลยพินิจ - ซึ่งเป็นการตัดสินใจของมนุษย์เกี่ยวกับความสำคัญสัมพัทธ์ของข้อผิดพลาดทั้งสองประเภท โดยทั่วไปแล้วจะเริ่มต้นด้วยการใช้ตัวชี้วัดสองตัว เช่น ความไวและความจำเพาะ ความแม่นยำและการเรียกคืน หรือค่าทำนายเชิงบวกและค่าทำนายเชิงลบ

ในกรณีการตัดสิน เขาได้จัดทำแผนผังการไหลเพื่อกำหนดว่าควรใช้ตัวบ่งชี้คู่ใดเมื่อใด และด้วยเหตุนี้จึงเลือกอย่างไรระหว่างReceiver Operating Characteristicและ Precision-Recall Curve [ 14 ]

การประเมินเทคโนโลยีพื้นฐาน

บ่อยครั้งที่เราต้องการประเมินไม่ใช่ตัวจำแนกเฉพาะที่ทำงานในลักษณะเฉพาะ แต่เป็นเทคโนโลยีพื้นฐานที่อยู่เบื้องหลัง โดยทั่วไป เทคโนโลยีสามารถปรับเปลี่ยนได้โดยการเปลี่ยนแปลงค่าเกณฑ์ของฟังก์ชันคะแนน ซึ่งค่าเกณฑ์นี้จะกำหนดว่าผลลัพธ์เป็นบวกหรือลบ สำหรับการประเมินดังกล่าว ตัวชี้วัดเดียวที่มีประโยชน์คือ"พื้นที่ใต้เส้นโค้ง ROC" หรือ AUC

โดยไม่คำนึงถึงความถูกต้อง

นอกเหนือจากความแม่นยำแล้ว ตัวจำแนกแบบไบนารีสามารถประเมินได้ในอีกหลายวิธี เช่น ความเร็วหรือต้นทุน

การประเมินตัวจำแนกความน่าจะเป็น

แบบจำลอง การจำแนกประเภทเชิงความน่าจะเป็นนั้นให้ผลลัพธ์ที่มากกว่าแค่ไบนารี (ใช่/ไม่ใช่) โดยจะสร้างคะแนนความน่าจะเป็นสำหรับแต่ละคลาส แบบจำลองเหล่านี้ได้รับการออกแบบมาเพื่อประเมินความเป็นไปได้หรือความน่าจะเป็นที่ตัวอย่างหนึ่งๆ จะเป็นของคลาสต่างๆ ในบริบทของการประเมินตัวจำแนกประเภทเชิงความ น่าจะเป็น ได้มีการพัฒนา ตัวชี้วัดการประเมินทางเลือกขึ้นมาเพื่อประเมินประสิทธิภาพของแบบจำลองเหล่านี้อย่างเหมาะสม ตัวชี้วัดเหล่านี้คำนึงถึงลักษณะเชิงความน่าจะเป็นของผลลัพธ์ของตัวจำแนกประเภท และให้การประเมินที่ครอบคลุมมากขึ้นเกี่ยวกับประสิทธิภาพในการกำหนดความน่าจะเป็นที่ถูกต้องให้กับคลาสต่างๆ ตัวชี้วัดการประเมินเหล่านี้มีจุดมุ่งหมายเพื่อวัดระดับการปรับเทียบ การจำแนก และความถูกต้องโดยรวมของการคาดการณ์ของตัวจำแนกประเภทเชิงความน่าจะเป็น

ในระบบสารสนเทศ

ระบบการค้นหาข้อมูล เช่นฐานข้อมูลและเครื่องมือค้นหาบนเว็บจะได้รับการประเมินด้วยตัวชี้วัดที่หลากหลายซึ่งบางส่วนได้มาจากเมทริกซ์ความสับสน (confusion matrix ) ที่แบ่งผลลัพธ์ออกเป็นผลบวกจริง (เอกสารที่ค้นหาได้อย่างถูกต้อง) ผลลบจริง (เอกสารที่ค้นหาไม่ถูกต้อง) ผลบวกเท็จ (เอกสารที่ค้นหาไม่ถูกต้อง) และผลลบเท็จ (เอกสารที่ค้นหาไม่ถูกต้อง) ตัวชี้วัดที่ใช้กันทั่วไป ได้แก่ความแม่นยำ (precision) และการเรียกคืน (recall ) ในบริบทนี้ ความแม่นยำถูกกำหนดให้เป็นสัดส่วนของเอกสารที่ค้นหาได้อย่างถูกต้องเมื่อเทียบกับเอกสารที่ค้นหาได้ทั้งหมด (ผลบวกจริงหารด้วยผลบวกจริงบวกผลบวกเท็จ) โดยใช้ชุด ผลลัพธ์ที่ เกี่ยวข้องซึ่งเลือกโดยมนุษย์ การเรียกคืนถูกกำหนดให้เป็นสัดส่วนของเอกสารที่ค้นหาได้อย่างถูกต้องเมื่อเทียบกับเอกสารที่เกี่ยวข้อง (ผลบวกจริงหารด้วยผลบวกจริงบวกผลลบเท็จ) ตัวชี้วัดที่ใช้กันน้อยกว่าคือ ความถูกต้อง (accuracy) ซึ่งถูกกำหนดให้เป็นสัดส่วนของเอกสารที่จำแนกได้อย่างถูกต้องเมื่อเทียบกับเอกสารทั้งหมด (ผลบวกจริงบวกผลลบจริงหารด้วยผลบวกจริงบวกผลลบจริงบวกผลบวกเท็จบวกผลลบเท็จ)

ตัวชี้วัดเหล่านี้ไม่มีตัวใดที่คำนึงถึงการจัดอันดับผลลัพธ์ การจัดอันดับมีความสำคัญมากสำหรับเครื่องมือค้นหาบนเว็บ เนื่องจากผู้อ่านมักจะไม่ดูผลลัพธ์เกินหน้าแรก และมีเอกสารบนเว็บมากเกินไปที่จะจัดประเภทด้วยตนเองว่าควรจะรวมหรือยกเว้นเอกสารใดในการค้นหาที่กำหนด การเพิ่มจุดตัดที่จำนวนผลลัพธ์ที่กำหนดจะคำนึงถึงการจัดอันดับในระดับหนึ่ง ตัวอย่างเช่น การวัดความแม่นยำที่ kเป็นการวัดความแม่นยำที่พิจารณาเฉพาะผลการค้นหา 10 อันดับแรก (k=10) เท่านั้น ตัวชี้วัดที่ซับซ้อนกว่า เช่นกำไรสะสมที่ลดทอนแล้วจะคำนึงถึงการจัดอันดับแต่ละรายการ และมักใช้ในกรณีที่การจัดอันดับมีความสำคัญ

ดูเพิ่มเติม

  • ความเสียหายที่เกิดจากความแม่นยำในการจำแนกประเภทและกฎการให้คะแนนความแม่นยำที่ไม่เหมาะสมและไม่ต่อเนื่องอื่นๆ
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Evaluation_of_binary_classifiers&oldid=1339785632 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การประเมินตัวจำแนกไบนารี

โดยทั่วไป การประเมิน ตัวจำแนกแบบไบนารี จะกำหนดค่าตัวเลขให้กับตัวจำแนกนั้น เพื่อแสดงถึงความแม่นยำ ตัวอย่างเช่น อัตราความผิดพลาด ซึ่งวัดว่าตัวจำแนกทำผิดพลาดบ่อยแค่ไหน

ตารางความน่าจะเป็น

เมื่อมีชุดข้อมูล การจำแนกประเภท (ผลลัพธ์ของตัวจำแนกประเภทบนชุดข้อมูลนั้น) จะให้ตัวเลขสองตัว คือ จำนวนบวกและจำนวนลบ ซึ่งรวมกันแล้วจะได้ขนาดทั้งหมดของชุดข้อมูล ในการประเมินตัวจำแนกประเภท เราจะเปรียบเทียบผลลัพธ์ของตัวจำแนกประเภทกับผลการจำแนกประเภทอ้างอิงอื่น –...

คู่ของตัวชี้วัด

โดยทั่วไป ความแม่นยำจะถูกประเมินด้วยตัวชี้วัดสองตัวที่จัดเรียงตามรูปแบบมาตรฐาน

ความไวและความจำเพาะ

สถิติพื้นฐานที่ไม่ขึ้นอยู่กับอัตราการแพร่ระบาด ได้แก่ ความไวและความ จำเพาะ