ความน่าเชื่อถือระหว่างผู้ประเมิน

Q: ข้อมูลสำคัญเกี่ยวกับ ความน่าเชื่อถือระหว่างผู้ประเมิน

ในทางสถิติความน่าเชื่อถือระหว่างผู้ประเมิน (หรือเรียกด้วยชื่ออื่นๆ ที่คล้ายคลึงกัน เช่นความเห็นพ้องระหว่างผู้ประเมินความสอดคล้องระหว่าง ผู้ประเมิน

ในทางสถิติความน่าเชื่อถือระหว่างผู้ประเมิน (หรือเรียกด้วยชื่ออื่นๆ ที่คล้ายคลึงกัน เช่นความเห็นพ้องระหว่างผู้ประเมินความสอดคล้องระหว่าง ผู้ประเมิน ความน่าเชื่อถือระหว่างผู้สังเกตการณ์ความน่าเชื่อถือระหว่างผู้เข้ารหัสและอื่นๆ) คือระดับความเห็นพ้องระหว่างผู้สังเกตการณ์อิสระที่ให้คะแนน เข้ารหัส หรือประเมินปรากฏการณ์เดียวกัน

เครื่องมือประเมินที่อาศัยการให้คะแนนจะต้องแสดงให้เห็นถึงความน่าเชื่อถือระหว่างผู้ประเมินที่ดี มิเช่นนั้นจะไม่ถือว่าเป็นแบบทดสอบที่ถูกต้อง

มีสถิติหลายอย่างที่สามารถใช้ในการกำหนดความน่าเชื่อถือระหว่างผู้ประเมินได้ สถิติที่แตกต่างกันจะเหมาะสมกับประเภทของการวัดที่แตกต่างกัน ตัวเลือกบางอย่าง ได้แก่ ความน่าจะเป็นร่วมของการเห็นพ้องต้องกัน เช่นค่าแคปปาของโคเฮน ค่าพายของสก็อตและค่าแคปปาของเฟลสหรือค่าสหสัมพันธ์ระหว่างผู้ประเมินค่าสัมประสิทธิ์สหสัมพันธ์ความสอดคล้อง ค่าสหสัมพันธ์ภายในกลุ่มและค่าอัลฟาของคริปเพนดอร์ฟ

แนวคิด

มีคำจำกัดความเชิงปฏิบัติการหลายประการของ "ความน่าเชื่อถือระหว่างผู้ประเมิน" ซึ่งสะท้อนมุมมองที่แตกต่างกันเกี่ยวกับข้อตกลงที่น่าเชื่อถือระหว่างผู้ประเมิน^{[ 1 ]}มีคำจำกัดความเชิงปฏิบัติการของข้อตกลงสามประการ:

ผู้ประเมินที่น่าเชื่อถือเห็นพ้องกับคะแนน "อย่างเป็นทางการ" ของการแสดงนั้น ๆ
ผู้ประเมินที่น่าเชื่อถือจะเห็นพ้องกันเกี่ยวกับคะแนนที่ควรให้
ผู้ประเมินที่น่าเชื่อถือต่างเห็นพ้องกันว่าผลงานใดดีกว่าและผลงานใดแย่กว่า

สิ่งเหล่านี้รวมเข้ากับคำจำกัดความเชิงปฏิบัติการของพฤติกรรมสองประการ:

ผู้ประเมินที่เชื่อถือได้คือหุ่นยนต์อัตโนมัติ ซึ่งมีพฤติกรรมเหมือน "เครื่องประเมิน" หมวดหมู่นี้รวมถึงการประเมินเรียงความโดยคอมพิวเตอร์^{[ 2 ]}พฤติกรรมนี้สามารถประเมินได้ด้วยทฤษฎีความสามารถในการสรุปผลทั่วไป
ผู้ประเมินที่น่าเชื่อถือจะประพฤติตัวเหมือนพยานอิสระ พวกเขาแสดงให้เห็นถึงความเป็นอิสระโดยการมีความเห็นต่างกันเล็กน้อย พฤติกรรมนี้สามารถประเมินได้ด้วย แบบ จำลองRasch

สถิติ

ความน่าจะเป็นร่วมของการตกลงกัน

ความน่าจะเป็นร่วมของการตกลงกันเป็นมาตรวัดที่ง่ายที่สุดและมีความน่าเชื่อถือน้อยที่สุด โดยประมาณเป็นเปอร์เซ็นต์ของเวลาที่ผู้ประเมินตกลงกันใน ระบบการให้คะแนน แบบนามหรือแบบจำแนกประเภท มาตรวัดนี้ไม่ได้คำนึงถึงข้อเท็จจริงที่ว่าการตกลงกันอาจเกิดขึ้นโดยอาศัยโอกาสเพียงอย่างเดียว มีคำถามว่าจำเป็นต้อง 'แก้ไข' การตกลงกันโดยบังเอิญหรือไม่ บางคนแนะนำว่าไม่ว่าในกรณีใด การปรับปรุงดังกล่าวควรอยู่บนพื้นฐานของแบบจำลองที่ชัดเจนว่าโอกาสและข้อผิดพลาดส่งผลต่อการตัดสินใจของผู้ประเมินอย่างไร^{[ 3 ]}

เมื่อจำนวนหมวดหมู่ที่ใช้มีน้อย (เช่น 2 หรือ 3) โอกาสที่ผู้ประเมิน 2 คนจะเห็นพ้องกันโดยบังเอิญจะเพิ่มขึ้นอย่างมาก เนื่องจากผู้ประเมินทั้งสองต้องจำกัดตัวเองอยู่กับตัวเลือกที่มีอยู่อย่างจำกัด ซึ่งส่งผลต่ออัตราความเห็นพ้องโดยรวม และไม่ได้ขึ้นอยู่กับแนวโน้ม "โดยเนื้อแท้" ของพวกเขาในการเห็นพ้อง (ความเห็นพ้องจะถือว่าเป็น "โดยเนื้อแท้" หากไม่ได้เกิดจากความบังเอิญ)

ดังนั้น ความน่าจะเป็นร่วมของการตกลงจะยังคงสูงอยู่แม้ว่าจะไม่มีการตกลง "โดยเนื้อแท้" ระหว่างผู้ประเมินก็ตาม ค่าสัมประสิทธิ์ความน่าเชื่อถือระหว่างผู้ประเมินที่มีประโยชน์คาดว่าจะ (ก) ใกล้เคียงกับ 0 เมื่อไม่มีการตกลง "โดยเนื้อแท้" และ (ข) จะเพิ่มขึ้นเมื่ออัตราการตกลง "โดยเนื้อแท้" ดีขึ้น ค่าสัมประสิทธิ์การตกลงที่แก้ไขโอกาสส่วนใหญ่บรรลุวัตถุประสงค์แรก อย่างไรก็ตาม วัตถุประสงค์ที่สองไม่บรรลุผลโดยมาตรวัดที่แก้ไขโอกาสที่เป็นที่รู้จักหลายรายการ^{[ 4 ]}

สถิติ Kappa

ค่า Kappa เป็นวิธีการวัดความสอดคล้องหรือความน่าเชื่อถือ โดยแก้ไขความถี่ที่การให้คะแนนอาจสอดคล้องกันโดยบังเอิญ ค่า Kappa ของ Cohen ^{[ 5 ]}ซึ่งใช้ได้กับผู้ให้คะแนนสองคน และค่า Kappa ของ Fleiss ^{[ 6 ]}ซึ่งเป็นการปรับปรุงที่ใช้ได้กับผู้ให้คะแนนจำนวนคงที่ใดๆ ก็ตาม จะช่วยปรับปรุงความน่าจะเป็นร่วมกันโดยคำนึงถึงปริมาณความสอดคล้องที่คาดว่าจะเกิดขึ้นโดยบังเอิญ เวอร์ชันดั้งเดิมมีปัญหาเช่นเดียวกับความน่าจะเป็นร่วมกันตรงที่ถือว่าข้อมูลเป็นแบบนามและสมมติว่าการให้คะแนนไม่มีลำดับตามธรรมชาติ หากข้อมูลมีลำดับ (ระดับการวัดแบบเรียงลำดับ) ข้อมูลนั้นจะไม่ได้รับการพิจารณาอย่างครบถ้วนในการวัด

การขยายแนวทางในภายหลังรวมถึงเวอร์ชันที่สามารถจัดการกับ "เครดิตบางส่วน" และมาตราส่วนลำดับ^{[ 7 ]}การขยายเหล่านี้บรรจบกับตระกูลของค่าสหสัมพันธ์ภายในกลุ่ม (ICC) ดังนั้นจึงมีวิธีการประมาณความน่าเชื่อถือที่เกี่ยวข้องในเชิงแนวคิดสำหรับแต่ละระดับของการวัดตั้งแต่ระดับนาม (แคปปา) ไปจนถึงระดับลำดับ (แคปปาลำดับหรือ ICC—การขยายสมมติฐาน) ไปจนถึงระดับช่วง (ICC หรือแคปปาลำดับ—การถือว่ามาตราส่วนช่วงเป็นลำดับ) และระดับอัตราส่วน (ICC) นอกจากนี้ยังมีรูปแบบต่างๆ ที่สามารถพิจารณาความสอดคล้องของผู้ประเมินในชุดรายการ (เช่น ผู้สัมภาษณ์สองคนเห็นด้วยกับคะแนนภาวะซึมเศร้าสำหรับรายการทั้งหมดในการสัมภาษณ์แบบกึ่งโครงสร้างเดียวกันสำหรับกรณีหนึ่งหรือไม่) เช่นเดียวกับผู้ประเมิน x กรณี (เช่น ผู้ประเมินสองคนขึ้นไปเห็นด้วยกันดีแค่ไหนว่า 30 กรณีได้รับการวินิจฉัยว่าเป็นโรคซึมเศร้าหรือไม่ ใช่/ไม่ใช่—ตัวแปรนาม)

ค่า Kappa คล้ายกับค่าสัมประสิทธิ์สหสัมพันธ์ตรงที่ค่าไม่สามารถสูงกว่า +1.0 หรือต่ำกว่า -1.0 ได้ เนื่องจากใช้เป็นมาตรวัดความสอดคล้อง จึงคาดหวังได้เฉพาะค่าบวกในสถานการณ์ส่วนใหญ่ ค่าลบจะบ่งชี้ถึงความไม่สอดคล้องกันอย่างเป็นระบบ ค่า Kappa จะมีค่าสูงมากได้ก็ต่อเมื่อความสอดคล้องดีและอัตราของเงื่อนไขเป้าหมายอยู่ใกล้ 50% (เนื่องจากรวมอัตราพื้นฐานในการคำนวณความน่าจะเป็นร่วม) ผู้เชี่ยวชาญหลายท่านได้เสนอ "หลักเกณฑ์คร่าวๆ" สำหรับการตีความระดับความสอดคล้อง ซึ่งหลายหลักเกณฑ์มีใจความตรงกันแม้ว่าคำพูดจะไม่เหมือนกันทุกประการก็ตาม^{[ 8 ]}^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}

สัมประสิทธิ์สหสัมพันธ์

สามารถใช้ค่าสัมประสิทธิ์ สหสัมพันธ์ของPearson , Kendall's τหรือSpearman ในการวัดความสัมพันธ์แบบคู่ระหว่างผู้ประเมินโดยใช้มาตรวัดที่มีลำดับ ค่าสัมประสิทธิ์สหสัมพันธ์ของ Pearson ถือว่ามาตรวัดนั้นเป็นแบบต่อเนื่อง ในขณะที่ค่าสัมประสิทธิ์สหสัมพันธ์ของ Kendall และ Spearman ถือว่ามาตรวัดนั้นเป็นแบบลำดับเท่านั้น หากมีผู้ประเมินมากกว่าสองคน สามารถคำนวณระดับความเห็นพ้องเฉลี่ยของกลุ่มได้โดยการหาค่าเฉลี่ยของค่า τ , τหรือค่าจากผู้ประเมินแต่ละคู่ที่เป็นไปได้ $r$ $\rho$ $r$ $\rho$

สัมประสิทธิ์สหสัมพันธ์ภายในกลุ่ม

อีกวิธีหนึ่งในการทดสอบความน่าเชื่อถือคือการใช้สัมประสิทธิ์สหสัมพันธ์ภายในกลุ่ม (ICC) ^{[ 12 ]}มีหลายประเภท และประเภทหนึ่งถูกกำหนดไว้ว่า "สัดส่วนของความแปรปรวนของการสังเกตเนื่องจากความแปรปรวนระหว่างบุคคลในคะแนนที่แท้จริง" ^{[ 13 ]}ช่วงของ ICC อาจอยู่ระหว่าง 0.0 ถึง 1.0 (คำจำกัดความแรกเริ่มของ ICC อาจอยู่ระหว่าง -1 ถึง +1) ICC จะสูงเมื่อมีความแปรปรวนน้อยระหว่างคะแนนที่ผู้ประเมินให้แก่แต่ละรายการ เช่น หากผู้ประเมินทั้งหมดให้คะแนนเดียวกันหรือคล้ายกันสำหรับแต่ละรายการ ICC เป็นการปรับปรุงที่ดีกว่าของ Pearson และ Spearman เนื่องจากคำนึงถึงความแตกต่างในการให้คะแนนสำหรับแต่ละส่วน พร้อมกับความสัมพันธ์ระหว่างผู้ประเมิน $r$ $\rho$

ขอบเขตของข้อตกลง

อีกแนวทางหนึ่งในการประเมินความสอดคล้อง (ซึ่งมีประโยชน์เมื่อมีผู้ประเมินเพียงสองคนและมาตรวัดเป็นแบบต่อเนื่อง) คือการคำนวณความแตกต่างระหว่างการสังเกตของผู้ประเมินทั้งสองคู่ ค่าเฉลี่ยของความแตกต่างเหล่านี้เรียกว่าค่าเบี่ยงเบนและช่วงอ้างอิง (ค่าเฉลี่ย ± 1.96 × ส่วนเบี่ยงเบนมาตรฐาน ) เรียกว่าขอบเขตความสอดคล้อง ขอบเขตความสอดคล้องช่วยให้เข้าใจว่าความผันแปรแบบสุ่มมีอิทธิพลต่อการประเมินมากน้อยเพียงใด

หากผู้ประเมินมักเห็นพ้องกัน ความแตกต่างระหว่างการสังเกตของผู้ประเมินจะใกล้เคียงกับศูนย์ หากผู้ประเมินคนใดคนหนึ่งมักให้คะแนนสูงกว่าหรือต่ำกว่าอีกคนหนึ่งอย่างสม่ำเสมอ ความเอนเอียงจะแตกต่างจากศูนย์ หากผู้ประเมินมักไม่เห็นด้วย แต่ไม่มีรูปแบบที่สม่ำเสมอที่ผู้ประเมินคนหนึ่งให้คะแนนสูงกว่าอีกคนหนึ่ง ค่าเฉลี่ยจะใกล้เคียงกับศูนย์ สามารถคำนวณช่วงความเชื่อมั่น (โดยปกติ 95%) สำหรับทั้งความเอนเอียงและขอบเขตความเห็นพ้องแต่ละด้านได้

มีสูตรหลายสูตรที่สามารถใช้ในการคำนวณขีดจำกัดของข้อตกลง สูตรง่ายๆ ซึ่งระบุไว้ในย่อหน้าก่อนหน้าและใช้ได้ดีสำหรับขนาดตัวอย่างที่มากกว่า 60 ^{[ 14 ]}คือ

{\bar {x}}\pm 1.96 วินาที

สำหรับขนาดตัวอย่างที่เล็กกว่า การลดความซับซ้อนทั่วไปอีกอย่างหนึ่ง^{[ 15 ]}คือ

{\bar {x}}\pm 2s

อย่างไรก็ตาม สูตรที่แม่นยำที่สุด (ซึ่งใช้ได้กับขนาดตัวอย่างทุกขนาด) ^{[ 14 ]}คือ

{\bar {x}}\pm t_{0.05,n-1}s{\sqrt {1+{\frac {1}{n}}}}

Bland และ Altman ^{[ 15 ]}ได้ขยายแนวคิดนี้โดยการสร้างกราฟแสดงความแตกต่างของแต่ละจุด ความแตกต่างเฉลี่ย และขอบเขตของความเห็นพ้องบนแนวตั้งเทียบกับค่าเฉลี่ยของการให้คะแนนทั้งสองบนแนวนอนแผนภาพ Bland–Altman ที่ได้ แสดงให้เห็นไม่เพียงแต่ระดับความเห็นพ้องโดยรวมเท่านั้น แต่ยังแสดงให้เห็นด้วยว่าความเห็นพ้องนั้นเกี่ยวข้องกับคุณค่าพื้นฐานของรายการหรือไม่ ตัวอย่างเช่น ผู้ให้คะแนนสองคนอาจเห็นพ้องกันอย่างใกล้ชิดในการประเมินขนาดของรายการขนาดเล็ก แต่ไม่เห็นด้วยเกี่ยวกับรายการขนาดใหญ่

เมื่อเปรียบเทียบวิธีการวัดสองวิธี สิ่งสำคัญไม่เพียงแต่คือการประเมินทั้งค่าความคลาดเคลื่อนและขอบเขตความสอดคล้องระหว่างสองวิธี (ความสอดคล้องระหว่างผู้ประเมิน) เท่านั้น แต่ยังต้องประเมินลักษณะเหล่านี้สำหรับแต่ละวิธีด้วย อาจเป็นไปได้ว่าความสอดคล้องระหว่างสองวิธีนั้นไม่ดีเพียงเพราะวิธีหนึ่งมีขอบเขตความสอดคล้อง กว้าง ในขณะที่อีกวิธีหนึ่งมีขอบเขตความสอดคล้องแคบ ในกรณีนี้ วิธีที่มีขอบเขตความสอดคล้อง แคบ จะดีกว่าในเชิงสถิติ ในขณะที่ข้อพิจารณาในทางปฏิบัติหรือข้อพิจารณาอื่นๆ อาจเปลี่ยนแปลงการประเมินนี้ได้ขอบเขตความสอดคล้อง ที่แคบหรือกว้าง หรือ ค่าความคลาดเคลื่อนมากหรือน้อยนั้นเป็นเรื่องของการประเมินในทางปฏิบัติในแต่ละกรณี

อัลฟ่าของคริปเพนดอร์ฟ

ค่าอัลฟาของ Krippendorff ^{[ 16 ]}^{[ 17 ]}เป็นสถิติอเนกประสงค์ที่ใช้ประเมินความสอดคล้องที่เกิดขึ้นระหว่างผู้สังเกตการณ์ที่จัดหมวดหมู่ ประเมิน หรือวัดวัตถุชุดหนึ่งตามค่าของตัวแปร โดยจะขยายค่าสัมประสิทธิ์ความสอดคล้องเฉพาะทางหลายค่าโดยยอมรับจำนวนผู้สังเกตการณ์ใดๆ ก็ได้ สามารถใช้ได้กับระดับการวัดแบบนาม แบบเรียงลำดับ แบบช่วง และแบบอัตราส่วน สามารถจัดการกับข้อมูลที่ขาดหายไปได้และได้รับการแก้ไขสำหรับขนาดตัวอย่างขนาดเล็ก

Alphaปรากฏขึ้นในด้านการวิเคราะห์เนื้อหาซึ่งหน่วยข้อความจะถูกจัดหมวดหมู่โดยผู้เข้ารหัสที่ได้รับการฝึกฝน และถูกนำไปใช้ในการให้คำปรึกษาและการวิจัยสำรวจซึ่งผู้เชี่ยวชาญจะเข้ารหัสข้อมูลการสัมภาษณ์แบบปลายเปิดให้เป็นคำที่สามารถวิเคราะห์ได้ ในด้านจิตวิทยาการวัดผลซึ่งมีการทดสอบคุณลักษณะส่วนบุคคลด้วยวิธีการหลายวิธี ในการศึกษาเชิงสังเกตซึ่งมีการบันทึกเหตุการณ์ที่ไม่เป็นโครงสร้างเพื่อการวิเคราะห์ในภายหลัง และในด้านภาษาศาสตร์เชิงคำนวณซึ่งมีการใส่คำอธิบายประกอบข้อความสำหรับคุณสมบัติทางไวยากรณ์และความหมายต่างๆ

ความไม่เห็นด้วย

สำหรับงานใดๆ ที่การมีผู้ประเมินหลายคนเป็นประโยชน์ ผู้ประเมินเหล่านั้นย่อมมีความเห็นไม่ตรงกันเกี่ยวกับเป้าหมายที่สังเกตได้ ในทางตรงกันข้าม สถานการณ์ที่เกี่ยวข้องกับการวัดที่ชัดเจน เช่น งานนับจำนวนอย่างง่าย (เช่น จำนวนลูกค้าที่เข้ามาในร้าน) มักไม่จำเป็นต้องมีคนทำการวัดมากกว่าหนึ่งคน

การวัดผลที่เกี่ยวข้องกับความคลุมเครือในลักษณะที่สนใจในเป้าหมายการประเมิน มักจะได้ผลลัพธ์ที่ดีขึ้นหากมีผู้ประเมินที่ผ่านการฝึกอบรมหลายคน งานวัดผลดังกล่าว มักเกี่ยวข้องกับการตัดสินคุณภาพโดยใช้ดุลพินิจส่วนตัว ตัวอย่างเช่น การประเมิน "มารยาทในการดูแลผู้ป่วย" ของแพทย์ การประเมินความน่าเชื่อถือของพยานโดยคณะลูกขุน และทักษะการนำเสนอของผู้พูด

ความแตกต่างระหว่างผู้ประเมินในขั้นตอนการวัดและความแปรปรวนในการตีความผลการวัดเป็นตัวอย่างสองประการของแหล่งที่มาของความคลาดเคลื่อนในการวัดระดับ การกำหนดแนวทางที่ชัดเจนสำหรับการให้คะแนนมีความจำเป็นต่อความน่าเชื่อถือในสถานการณ์การวัดที่ไม่ชัดเจนหรือท้าทาย

หากไม่มีหลักเกณฑ์การให้คะแนน การให้คะแนนจะได้รับผลกระทบจากอคติของผู้ทำการทดลอง มากขึ้น กล่าวคือ ค่าการให้คะแนนมีแนวโน้มที่จะเบี่ยงเบนไปสู่สิ่งที่ผู้ให้คะแนนคาดหวัง ในกระบวนการที่เกี่ยวข้องกับการวัดซ้ำ การแก้ไขการเบี่ยงเบนของผู้ให้คะแนนสามารถทำได้โดยการฝึกอบรมซ้ำเป็นระยะ เพื่อให้แน่ใจว่าผู้ให้คะแนนเข้าใจหลักเกณฑ์และเป้าหมายของการวัด

ดูเพิ่มเติม

เอกสารอ้างอิง

^ Saal, FE; Downey, RG; Lahey, MA (1980). "การให้คะแนนการให้คะแนน: การประเมินคุณภาพทางจิตวิทยาของการให้คะแนนข้อมูล"วารสารจิตวิทยา88 ( 2): 413. doi : 10.1037/0033-2909.88.2.413 .
^ Page, EB; Petersen, NS (1995). "คอมพิวเตอร์เข้ามามีบทบาทในการให้คะแนนเรียงความ: การปรับปรุงการทดสอบแบบโบราณ" . Phi Delta Kappan . 76 (7): 561.
^ Uebersax, JS (1987). "ความหลากหลายของแบบจำลองการตัดสินใจและการวัดความสอดคล้องระหว่างผู้ประเมิน"วารสารจิตวิทยา101 ( 1): 140– 146. doi : 10.1037/0033-2909.101.1.140 . S2CID 39240770 .
^ "การแก้ไขความน่าเชื่อถือระหว่างผู้ประเมินสำหรับความสอดคล้องโดยบังเอิญ: ทำไม?" . www.agreestat.com . เก็บถาวรจากต้นฉบับเมื่อ 2018-04-02 . เรียกดูเมื่อ2018-12-26 .
^ Cohen, J. (1960). "ค่าสัมประสิทธิ์ความสอดคล้องสำหรับมาตราส่วนนาม" (PDF)การวัดทางการศึกษาและจิตวิทยา20 (1): 37– 46. doi : 10.1177/001316446002000104 . S2CID 15926286 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2023-03-24 . สืบค้น เมื่อ 2022-12-29 .
^ Fleiss, JL (1971). "การวัดความสอดคล้องของมาตราส่วนนามในหมู่ผู้ประเมินหลายคน"วารสารจิตวิทยา76 ( 5): 378– 382. doi : 10.1037/h0031619 .
^ Landis, J. Richard; Koch, Gary G. (1977). "การวัดความสอดคล้องของผู้สังเกตการณ์สำหรับข้อมูลเชิงหมวดหมู่" . Biometrics . 33 (1): 159– 74. doi : 10.2307/2529310 . JSTOR 2529310 . PMID 843571 . S2CID 11077516 .
^ Landis, J. Richard; Koch, Gary G. (1977). "การประยุกต์ใช้สถิติแบบ Kappa ลำดับชั้นในการประเมินความเห็นพ้องส่วนใหญ่ในหมู่ผู้สังเกตการณ์หลายคน" Biometrics . 33 (2): 363– 74. doi : 10.2307/2529786 . JSTOR 2529786 . PMID 884196 .
^ Cicchetti, DV; Sparrow, SA (1981). "การพัฒนาเกณฑ์สำหรับการสร้างความน่าเชื่อถือระหว่างผู้ประเมินของรายการเฉพาะ: การประยุกต์ใช้ในการประเมินพฤติกรรมการปรับตัว" American Journal of Mental Deficiency . 86 (2): 127– 137. PMID 7315877 .
^ Fleiss, JL (21 เมษายน 1981). วิธีการทางสถิติสำหรับอัตราและสัดส่วน ฉบับที่ 2ไวลีย์ISBN 0-471-06428-9. OCLC 926949980 .
^ Regier, Darrel A.; Narrow, William E.; Clarke, Diana E.; Kraemer, Helena C.; Kuramoto, S. Janet; Kuhl, Emily A.; Kupfer, David J. (2013). "การทดลองภาคสนาม DSM-5 ในสหรัฐอเมริกาและแคนาดา ตอนที่ 2: ความน่าเชื่อถือของการทดสอบซ้ำของการวินิจฉัยเชิงหมวดหมู่ที่เลือก" American Journal of Psychiatry . 170 (1): 59– 70. doi : 10.1176/appi.ajp.2012.12070999 . ISSN 0002-953X . PMID 23111466 .
^ Shrout, PE; Fleiss, JL (1979). "ความสัมพันธ์ภายในกลุ่ม: การใช้งานในการประเมินความน่าเชื่อถือของผู้ประเมิน"วารสารจิตวิทยา86 ( 2): 420– 428. doi : 10.1037/0033-2909.86.2.420 . PMID 18839484 . S2CID 13168820 .
^เอเวอริตต์, บีเอส (1996). การทำความเข้าใจสถิติในวิชาจิตวิทยา: หลักสูตรระดับที่สองสำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด ISBN 978-0-19-852365-9.
^ ^a ^b Ludbrook, J. (2010). ความมั่นใจในแผนภาพ Altman–Bland: การวิจารณ์เชิงวิพากษ์ของวิธีการหาความแตกต่างเภสัชวิทยาและสรีรวิทยาทางคลินิกและการทดลอง 37 (2), 143-149
^ ^a ^b Bland, JM, & Altman, D. (1986). วิธีทางสถิติสำหรับการประเมินความสอดคล้องระหว่างสองวิธีการวัดทางคลินิกThe Lancet, 327 (8476), 307-310.
^ Krippendorff, Klaus (2018). การวิเคราะห์เนื้อหา: บทนำสู่ระเบียบวิธี (ฉบับที่ 4). ลอสแอนเจลิส. ISBN 9781506395661. OCLC 1019840156 .{{cite book}}: CS1 maint: ไม่พบตำแหน่งผู้เผยแพร่ ( ลิงก์ )
^ Hayes, AF; Krippendorff, K. (2007). "การตอบสนองต่อข้อเรียกร้องสำหรับมาตรวัดความน่าเชื่อถือมาตรฐานสำหรับการเข้ารหัสข้อมูล" วิธีการสื่อสารและการวัดผล 1 ( 1): 77– 89. doi : 10.1080/19312450709336664 . S2CID 15408575 .

อ่านเพิ่มเติม

Gwet, Kilem L. (2014). คู่มือความน่าเชื่อถือระหว่างผู้ประเมิน (ฉบับที่ 4). Gaithersburg: Advanced Analytics. ISBN 978-0970806284. OCLC 891732741 .
Gwet, KL (2008). "การคำนวณความน่าเชื่อถือระหว่างผู้ประเมินและความแปรปรวนในกรณีที่มีความเห็นพ้องสูง" ( PDF)วารสารจิตวิทยาคณิตศาสตร์และสถิติของอังกฤษ 61 (ตอนที่ 1): 29–48 . doi : 10.1348/000711006X126600 . PMID 18482474. S2CID 13915043.เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2016-03-03 . สืบค้นเมื่อ2010-06-16 .
จอห์นสัน, อาร์.; เพนนี, เจ.; กอร์ดอน, บี. (2009). การประเมินผลการปฏิบัติงาน: การพัฒนา การให้คะแนน และการตรวจสอบความถูกต้องของงานประเมินผลการปฏิบัติงานกิลฟอร์ด. ISBN 978-1-59385-988-6.
Shoukri, MM (2010). การวัดความสอดคล้องและความน่าเชื่อถือระหว่างผู้สังเกตการณ์ (ฉบับที่ 2). สำนักพิมพ์ CRC. ISBN 978-1-4398-1080-4. OCLC 815928115 .

ลิงก์ภายนอก

[1] Saal, FE; Downey, RG; Lahey, MA (1980). "การให้คะแนนการให้คะแนน: การประเมินคุณภาพทางจิตวิทยาของการให้คะแนนข้อมูล"วารสารจิตวิทยา88 ( 2): 413. doi : 10.1037/0033-2909.88.2.413 .

[2] Page, EB; Petersen, NS (1995). "คอมพิวเตอร์เข้ามามีบทบาทในการให้คะแนนเรียงความ: การปรับปรุงการทดสอบแบบโบราณ" . Phi Delta Kappan . 76 (7): 561.

[3] Uebersax, JS (1987). "ความหลากหลายของแบบจำลองการตัดสินใจและการวัดความสอดคล้องระหว่างผู้ประเมิน"วารสารจิตวิทยา101 ( 1): 140– 146. doi : 10.1037/0033-2909.101.1.140 . S2CID 39240770 .

[4] "การแก้ไขความน่าเชื่อถือระหว่างผู้ประเมินสำหรับความสอดคล้องโดยบังเอิญ: ทำไม?" . www.agreestat.com . เก็บถาวรจากต้นฉบับเมื่อ 2018-04-02 . เรียกดูเมื่อ2018-12-26 .

[5] Cohen, J. (1960). "ค่าสัมประสิทธิ์ความสอดคล้องสำหรับมาตราส่วนนาม" (PDF)การวัดทางการศึกษาและจิตวิทยา20 (1): 37– 46. doi : 10.1177/001316446002000104 . S2CID 15926286 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2023-03-24 . สืบค้น เมื่อ 2022-12-29 .

[6] Fleiss, JL (1971). "การวัดความสอดคล้องของมาตราส่วนนามในหมู่ผู้ประเมินหลายคน"วารสารจิตวิทยา76 ( 5): 378– 382. doi : 10.1037/h0031619 .

[7] Landis, J. Richard; Koch, Gary G. (1977). "การวัดความสอดคล้องของผู้สังเกตการณ์สำหรับข้อมูลเชิงหมวดหมู่" . Biometrics . 33 (1): 159– 74. doi : 10.2307/2529310 . JSTOR 2529310 . PMID 843571 . S2CID 11077516 .

[8] Landis, J. Richard; Koch, Gary G. (1977). "การประยุกต์ใช้สถิติแบบ Kappa ลำดับชั้นในการประเมินความเห็นพ้องส่วนใหญ่ในหมู่ผู้สังเกตการณ์หลายคน" Biometrics . 33 (2): 363– 74. doi : 10.2307/2529786 . JSTOR 2529786 . PMID 884196 .

[9] Cicchetti, DV; Sparrow, SA (1981). "การพัฒนาเกณฑ์สำหรับการสร้างความน่าเชื่อถือระหว่างผู้ประเมินของรายการเฉพาะ: การประยุกต์ใช้ในการประเมินพฤติกรรมการปรับตัว" American Journal of Mental Deficiency . 86 (2): 127– 137. PMID 7315877 .

[10] Fleiss, JL (21 เมษายน 1981). วิธีการทางสถิติสำหรับอัตราและสัดส่วน ฉบับที่ 2ไวลีย์ISBN 0-471-06428-9. OCLC 926949980 .

[11] Regier, Darrel A.; Narrow, William E.; Clarke, Diana E.; Kraemer, Helena C.; Kuramoto, S. Janet; Kuhl, Emily A.; Kupfer, David J. (2013). "การทดลองภาคสนาม DSM-5 ในสหรัฐอเมริกาและแคนาดา ตอนที่ 2: ความน่าเชื่อถือของการทดสอบซ้ำของการวินิจฉัยเชิงหมวดหมู่ที่เลือก" American Journal of Psychiatry . 170 (1): 59– 70. doi : 10.1176/appi.ajp.2012.12070999 . ISSN 0002-953X . PMID 23111466 .

[12] Shrout, PE; Fleiss, JL (1979). "ความสัมพันธ์ภายในกลุ่ม: การใช้งานในการประเมินความน่าเชื่อถือของผู้ประเมิน"วารสารจิตวิทยา86 ( 2): 420– 428. doi : 10.1037/0033-2909.86.2.420 . PMID 18839484 . S2CID 13168820 .

[13] เอเวอริตต์, บีเอส (1996). การทำความเข้าใจสถิติในวิชาจิตวิทยา: หลักสูตรระดับที่สองสำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด ISBN 978-0-19-852365-9.

[Ludbrook-14] Ludbrook, J. (2010). ความมั่นใจในแผนภาพ Altman–Bland: การวิจารณ์เชิงวิพากษ์ของวิธีการหาความแตกต่างเภสัชวิทยาและสรีรวิทยาทางคลินิกและการทดลอง 37 (2), 143-149

[Bland-15] Bland, JM, & Altman, D. (1986). วิธีทางสถิติสำหรับการประเมินความสอดคล้องระหว่างสองวิธีการวัดทางคลินิกThe Lancet, 327 (8476), 307-310.

[16] Krippendorff, Klaus (2018). การวิเคราะห์เนื้อหา: บทนำสู่ระเบียบวิธี (ฉบับที่ 4). ลอสแอนเจลิส. ISBN 9781506395661. OCLC 1019840156 .{{cite book}}: CS1 maint: ไม่พบตำแหน่งผู้เผยแพร่ ( ลิงก์ )

[17] Hayes, AF; Krippendorff, K. (2007). "การตอบสนองต่อข้อเรียกร้องสำหรับมาตรวัดความน่าเชื่อถือมาตรฐานสำหรับการเข้ารหัสข้อมูล" วิธีการสื่อสารและการวัดผล 1 ( 1): 77– 89. doi : 10.1080/19312450709336664 . S2CID 15408575 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]