กลับไปหน้าบทความ

อ่าน 7 นาที

ปัญหาการเปรียบเทียบหลายรายการ

ปัญหาการเปรียบเทียบหลายครั้งหรือ การทดสอบ หลาย ครั้ง เกิดขึ้นเมื่อมีการทดสอบทางสถิติหลายครั้งกับชุดข้อมูลเดียวกัน การทดสอบแต่ละครั้งมีโอกาสเกิดข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ)...

ปัญหาการเปรียบเทียบหลายรายการ

ตัวอย่างหนึ่งของความบังเอิญที่เกิดจากการขุดค้นข้อมูล (การเปรียบเทียบหลายรายการที่ไม่ได้แก้ไข) แสดงให้เห็นถึงความสัมพันธ์ระหว่างจำนวนตัวอักษรในคำที่ชนะการประกวดสะกดคำกับจำนวนคนในสหรัฐอเมริกาที่เสียชีวิตจากแมงมุมพิษ หากมีตัวแปรจำนวนมากพอในช่วงเวลาเดียวกัน ก็เป็นไปได้ที่จะพบกราฟสองกราฟที่แสดง ความสัมพันธ์ ที่ผิดพลาด

ปัญหาการเปรียบเทียบหลายครั้งหรือ การทดสอบ หลาย ครั้ง เกิดขึ้นเมื่อมีการทดสอบทางสถิติหลายครั้งกับชุดข้อมูลเดียวกัน การทดสอบแต่ละครั้งมีโอกาสเกิดข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ) ของตัวเอง ดังนั้นความน่าจะเป็นโดยรวมของการเกิดผลบวกเท็จอย่างน้อยหนึ่งครั้งจะเพิ่มขึ้นเมื่อจำนวนการทดสอบเพิ่มขึ้น ในทางสถิติปัญหานี้เกิดขึ้นเมื่อพิจารณาชุดการอนุมานทางสถิติ พร้อมกัน [ 1 ]หรือประมาณค่าพารามิเตอร์ย่อยที่เลือกโดยอิงจากค่าที่สังเกตได้[ 2 ]

ความน่าจะเป็นของผลลัพธ์ที่ผิดพลาด (false positives) วัดได้จาก อัตราความผิดพลาดโดยรวมของกลุ่มตัวอย่าง ( family-wise error rateหรือ FWER) ยิ่งจำนวนการอนุมานที่ทำในชุดการทดสอบมีมากเท่าใด โอกาสที่จะเกิดการอนุมานที่ผิดพลาดก็ยิ่งมากขึ้นเท่านั้น มีการพัฒนาเทคนิคทางสถิติหลายอย่างเพื่อชดเชยจำนวนการอนุมานที่เกิดขึ้น เช่น การกำหนดเกณฑ์ความสำคัญที่เข้มงวดมากขึ้นสำหรับการเปรียบเทียบแต่ละครั้ง

ประวัติศาสตร์

ปัญหาการเปรียบเทียบหลายรายการได้รับความสนใจเพิ่มขึ้นในช่วงทศวรรษ 1950 จากผลงานของนักสถิติ เช่นTukeyและSchefféตลอดหลายทศวรรษต่อมา มีการพัฒนาขั้นตอนต่างๆ มากมายเพื่อแก้ไขปัญหานี้ ในปี 1996 การประชุมนานาชาติครั้งแรกเกี่ยวกับขั้นตอนการเปรียบเทียบหลายรายการได้จัดขึ้นที่เทลอาวี[ 3 ]นักวิจัยหลายคนทำงานอยู่ในสาขานี้ เช่นEmmanuel CandèsและVladimir Vovk

คำนิยาม

การสร้างค่า p ขนาดเล็กโดยการทดสอบหลายครั้งมีการสังเกตตัวอย่าง 30 ตัวอย่าง ตัวอย่างละ 10 จุด สีสุ่ม (สีน้ำเงินหรือสีแดง) ในแต่ละตัวอย่าง จะทำการ ทดสอบแบบทวินาม สองด้าน ของสมมติฐานว่างที่ว่า สีน้ำเงินและสีแดงมีโอกาสเท่ากัน แถวแรกแสดงค่า p ที่เป็นไปได้เป็นฟังก์ชันของจำนวนจุดสีน้ำเงินและสีแดงในตัวอย่างแม้ว่าตัวอย่างทั้ง 30 ตัวอย่างจะถูกจำลองภายใต้สมมติฐานว่าง แต่ค่า p ที่ได้ค่าหนึ่งมีขนาดเล็กพอที่จะทำให้เกิดการปฏิเสธที่ผิดพลาดที่ระดับ 0.05 ทั่วไป หากไม่มีการแก้ไข

การเปรียบเทียบหลายรายการเกิดขึ้นเมื่อการวิเคราะห์ทางสถิติเกี่ยวข้องกับการทดสอบทางสถิติหลายรายการพร้อมกัน ซึ่งแต่ละรายการมีศักยภาพที่จะก่อให้เกิด "การค้นพบ" ระดับความเชื่อมั่นที่ระบุไว้โดยทั่วไปจะใช้ได้เฉพาะกับการทดสอบแต่ละรายการที่พิจารณาแยกกัน แต่บ่อยครั้งที่พึงปรารถนาที่จะมีระดับความเชื่อมั่นสำหรับการทดสอบทั้งหมดพร้อมกัน[ 4 ] การไม่ชดเชยการเปรียบเทียบหลายรายการอาจส่งผลกระทบสำคัญในโลกแห่งความเป็นจริง ดังตัวอย่างต่อไปนี้:

  • สมมติว่าการทดลองคือวิธีการสอนการเขียนแบบใหม่สำหรับนักเรียน และกลุ่มควบคุมคือวิธีการสอนการเขียนแบบมาตรฐาน นักเรียนในสองกลุ่มนี้สามารถเปรียบเทียบกันได้ในแง่ของไวยากรณ์ การสะกดคำ การเรียบเรียง เนื้อหา และอื่นๆ ยิ่งเปรียบเทียบคุณลักษณะมากขึ้นเท่าไร โอกาสที่กลุ่มทดลองและกลุ่มควบคุมจะดูแตกต่างกันอย่างน้อยหนึ่งคุณลักษณะเนื่องจากความคลาดเคลื่อนจากการสุ่มตัวอย่าง ก็จะยิ่งมาก ขึ้นเท่านั้น
  • สมมติว่าเราพิจารณาประสิทธิภาพของยาในแง่ของการลดลงของอาการใดอาการหนึ่งจากหลายอาการของโรค ยิ่งพิจารณาอาการมากขึ้นเท่าไร โอกาสที่ยาตัวนั้นจะแสดงให้เห็นว่าดีกว่ายาที่มีอยู่เดิมอย่างน้อยหนึ่งอาการก็จะยิ่งมากขึ้นเท่านั้น

ในทั้งสองตัวอย่าง เมื่อจำนวนการเปรียบเทียบเพิ่มขึ้น โอกาสที่กลุ่มที่ถูกเปรียบเทียบจะดูแตกต่างกันอย่างน้อยหนึ่งคุณลักษณะก็จะยิ่งมากขึ้น ความมั่นใจของเราที่ว่าผลลัพธ์จะสามารถนำไปใช้กับข้อมูลอิสระได้นั้น โดยทั่วไปแล้วควรจะลดลงหากสังเกตได้จากการวิเคราะห์ที่มีการเปรียบเทียบหลายครั้ง มากกว่าการวิเคราะห์ที่มีการเปรียบเทียบเพียงครั้งเดียว

ตัวอย่างเช่น หากทำการทดสอบหนึ่งครั้งที่ระดับนัยสำคัญ 5% และสมมติฐานว่างที่เกี่ยวข้องเป็นจริง ความเสี่ยงที่จะปฏิเสธสมมติฐานว่างอย่างไม่ถูกต้องจะมีเพียง 5% เท่านั้น อย่างไรก็ตาม หากทำการทดสอบ 100 ครั้งที่ระดับนัยสำคัญ 5% เท่ากันทั้งหมด และสมมติฐานว่างที่เกี่ยวข้องทั้งหมดเป็นจริงจำนวนการปฏิเสธที่ไม่ถูกต้องที่คาดหวัง (หรือที่เรียกว่าผลบวกเท็จหรือข้อผิดพลาดประเภทที่ 1 ) คือ 5 หากการทดสอบเป็นอิสระต่อกันทางสถิติ (เช่น ทำกับตัวอย่างอิสระ) ความน่าจะเป็นของการปฏิเสธที่ไม่ถูกต้องอย่างน้อยหนึ่งครั้งจะอยู่ที่ประมาณ 99.4%

ปัญหาการเปรียบเทียบหลายรายการยังใช้ได้กับช่วงความเชื่อมั่นด้วย ช่วงความเชื่อมั่นเดียวที่มี ระดับ ความน่าจะเป็นครอบคลุม 95% จะครอบคลุมค่าที่แท้จริงของพารามิเตอร์ใน 95% ของตัวอย่าง อย่างไรก็ตาม หากพิจารณาช่วงความเชื่อมั่น 100 ช่วงพร้อมกัน โดยแต่ละช่วงมีความน่าจะเป็นครอบคลุม 95% จำนวนช่วงที่ไม่ครอบคลุมโดยเฉลี่ยคือ 5 ช่วง หากช่วงเหล่านั้นเป็นอิสระทางสถิติจากกันและกัน ความน่าจะเป็นที่อย่างน้อยหนึ่งช่วงจะไม่ครอบคลุมพารามิเตอร์ของประชากรคือ 99.4%

มีการพัฒนาเทคนิคต่างๆ เพื่อป้องกันการเพิ่มขึ้นของอัตราผลบวกเท็จและอัตราการไม่ครอบคลุมที่เกิดขึ้นจากการทดสอบทางสถิติหลายครั้ง

การจำแนกประเภทของการทดสอบสมมติฐานหลายรายการ

ตารางต่อ ไปนี้แสดงผลลัพธ์ที่เป็นไปได้เมื่อทดสอบสมมติฐานว่างหลายข้อ สมมติว่าเรามีสมมติฐานว่างจำนวนm ข้อ ซึ่งแสดงด้วย H₁ , H₂ , ...  , Hᵢโดย  ใช้ การทดสอบทางสถิติเราจะปฏิเสธสมมติฐานว่างหากการทดสอบนั้นมีนัยสำคัญ เราจะไม่ปฏิเสธสมมติฐานว่างหากการทดสอบนั้นไม่มีนัยสำคัญ การรวมผลลัพธ์แต่ละประเภทสำหรับHᵢ ทั้งหมด จะ   ได้ตัวแปรสุ่มดังต่อไปนี้:

สมมติฐานว่างเป็นจริง (H 0 ) สมมติฐานทางเลือกเป็นจริง ( HA ) ทั้งหมด
การทดสอบนี้ถือว่ามีความสำคัญ วีเอสอาร์
ผลการทดสอบถูกประกาศว่าไม่มีนัยสำคัญ ยูที
ทั้งหมด

ใน การทดสอบสมมติฐาน m ครั้งซึ่งมีสมมติฐานว่างที่เป็นจริงRเป็นตัวแปรสุ่มที่สังเกตได้ และS , T , UและVเป็นตัวแปรสุ่ม ที่สังเกตไม่ ได้

ขั้นตอนการควบคุม

P(at least 1 H_0 is wrongly rejected)00.20.40.60.8101020304050P(at least 1 H_0 is wrongly rejected)Probability of rejecting null hypothesis
ความน่าจะเป็นที่สมมติฐานว่างอย่างน้อยหนึ่งข้อจะถูกปฏิเสธอย่างผิดพลาด สำหรับเป็นฟังก์ชันของจำนวนการทดสอบอิสระดูข้อมูลต้นฉบับ

การแก้ไขการทดสอบหลายรายการ

การแก้ไขการทดสอบหลายครั้งหมายถึงการทำให้การทดสอบทางสถิติมีความเข้มงวดมากขึ้นเพื่อแก้ปัญหาการทดสอบหลายครั้ง วิธีการปรับแก้ที่เป็นที่รู้จักดีที่สุดคือการแก้ไขแบบบอนเฟอร์โรนีแต่ก็มีการพัฒนาวิธีการอื่นๆ ขึ้นมาด้วย โดยทั่วไปแล้ว วิธีการเหล่านี้ได้รับการออกแบบมาเพื่อควบคุมอัตราความผิดพลาดโดยรวมหรือ อัตราการค้นพบที่ ผิด พลาด

ถ้าทำการเปรียบเทียบอิสระm ครั้งอัตราความผิดพลาดโดยรวม (FWER) จะคำนวณได้จากสูตร

ดังนั้น เว้นแต่ว่าการทดสอบจะเป็นอิสระต่อกันอย่างสมบูรณ์ (กล่าวคือ เหมือนกันทุกประการ) ค่าจะเพิ่มขึ้นตามจำนวนการเปรียบเทียบที่เพิ่มขึ้น หากเราไม่สมมติว่าการเปรียบเทียบเป็นอิสระต่อกัน เราก็ยังสามารถกล่าวได้ว่า:

ซึ่งเป็นผลมาจากอสมการของบูลตัวอย่าง:

มีหลายวิธีที่จะรับประกันว่าอัตราความผิดพลาดแบบครอบคลุมทั้งครอบครัวจะมีค่าสูงสุดไม่เกินวิธีที่อนุรักษ์นิยมที่สุด ซึ่งปราศจากสมมติฐานเรื่องการพึ่งพาและการกระจายตัว คือการแก้ไขแบบ Bonferroniการแก้ไขที่อนุรักษ์นิยมน้อยกว่าเล็กน้อยสามารถทำได้โดยการแก้สมการสำหรับอัตราความผิดพลาดแบบครอบคลุมทั้งครอบครัวของการเปรียบเทียบอิสระสำหรับซึ่งจะได้ ซึ่งเรียกว่าการแก้ไขแบบ Šidákอีกวิธีหนึ่งคือวิธี Holm–Bonferroniซึ่งให้พลังมากกว่าการแก้ไขแบบ Bonferroni อย่างง่ายอย่างสม่ำเสมอ โดยการทดสอบเฉพาะค่า p ต่ำสุด ( ) กับเกณฑ์ที่เข้มงวดที่สุด และค่า p ที่สูงกว่า ( ) กับเกณฑ์ที่เข้มงวดน้อยลงเรื่อยๆ[ 5 ]

วิธีการ Bonferroni แบบคลาสสิกนั้นเข้าใจง่าย แต่ไม่ควรใช้เนื่องจากอนุรักษ์นิยมมากเกินไป มีเครื่องคำนวณออนไลน์เพื่อแก้ไขการเปรียบเทียบหลายรายการโดยใช้วิธี Holm-Bonferroni ที่ทันสมัยกว่าหรือขั้นตอน Benjamini-Hochberg [ 6 ]

สำหรับปัญหาต่อเนื่อง สามารถใช้ ตรรกะแบบ เบย์เซียนในการคำนวณจากอัตราส่วนปริมาตรก่อนหน้าต่อปริมาตรภายหลังได้ การวางนัยทั่วไปแบบต่อเนื่องของ การแก้ไข BonferroniและŠidákได้ถูกนำเสนอไว้ใน[ 7 ]

การทดสอบหลายรายการขนาดใหญ่

วิธีการปรับแก้การเปรียบเทียบหลายรายการแบบดั้งเดิมมุ่งเน้นไปที่การแก้ไขจำนวนการเปรียบเทียบที่ไม่มากนัก ซึ่งมักจะทำในการวิเคราะห์ความแปรปรวน แต่มีการพัฒนาเทคนิคชุดใหม่สำหรับ "การทดสอบหลายรายการขนาดใหญ่" ซึ่งมีการทดสอบหลายพันครั้งหรือมากกว่านั้น ตัวอย่างเช่น ในด้านจีโนมิกส์เมื่อใช้เทคโนโลยีเช่นไมโครอาร์เรย์สามารถวัดระดับการแสดงออกของยีนได้หลายหมื่นยีน และสามารถวัดจีโนไทป์สำหรับเครื่องหมายทางพันธุกรรมได้หลายล้านตัว โดยเฉพาะอย่างยิ่งในสาขา การศึกษา ความสัมพันธ์ทางพันธุกรรมมีปัญหาสำคัญเกี่ยวกับการไม่สามารถทำซ้ำได้ กล่าวคือ ผลลัพธ์มีความสำคัญทางสถิติอย่างมากในการศึกษาหนึ่ง แต่ไม่สามารถทำซ้ำได้ในการศึกษาติดตามผล การไม่สามารถทำซ้ำได้ดังกล่าวอาจมีสาเหตุหลายประการ แต่โดยทั่วไปเชื่อกันว่าการไม่คำนึงถึงผลที่ตามมาจากการเปรียบเทียบหลายรายการอย่างครบถ้วนเป็นหนึ่งในสาเหตุเหล่านั้น[ 8 ]มีการโต้แย้งว่าความก้าวหน้าในการวัดและเทคโนโลยีสารสนเทศทำให้การสร้างชุดข้อมูลขนาดใหญ่สำหรับการวิเคราะห์เชิงสำรวจ ทำได้ง่ายขึ้นมาก ซึ่งมักนำไปสู่การทดสอบสมมติฐานจำนวนมากโดยไม่มีพื้นฐานมาก่อนสำหรับการคาดหวังว่าสมมติฐานจำนวนมากจะเป็นจริง ในสถานการณ์นี้ คาดว่าจะมี อัตราการเกิดผลบวกเท็จ สูงมาก เว้นแต่จะมีการปรับการเปรียบเทียบหลายรายการ

สำหรับปัญหาการทดสอบขนาดใหญ่ที่เป้าหมายคือการให้ผลลัพธ์ที่ชัดเจนอัตราความผิดพลาดแบบครอบคลุมทั้งกลุ่มยังคงเป็นพารามิเตอร์ที่ได้รับการยอมรับมากที่สุดสำหรับการกำหนดระดับนัยสำคัญของการทดสอบทางสถิติ ในทางกลับกัน หากการศึกษาถูกมองว่าเป็นการสำรวจ หรือหากผลลัพธ์ที่มีนัยสำคัญสามารถทดสอบซ้ำได้ง่ายในการศึกษาอิสระ การควบคุมอัตราการค้นพบที่ผิดพลาด (FDR) [ 9 ] [ 10 ] [ 11 ]มักเป็นที่ต้องการมากกว่า FDR ซึ่งนิยามอย่างคร่าวๆ ว่าเป็นสัดส่วนที่คาดหวังของผลบวกเท็จในบรรดาการทดสอบที่มีนัยสำคัญทั้งหมด ช่วยให้นักวิจัยสามารถระบุชุดของ "ผลบวกที่เป็นไปได้" ที่สามารถประเมินได้อย่างเข้มงวดมากขึ้นในการศึกษาติดตามผล[ 12 ]

การปฏิบัติที่พยายามเปรียบเทียบหลายครั้งโดยไม่ได้ปรับค่าโดยหวังว่าจะพบการเปรียบเทียบที่มีนัยสำคัญนั้นเป็นปัญหาที่ทราบกันดี ไม่ว่าจะนำไปใช้โดยไม่ได้ตั้งใจหรือโดยเจตนา บางครั้งเรียกว่า " p-hacking " [ 13 ] [ 14 ]

การประเมินว่าสมมติฐานทางเลือกใดเป็นจริงหรือไม่

แผนภาพควอนไทล์ปกติสำหรับชุดสถิติการทดสอบจำลองที่ถูกทำให้เป็นค่า Zภายใต้สมมติฐานว่าง การเบี่ยงเบนของส่วนหางด้านบนของการกระจายจากแนวโน้มที่คาดหวังตามแนวทแยงมุมนั้นเกิดจากการมีค่าสถิติการทดสอบขนาดใหญ่มากกว่าที่คาดไว้หากสมมติฐานว่างทั้งหมดเป็นจริง จุดสีแดงสอดคล้องกับค่าสถิติการทดสอบที่สังเกตได้ใหญ่เป็นอันดับสี่ ซึ่งคือ 3.13 เทียบกับค่าที่คาดหวังคือ 2.06 จุดสีน้ำเงินสอดคล้องกับค่าสถิติการทดสอบที่เล็กเป็นอันดับห้า ซึ่งคือ -1.75 เทียบกับค่าที่คาดหวังคือ -1.96 กราฟแสดงให้เห็นว่าไม่น่าเป็นไปได้ที่สมมติฐานว่างทั้งหมดจะเป็นจริง และกรณีส่วนใหญ่หรือทั้งหมดของสมมติฐานทางเลือกที่เป็นจริงนั้นเกิดจากการเบี่ยงเบนไปในทิศทางบวก

คำถามพื้นฐานที่ต้องเผชิญเมื่อเริ่มวิเคราะห์ชุดผลการทดสอบจำนวนมากคือ มีหลักฐานใดบ้างที่บ่งชี้ว่าสมมติฐานทางเลือกใดเป็นจริง การทดสอบแบบง่ายๆ ที่สามารถนำมาใช้ได้เมื่อสมมติว่าการทดสอบเป็นอิสระต่อกัน คือ การใช้การแจกแจงปัวซงเป็นแบบจำลองสำหรับจำนวนผลลัพธ์ที่มีนัยสำคัญที่ระดับ α ที่กำหนด ซึ่งจะพบได้เมื่อสมมติฐานว่างทั้งหมดเป็นจริง หากจำนวนผลลัพธ์ที่เป็นบวกที่สังเกตได้มีมากกว่าที่คาดไว้มาก แสดงว่าอาจมีผลลัพธ์ที่เป็นบวกที่แท้จริงปะปนอยู่ในผลลัพธ์ที่มีนัยสำคัญเหล่านั้น

ตัวอย่างเช่น หากทำการทดสอบอิสระ 1,000 ครั้ง โดยแต่ละครั้งมีระดับนัยสำคัญ α = 0.05 เราคาดว่าจะมีผลการทดสอบที่มีนัยสำคัญ 0.05 × 1,000 = 50 ครั้ง เมื่อสมมติฐานว่างทั้งหมดเป็นจริง จากการแจกแจงแบบปัวซงที่มีค่าเฉลี่ย 50 ความน่าจะเป็นที่จะพบผลการทดสอบที่มีนัยสำคัญมากกว่า 61 ครั้งนั้นน้อยกว่า 0.05 ดังนั้นหากพบผลลัพธ์ที่มีนัยสำคัญมากกว่า 61 ครั้ง ก็เป็นไปได้มากว่าบางส่วนจะสอดคล้องกับสถานการณ์ที่สมมติฐานทางเลือกเป็นจริง ข้อเสียของวิธีการนี้คือมันประเมินหลักฐานที่ว่าสมมติฐานทางเลือกบางส่วนเป็นจริงสูงเกินไป เมื่อค่าสถิติการทดสอบมีความสัมพันธ์กันในเชิงบวก ซึ่งมักเกิดขึ้นในทางปฏิบัติ ในทางกลับกัน วิธีการนี้ยังคงใช้ได้แม้จะมีความสัมพันธ์กันระหว่างค่าสถิติการทดสอบ ตราบใดที่สามารถแสดงให้เห็นว่าการแจกแจงแบบปัวซงให้ค่าประมาณที่ดีสำหรับจำนวนผลลัพธ์ที่มีนัยสำคัญ สถานการณ์นี้เกิดขึ้น ตัวอย่างเช่น เมื่อทำการขุดหาชุดรายการที่เกิดขึ้นบ่อยอย่างมีนัยสำคัญจากชุดข้อมูลธุรกรรม นอกจากนี้ การวิเคราะห์สองขั้นตอนอย่างระมัดระวังสามารถจำกัด FDR ไว้ที่ระดับที่กำหนดไว้ล่วงหน้าได้[ 15 ]

อีกแนวทางหนึ่งที่นิยมใช้ในกรณีที่สามารถแปลงค่าสถิติการทดสอบ ให้เป็นค่า Z-score ได้ คือการสร้างแผนภาพควอนไทล์ปกติ ของค่าสถิติการทดสอบ หากควอนไทล์ที่สังเกตได้ กระจายตัวมากกว่าควอนไทล์ปกติอย่างเห็นได้ชัด แสดงว่าผลลัพธ์ที่มีนัยสำคัญบางส่วนอาจเป็นผลบวกที่แท้จริง

ดูเพิ่มเติม

แนวคิดหลัก
ขั้นตอนเดียว
ขั้นตอนการผ่าตัดแบบ "ป้องกัน" สองขั้นตอน
ขั้นตอนตามลำดับ
วิธีการทั่วไปในการปรับค่าอัลฟาสำหรับการเปรียบเทียบหลายรายการ
แนวคิดที่เกี่ยวข้อง

อ่านเพิ่มเติม

  • F. Bretz, T. Hothorn, P. Westfall (2010), การเปรียบเทียบหลายรายการโดยใช้ R , CRC Press
  • S. Dudoitและ MJ van der Laan (2008), ขั้นตอนการทดสอบหลายวิธีพร้อมการประยุกต์ใช้กับจีโนมิกส์ , Springer
  • Farcomeni, A. (2008). "การทบทวนการทดสอบสมมติฐานหลายรายการสมัยใหม่ โดยให้ความสนใจเป็นพิเศษกับสัดส่วนการค้นพบที่ผิดพลาด" วิธีการทางสถิติในการวิจัยทางการแพทย์ 17 ( 4): 347– 388. doi : 10.1177/0962280206079046 . hdl : 11573/142139 . PMID  17698936 . S2CID  12777404 .
  • Phipson, B.; Smyth, GK (2010). "ค่า P ของการเรียงสับเปลี่ยนไม่ควรเป็นศูนย์: การคำนวณค่า P ที่แม่นยำเมื่อการเรียงสับเปลี่ยนถูกสุ่มเลือก" การประยุกต์ใช้ทางสถิติในพันธุศาสตร์และชีววิทยาโมเลกุล 9 :บทความ 39. arXiv : 1603.05766 . doi : 10.2202/1544-6115.1585 . PMID  21044043 . S2CID  10735784 .
  • PH Westfall และ SS Young (1993), การทดสอบหลายรายการโดยใช้การสุ่มตัวอย่างซ้ำ: ตัวอย่างและวิธีการปรับค่า p , Wiley
  • P. Westfall, R. Tobias, R. Wolfinger (2011) การเปรียบเทียบหลายกลุ่มและการทดสอบหลายกลุ่มโดยใช้ SASฉบับที่ 2 สถาบัน SAS
  • รวมตัวอย่างความสัมพันธ์ที่ไม่น่าเชื่อถือซึ่งได้มาจากการค้นหาข้อมูลอย่างเจาะจง
  • [1]การ์ตูนxkcdเกี่ยวกับปัญหาการเปรียบเทียบหลายรายการ โดยใช้เยลลี่บีนและสิวเป็นตัวอย่าง
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Multiple_comparisons_problem&oldid=1358729732#Correction "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ปัญหาการเปรียบเทียบหลายรายการ

ปัญหาการเปรียบเทียบหลายครั้งหรือ การทดสอบ หลาย ครั้ง เกิดขึ้นเมื่อมีการทดสอบทางสถิติหลายครั้งกับชุดข้อมูลเดียวกัน การทดสอบแต่ละครั้งมีโอกาสเกิดข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ)...

ประวัติศาสตร์

ปัญหาการเปรียบเทียบหลายรายการได้รับความสนใจเพิ่มขึ้นในช่วงทศวรรษ 1950 จากผลงานของนักสถิติ เช่น Tukey และ Scheffé ตลอดหลายทศวรรษต่อมา มีการพัฒนาขั้นตอนต่างๆ มากมายเพื่อแก้ไขปัญหานี้ ในปี 1996...

คำนิยาม

การเปรียบเทียบหลายรายการเกิดขึ้นเมื่อการวิเคราะห์ทางสถิติเกี่ยวข้องกับการทดสอบทางสถิติหลายรายการพร้อมกัน ซึ่งแต่ละรายการมีศักยภาพที่จะก่อให้เกิด "การค้นพบ" ระดับความเชื่อมั่นที่ระบุไว้โดยทั่วไปจะใช้ได้เฉพาะกับการทดสอบแต่ละรายการที่พิจารณาแยกกัน...

การจำแนกประเภทของการทดสอบสมมติฐานหลายรายการ

ตารางต่อ ไป นี้ แสดงผลลัพธ์ที่เป็นไปได้เมื่อทดสอบสมมติฐานว่างหลายข้อ สมมติว่าเรามีสมมติฐานว่างจำนวน m ข้อ ซึ่งแสดงด้วย H₁ , H₂ , ...