อ่าน 7 นาที
ปัญหาการเปรียบเทียบหลายรายการ
ปัญหาการเปรียบเทียบหลายครั้งหรือ การทดสอบ หลาย ครั้ง เกิดขึ้นเมื่อมีการทดสอบทางสถิติหลายครั้งกับชุดข้อมูลเดียวกัน การทดสอบแต่ละครั้งมีโอกาสเกิดข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ)...
ปัญหาการเปรียบเทียบหลายรายการ

ปัญหาการเปรียบเทียบหลายครั้งหรือ การทดสอบ หลาย ครั้ง เกิดขึ้นเมื่อมีการทดสอบทางสถิติหลายครั้งกับชุดข้อมูลเดียวกัน การทดสอบแต่ละครั้งมีโอกาสเกิดข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ) ของตัวเอง ดังนั้นความน่าจะเป็นโดยรวมของการเกิดผลบวกเท็จอย่างน้อยหนึ่งครั้งจะเพิ่มขึ้นเมื่อจำนวนการทดสอบเพิ่มขึ้น ในทางสถิติปัญหานี้เกิดขึ้นเมื่อพิจารณาชุดการอนุมานทางสถิติ พร้อมกัน [ 1 ]หรือประมาณค่าพารามิเตอร์ย่อยที่เลือกโดยอิงจากค่าที่สังเกตได้[ 2 ]
ความน่าจะเป็นของผลลัพธ์ที่ผิดพลาด (false positives) วัดได้จาก อัตราความผิดพลาดโดยรวมของกลุ่มตัวอย่าง ( family-wise error rateหรือ FWER) ยิ่งจำนวนการอนุมานที่ทำในชุดการทดสอบมีมากเท่าใด โอกาสที่จะเกิดการอนุมานที่ผิดพลาดก็ยิ่งมากขึ้นเท่านั้น มีการพัฒนาเทคนิคทางสถิติหลายอย่างเพื่อชดเชยจำนวนการอนุมานที่เกิดขึ้น เช่น การกำหนดเกณฑ์ความสำคัญที่เข้มงวดมากขึ้นสำหรับการเปรียบเทียบแต่ละครั้ง
ประวัติศาสตร์
ปัญหาการเปรียบเทียบหลายรายการได้รับความสนใจเพิ่มขึ้นในช่วงทศวรรษ 1950 จากผลงานของนักสถิติ เช่นTukeyและSchefféตลอดหลายทศวรรษต่อมา มีการพัฒนาขั้นตอนต่างๆ มากมายเพื่อแก้ไขปัญหานี้ ในปี 1996 การประชุมนานาชาติครั้งแรกเกี่ยวกับขั้นตอนการเปรียบเทียบหลายรายการได้จัดขึ้นที่เทลอาวีฟ[ 3 ]นักวิจัยหลายคนทำงานอยู่ในสาขานี้ เช่นEmmanuel CandèsและVladimir Vovk
คำนิยาม

การเปรียบเทียบหลายรายการเกิดขึ้นเมื่อการวิเคราะห์ทางสถิติเกี่ยวข้องกับการทดสอบทางสถิติหลายรายการพร้อมกัน ซึ่งแต่ละรายการมีศักยภาพที่จะก่อให้เกิด "การค้นพบ" ระดับความเชื่อมั่นที่ระบุไว้โดยทั่วไปจะใช้ได้เฉพาะกับการทดสอบแต่ละรายการที่พิจารณาแยกกัน แต่บ่อยครั้งที่พึงปรารถนาที่จะมีระดับความเชื่อมั่นสำหรับการทดสอบทั้งหมดพร้อมกัน[ 4 ] การไม่ชดเชยการเปรียบเทียบหลายรายการอาจส่งผลกระทบสำคัญในโลกแห่งความเป็นจริง ดังตัวอย่างต่อไปนี้:
- สมมติว่าการทดลองคือวิธีการสอนการเขียนแบบใหม่สำหรับนักเรียน และกลุ่มควบคุมคือวิธีการสอนการเขียนแบบมาตรฐาน นักเรียนในสองกลุ่มนี้สามารถเปรียบเทียบกันได้ในแง่ของไวยากรณ์ การสะกดคำ การเรียบเรียง เนื้อหา และอื่นๆ ยิ่งเปรียบเทียบคุณลักษณะมากขึ้นเท่าไร โอกาสที่กลุ่มทดลองและกลุ่มควบคุมจะดูแตกต่างกันอย่างน้อยหนึ่งคุณลักษณะเนื่องจากความคลาดเคลื่อนจากการสุ่มตัวอย่าง ก็จะยิ่งมาก ขึ้นเท่านั้น
- สมมติว่าเราพิจารณาประสิทธิภาพของยาในแง่ของการลดลงของอาการใดอาการหนึ่งจากหลายอาการของโรค ยิ่งพิจารณาอาการมากขึ้นเท่าไร โอกาสที่ยาตัวนั้นจะแสดงให้เห็นว่าดีกว่ายาที่มีอยู่เดิมอย่างน้อยหนึ่งอาการก็จะยิ่งมากขึ้นเท่านั้น
ในทั้งสองตัวอย่าง เมื่อจำนวนการเปรียบเทียบเพิ่มขึ้น โอกาสที่กลุ่มที่ถูกเปรียบเทียบจะดูแตกต่างกันอย่างน้อยหนึ่งคุณลักษณะก็จะยิ่งมากขึ้น ความมั่นใจของเราที่ว่าผลลัพธ์จะสามารถนำไปใช้กับข้อมูลอิสระได้นั้น โดยทั่วไปแล้วควรจะลดลงหากสังเกตได้จากการวิเคราะห์ที่มีการเปรียบเทียบหลายครั้ง มากกว่าการวิเคราะห์ที่มีการเปรียบเทียบเพียงครั้งเดียว
ตัวอย่างเช่น หากทำการทดสอบหนึ่งครั้งที่ระดับนัยสำคัญ 5% และสมมติฐานว่างที่เกี่ยวข้องเป็นจริง ความเสี่ยงที่จะปฏิเสธสมมติฐานว่างอย่างไม่ถูกต้องจะมีเพียง 5% เท่านั้น อย่างไรก็ตาม หากทำการทดสอบ 100 ครั้งที่ระดับนัยสำคัญ 5% เท่ากันทั้งหมด และสมมติฐานว่างที่เกี่ยวข้องทั้งหมดเป็นจริงจำนวนการปฏิเสธที่ไม่ถูกต้องที่คาดหวัง (หรือที่เรียกว่าผลบวกเท็จหรือข้อผิดพลาดประเภทที่ 1 ) คือ 5 หากการทดสอบเป็นอิสระต่อกันทางสถิติ (เช่น ทำกับตัวอย่างอิสระ) ความน่าจะเป็นของการปฏิเสธที่ไม่ถูกต้องอย่างน้อยหนึ่งครั้งจะอยู่ที่ประมาณ 99.4%
ปัญหาการเปรียบเทียบหลายรายการยังใช้ได้กับช่วงความเชื่อมั่นด้วย ช่วงความเชื่อมั่นเดียวที่มี ระดับ ความน่าจะเป็นครอบคลุม 95% จะครอบคลุมค่าที่แท้จริงของพารามิเตอร์ใน 95% ของตัวอย่าง อย่างไรก็ตาม หากพิจารณาช่วงความเชื่อมั่น 100 ช่วงพร้อมกัน โดยแต่ละช่วงมีความน่าจะเป็นครอบคลุม 95% จำนวนช่วงที่ไม่ครอบคลุมโดยเฉลี่ยคือ 5 ช่วง หากช่วงเหล่านั้นเป็นอิสระทางสถิติจากกันและกัน ความน่าจะเป็นที่อย่างน้อยหนึ่งช่วงจะไม่ครอบคลุมพารามิเตอร์ของประชากรคือ 99.4%
มีการพัฒนาเทคนิคต่างๆ เพื่อป้องกันการเพิ่มขึ้นของอัตราผลบวกเท็จและอัตราการไม่ครอบคลุมที่เกิดขึ้นจากการทดสอบทางสถิติหลายครั้ง
การจำแนกประเภทของการทดสอบสมมติฐานหลายรายการ
ตารางต่อ ไปนี้แสดงผลลัพธ์ที่เป็นไปได้เมื่อทดสอบสมมติฐานว่างหลายข้อ สมมติว่าเรามีสมมติฐานว่างจำนวนm ข้อ ซึ่งแสดงด้วย H₁ , H₂ , ... , Hᵢโดย ใช้ การทดสอบทางสถิติเราจะปฏิเสธสมมติฐานว่างหากการทดสอบนั้นมีนัยสำคัญ เราจะไม่ปฏิเสธสมมติฐานว่างหากการทดสอบนั้นไม่มีนัยสำคัญ การรวมผลลัพธ์แต่ละประเภทสำหรับHᵢ ทั้งหมด จะ ได้ตัวแปรสุ่มดังต่อไปนี้:
| สมมติฐานว่างเป็นจริง (H 0 ) | สมมติฐานทางเลือกเป็นจริง ( HA ) | ทั้งหมด | |
|---|---|---|---|
| การทดสอบนี้ถือว่ามีความสำคัญ | วี | เอส | อาร์ |
| ผลการทดสอบถูกประกาศว่าไม่มีนัยสำคัญ | ยู | ที | |
| ทั้งหมด | ม |
- mคือจำนวนสมมติฐานทั้งหมดที่ได้รับการทดสอบ
- คือจำนวนสมมติฐานว่างที่ เป็นจริง ซึ่งเป็นพารามิเตอร์ที่ไม่ทราบค่า
- คือจำนวนของสมมติฐานทางเลือกที่ เป็นจริง
- Vคือจำนวนผลบวกเท็จ (ข้อผิดพลาดประเภทที่ 1) (เรียกอีกอย่างว่า "การค้นพบที่ผิดพลาด")
- Sคือจำนวนผลบวกที่ถูกต้อง (หรือเรียกว่า "การค้นพบที่ถูกต้อง")
- Tคือจำนวนผลลบเท็จ (ข้อผิดพลาดประเภทที่ 2)
- Uคือจำนวนของผลลัพธ์เชิงลบที่ถูกต้อง
- คือจำนวนสมมติฐานว่างที่ถูกปฏิเสธ (หรือเรียกว่า "การค้นพบ" ไม่ว่าจะเป็นจริงหรือเท็จ)
ใน การทดสอบสมมติฐาน m ครั้งซึ่งมีสมมติฐานว่างที่เป็นจริงRเป็นตัวแปรสุ่มที่สังเกตได้ และS , T , UและVเป็นตัวแปรสุ่ม ที่สังเกตไม่ ได้
ขั้นตอนการควบคุม
ความน่าจะเป็นที่สมมติฐานว่างอย่างน้อยหนึ่งข้อจะถูกปฏิเสธอย่างผิดพลาด สำหรับเป็นฟังก์ชันของจำนวนการทดสอบอิสระดูข้อมูลต้นฉบับ
การแก้ไขการทดสอบหลายรายการ
การแก้ไขการทดสอบหลายครั้งหมายถึงการทำให้การทดสอบทางสถิติมีความเข้มงวดมากขึ้นเพื่อแก้ปัญหาการทดสอบหลายครั้ง วิธีการปรับแก้ที่เป็นที่รู้จักดีที่สุดคือการแก้ไขแบบบอนเฟอร์โรนีแต่ก็มีการพัฒนาวิธีการอื่นๆ ขึ้นมาด้วย โดยทั่วไปแล้ว วิธีการเหล่านี้ได้รับการออกแบบมาเพื่อควบคุมอัตราความผิดพลาดโดยรวมหรือ อัตราการค้นพบที่ ผิด พลาด
ถ้าทำการเปรียบเทียบอิสระm ครั้งอัตราความผิดพลาดโดยรวม (FWER) จะคำนวณได้จากสูตร
ดังนั้น เว้นแต่ว่าการทดสอบจะเป็นอิสระต่อกันอย่างสมบูรณ์ (กล่าวคือ เหมือนกันทุกประการ) ค่าจะเพิ่มขึ้นตามจำนวนการเปรียบเทียบที่เพิ่มขึ้น หากเราไม่สมมติว่าการเปรียบเทียบเป็นอิสระต่อกัน เราก็ยังสามารถกล่าวได้ว่า:
ซึ่งเป็นผลมาจากอสมการของบูลตัวอย่าง:
มีหลายวิธีที่จะรับประกันว่าอัตราความผิดพลาดแบบครอบคลุมทั้งครอบครัวจะมีค่าสูงสุดไม่เกินวิธีที่อนุรักษ์นิยมที่สุด ซึ่งปราศจากสมมติฐานเรื่องการพึ่งพาและการกระจายตัว คือการแก้ไขแบบ Bonferroniการแก้ไขที่อนุรักษ์นิยมน้อยกว่าเล็กน้อยสามารถทำได้โดยการแก้สมการสำหรับอัตราความผิดพลาดแบบครอบคลุมทั้งครอบครัวของการเปรียบเทียบอิสระสำหรับซึ่งจะได้ ซึ่งเรียกว่าการแก้ไขแบบ Šidákอีกวิธีหนึ่งคือวิธี Holm–Bonferroniซึ่งให้พลังมากกว่าการแก้ไขแบบ Bonferroni อย่างง่ายอย่างสม่ำเสมอ โดยการทดสอบเฉพาะค่า p ต่ำสุด ( ) กับเกณฑ์ที่เข้มงวดที่สุด และค่า p ที่สูงกว่า ( ) กับเกณฑ์ที่เข้มงวดน้อยลงเรื่อยๆ[ 5 ]
วิธีการ Bonferroni แบบคลาสสิกนั้นเข้าใจง่าย แต่ไม่ควรใช้เนื่องจากอนุรักษ์นิยมมากเกินไป มีเครื่องคำนวณออนไลน์เพื่อแก้ไขการเปรียบเทียบหลายรายการโดยใช้วิธี Holm-Bonferroni ที่ทันสมัยกว่าหรือขั้นตอน Benjamini-Hochberg [ 6 ]
สำหรับปัญหาต่อเนื่อง สามารถใช้ ตรรกะแบบ เบย์เซียนในการคำนวณจากอัตราส่วนปริมาตรก่อนหน้าต่อปริมาตรภายหลังได้ การวางนัยทั่วไปแบบต่อเนื่องของ การแก้ไข BonferroniและŠidákได้ถูกนำเสนอไว้ใน[ 7 ]
การทดสอบหลายรายการขนาดใหญ่
วิธีการปรับแก้การเปรียบเทียบหลายรายการแบบดั้งเดิมมุ่งเน้นไปที่การแก้ไขจำนวนการเปรียบเทียบที่ไม่มากนัก ซึ่งมักจะทำในการวิเคราะห์ความแปรปรวน แต่มีการพัฒนาเทคนิคชุดใหม่สำหรับ "การทดสอบหลายรายการขนาดใหญ่" ซึ่งมีการทดสอบหลายพันครั้งหรือมากกว่านั้น ตัวอย่างเช่น ในด้านจีโนมิกส์เมื่อใช้เทคโนโลยีเช่นไมโครอาร์เรย์สามารถวัดระดับการแสดงออกของยีนได้หลายหมื่นยีน และสามารถวัดจีโนไทป์สำหรับเครื่องหมายทางพันธุกรรมได้หลายล้านตัว โดยเฉพาะอย่างยิ่งในสาขา การศึกษา ความสัมพันธ์ทางพันธุกรรมมีปัญหาสำคัญเกี่ยวกับการไม่สามารถทำซ้ำได้ กล่าวคือ ผลลัพธ์มีความสำคัญทางสถิติอย่างมากในการศึกษาหนึ่ง แต่ไม่สามารถทำซ้ำได้ในการศึกษาติดตามผล การไม่สามารถทำซ้ำได้ดังกล่าวอาจมีสาเหตุหลายประการ แต่โดยทั่วไปเชื่อกันว่าการไม่คำนึงถึงผลที่ตามมาจากการเปรียบเทียบหลายรายการอย่างครบถ้วนเป็นหนึ่งในสาเหตุเหล่านั้น[ 8 ]มีการโต้แย้งว่าความก้าวหน้าในการวัดและเทคโนโลยีสารสนเทศทำให้การสร้างชุดข้อมูลขนาดใหญ่สำหรับการวิเคราะห์เชิงสำรวจ ทำได้ง่ายขึ้นมาก ซึ่งมักนำไปสู่การทดสอบสมมติฐานจำนวนมากโดยไม่มีพื้นฐานมาก่อนสำหรับการคาดหวังว่าสมมติฐานจำนวนมากจะเป็นจริง ในสถานการณ์นี้ คาดว่าจะมี อัตราการเกิดผลบวกเท็จ สูงมาก เว้นแต่จะมีการปรับการเปรียบเทียบหลายรายการ
สำหรับปัญหาการทดสอบขนาดใหญ่ที่เป้าหมายคือการให้ผลลัพธ์ที่ชัดเจนอัตราความผิดพลาดแบบครอบคลุมทั้งกลุ่มยังคงเป็นพารามิเตอร์ที่ได้รับการยอมรับมากที่สุดสำหรับการกำหนดระดับนัยสำคัญของการทดสอบทางสถิติ ในทางกลับกัน หากการศึกษาถูกมองว่าเป็นการสำรวจ หรือหากผลลัพธ์ที่มีนัยสำคัญสามารถทดสอบซ้ำได้ง่ายในการศึกษาอิสระ การควบคุมอัตราการค้นพบที่ผิดพลาด (FDR) [ 9 ] [ 10 ] [ 11 ]มักเป็นที่ต้องการมากกว่า FDR ซึ่งนิยามอย่างคร่าวๆ ว่าเป็นสัดส่วนที่คาดหวังของผลบวกเท็จในบรรดาการทดสอบที่มีนัยสำคัญทั้งหมด ช่วยให้นักวิจัยสามารถระบุชุดของ "ผลบวกที่เป็นไปได้" ที่สามารถประเมินได้อย่างเข้มงวดมากขึ้นในการศึกษาติดตามผล[ 12 ]
การปฏิบัติที่พยายามเปรียบเทียบหลายครั้งโดยไม่ได้ปรับค่าโดยหวังว่าจะพบการเปรียบเทียบที่มีนัยสำคัญนั้นเป็นปัญหาที่ทราบกันดี ไม่ว่าจะนำไปใช้โดยไม่ได้ตั้งใจหรือโดยเจตนา บางครั้งเรียกว่า " p-hacking " [ 13 ] [ 14 ]
การประเมินว่าสมมติฐานทางเลือกใดเป็นจริงหรือไม่

คำถามพื้นฐานที่ต้องเผชิญเมื่อเริ่มวิเคราะห์ชุดผลการทดสอบจำนวนมากคือ มีหลักฐานใดบ้างที่บ่งชี้ว่าสมมติฐานทางเลือกใดเป็นจริง การทดสอบแบบง่ายๆ ที่สามารถนำมาใช้ได้เมื่อสมมติว่าการทดสอบเป็นอิสระต่อกัน คือ การใช้การแจกแจงปัวซงเป็นแบบจำลองสำหรับจำนวนผลลัพธ์ที่มีนัยสำคัญที่ระดับ α ที่กำหนด ซึ่งจะพบได้เมื่อสมมติฐานว่างทั้งหมดเป็นจริง หากจำนวนผลลัพธ์ที่เป็นบวกที่สังเกตได้มีมากกว่าที่คาดไว้มาก แสดงว่าอาจมีผลลัพธ์ที่เป็นบวกที่แท้จริงปะปนอยู่ในผลลัพธ์ที่มีนัยสำคัญเหล่านั้น
ตัวอย่างเช่น หากทำการทดสอบอิสระ 1,000 ครั้ง โดยแต่ละครั้งมีระดับนัยสำคัญ α = 0.05 เราคาดว่าจะมีผลการทดสอบที่มีนัยสำคัญ 0.05 × 1,000 = 50 ครั้ง เมื่อสมมติฐานว่างทั้งหมดเป็นจริง จากการแจกแจงแบบปัวซงที่มีค่าเฉลี่ย 50 ความน่าจะเป็นที่จะพบผลการทดสอบที่มีนัยสำคัญมากกว่า 61 ครั้งนั้นน้อยกว่า 0.05 ดังนั้นหากพบผลลัพธ์ที่มีนัยสำคัญมากกว่า 61 ครั้ง ก็เป็นไปได้มากว่าบางส่วนจะสอดคล้องกับสถานการณ์ที่สมมติฐานทางเลือกเป็นจริง ข้อเสียของวิธีการนี้คือมันประเมินหลักฐานที่ว่าสมมติฐานทางเลือกบางส่วนเป็นจริงสูงเกินไป เมื่อค่าสถิติการทดสอบมีความสัมพันธ์กันในเชิงบวก ซึ่งมักเกิดขึ้นในทางปฏิบัติ ในทางกลับกัน วิธีการนี้ยังคงใช้ได้แม้จะมีความสัมพันธ์กันระหว่างค่าสถิติการทดสอบ ตราบใดที่สามารถแสดงให้เห็นว่าการแจกแจงแบบปัวซงให้ค่าประมาณที่ดีสำหรับจำนวนผลลัพธ์ที่มีนัยสำคัญ สถานการณ์นี้เกิดขึ้น ตัวอย่างเช่น เมื่อทำการขุดหาชุดรายการที่เกิดขึ้นบ่อยอย่างมีนัยสำคัญจากชุดข้อมูลธุรกรรม นอกจากนี้ การวิเคราะห์สองขั้นตอนอย่างระมัดระวังสามารถจำกัด FDR ไว้ที่ระดับที่กำหนดไว้ล่วงหน้าได้[ 15 ]
อีกแนวทางหนึ่งที่นิยมใช้ในกรณีที่สามารถแปลงค่าสถิติการทดสอบ ให้เป็นค่า Z-score ได้ คือการสร้างแผนภาพควอนไทล์ปกติ ของค่าสถิติการทดสอบ หากควอนไทล์ที่สังเกตได้ กระจายตัวมากกว่าควอนไทล์ปกติอย่างเห็นได้ชัด แสดงว่าผลลัพธ์ที่มีนัยสำคัญบางส่วนอาจเป็นผลบวกที่แท้จริง
ดูเพิ่มเติม
- แนวคิดหลัก
- อัตราความผิดพลาดโดยรวมของครอบครัว
- อัตราผลบวกเท็จ
- อัตราการค้นพบที่ผิดพลาด (FDR)
- อัตราการรายงานเท็จ (FCR)
- การประมาณค่าช่วง
- การวิเคราะห์หลังการทดลอง
- อัตราความผิดพลาดในการทดลอง
- การทดสอบสมมติฐานทางสถิติ
- ขั้นตอนเดียว
- การแก้ไขแบบบอนเฟอร์โรนี
- การทดสอบของดันเน็ตต์
- จีที2 ของฮอคเบิร์ก
- วิธีการของ Scheffé
- การแก้ไขของ Šidák
- เอชเอสดีของทูคีย์
- ขั้นตอนการผ่าตัดแบบ "ป้องกัน" สองขั้นตอน
- การทดสอบระยะหลายช่วงแบบใหม่ของดันแคน
- ความแตกต่างที่มีนัยสำคัญน้อยที่สุดของฟิชเชอร์
- ขั้นตอนฟิชเชอร์-เฮย์เตอร์
- การทดสอบ Student-Newman-Keuls
- ขั้นตอนตามลำดับ
- ขั้นลง
- ขั้นตอนการลดระดับของแคมป์เบลล์และแบล็กเวลล์
- ขั้นตอน Holland-Copenhaver
- วิธี Holm–Bonferroni
- ขั้นตอน Holm ที่ได้รับการดัดแปลงของ Schaffer
- ขั้นตอนการลดระดับของเวลช์ (หรือที่รู้จักกันในชื่อการทดสอบไรอัน-ไอโนต์-กาเบรียล-เวลช์)
- ก้าวขึ้น
- วิธีการทั่วไปในการปรับค่าอัลฟาสำหรับการเปรียบเทียบหลายรายการ
- ขอบเขตบูล- บอนเฟอร์โรนี
- ขั้นตอนการทดสอบแบบปิด
- ค่า E
- ขั้นตอนการหาค่า p ของค่าเฉลี่ยฮาร์มอนิก
- แนวคิดที่เกี่ยวข้อง
- การทดสอบสมมติฐานที่ได้จากข้อมูล
- ความเข้าใจผิดเรื่องมือปืนเท็กซัส
- การเลือกแบบจำลอง
- ผลกระทบจากการมองไปทางอื่น
- การขุดค้นข้อมูล
- ปัญหาวันเกิด
อ่านเพิ่มเติม
- F. Bretz, T. Hothorn, P. Westfall (2010), การเปรียบเทียบหลายรายการโดยใช้ R , CRC Press
- S. Dudoitและ MJ van der Laan (2008), ขั้นตอนการทดสอบหลายวิธีพร้อมการประยุกต์ใช้กับจีโนมิกส์ , Springer
- Farcomeni, A. (2008). "การทบทวนการทดสอบสมมติฐานหลายรายการสมัยใหม่ โดยให้ความสนใจเป็นพิเศษกับสัดส่วนการค้นพบที่ผิดพลาด" วิธีการทางสถิติในการวิจัยทางการแพทย์ 17 ( 4): 347– 388. doi : 10.1177/0962280206079046 . hdl : 11573/142139 . PMID 17698936 . S2CID 12777404 .
- Phipson, B.; Smyth, GK (2010). "ค่า P ของการเรียงสับเปลี่ยนไม่ควรเป็นศูนย์: การคำนวณค่า P ที่แม่นยำเมื่อการเรียงสับเปลี่ยนถูกสุ่มเลือก" การประยุกต์ใช้ทางสถิติในพันธุศาสตร์และชีววิทยาโมเลกุล 9 :บทความ 39. arXiv : 1603.05766 . doi : 10.2202/1544-6115.1585 . PMID 21044043 . S2CID 10735784 .
- PH Westfall และ SS Young (1993), การทดสอบหลายรายการโดยใช้การสุ่มตัวอย่างซ้ำ: ตัวอย่างและวิธีการปรับค่า p , Wiley
- P. Westfall, R. Tobias, R. Wolfinger (2011) การเปรียบเทียบหลายกลุ่มและการทดสอบหลายกลุ่มโดยใช้ SASฉบับที่ 2 สถาบัน SAS
- รวมตัวอย่างความสัมพันธ์ที่ไม่น่าเชื่อถือซึ่งได้มาจากการค้นหาข้อมูลอย่างเจาะจง
- [1]การ์ตูนxkcdเกี่ยวกับปัญหาการเปรียบเทียบหลายรายการ โดยใช้เยลลี่บีนและสิวเป็นตัวอย่าง
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ปัญหาการเปรียบเทียบหลายรายการ
ปัญหาการเปรียบเทียบหลายครั้งหรือ การทดสอบ หลาย ครั้ง เกิดขึ้นเมื่อมีการทดสอบทางสถิติหลายครั้งกับชุดข้อมูลเดียวกัน การทดสอบแต่ละครั้งมีโอกาสเกิดข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ)...
ประวัติศาสตร์
ปัญหาการเปรียบเทียบหลายรายการได้รับความสนใจเพิ่มขึ้นในช่วงทศวรรษ 1950 จากผลงานของนักสถิติ เช่น Tukey และ Scheffé ตลอดหลายทศวรรษต่อมา มีการพัฒนาขั้นตอนต่างๆ มากมายเพื่อแก้ไขปัญหานี้ ในปี 1996...
คำนิยาม
การเปรียบเทียบหลายรายการเกิดขึ้นเมื่อการวิเคราะห์ทางสถิติเกี่ยวข้องกับการทดสอบทางสถิติหลายรายการพร้อมกัน ซึ่งแต่ละรายการมีศักยภาพที่จะก่อให้เกิด "การค้นพบ" ระดับความเชื่อมั่นที่ระบุไว้โดยทั่วไปจะใช้ได้เฉพาะกับการทดสอบแต่ละรายการที่พิจารณาแยกกัน...
การจำแนกประเภทของการทดสอบสมมติฐานหลายรายการ
ตารางต่อ ไป นี้ แสดงผลลัพธ์ที่เป็นไปได้เมื่อทดสอบสมมติฐานว่างหลายข้อ สมมติว่าเรามีสมมติฐานว่างจำนวน m ข้อ ซึ่งแสดงด้วย H₁ , H₂ , ...