ปัญหาการเปรียบเทียบหลายรายการ

ปัญหาการเปรียบเทียบหลายครั้งหรือ การทดสอบ หลาย ครั้ง เกิดขึ้นเมื่อมีการทดสอบทางสถิติหลายครั้งกับชุดข้อมูลเดียวกัน การทดสอบแต่ละครั้งมีโอกาสเกิดข้อผิดพลาดประเภทที่ 1 (ผลบวกเท็จ) ของตัวเอง ดังนั้นความน่าจะเป็นโดยรวมของการเกิดผลบวกเท็จอย่างน้อยหนึ่งครั้งจะเพิ่มขึ้นเมื่อจำนวนการทดสอบเพิ่มขึ้น ในทางสถิติปัญหานี้เกิดขึ้นเมื่อพิจารณาชุดการอนุมานทางสถิติ พร้อมกัน ^[¹^]หรือประมาณค่าพารามิเตอร์ย่อยที่เลือกโดยอิงจากค่าที่สังเกตได้^[²^]

ความน่าจะเป็นของผลลัพธ์ที่ผิดพลาด (false positives) วัดได้จาก อัตราความผิดพลาดโดยรวมของกลุ่มตัวอย่าง ( family-wise error rateหรือ FWER) ยิ่งจำนวนการอนุมานที่ทำในชุดการทดสอบมีมากเท่าใด โอกาสที่จะเกิดการอนุมานที่ผิดพลาดก็ยิ่งมากขึ้นเท่านั้น มีการพัฒนาเทคนิคทางสถิติหลายอย่างเพื่อชดเชยจำนวนการอนุมานที่เกิดขึ้น เช่น การกำหนดเกณฑ์ความสำคัญที่เข้มงวดมากขึ้นสำหรับการเปรียบเทียบแต่ละครั้ง

ประวัติศาสตร์

ปัญหาการเปรียบเทียบหลายรายการได้รับความสนใจเพิ่มขึ้นในช่วงทศวรรษ 1950 จากผลงานของนักสถิติ เช่นTukeyและSchefféตลอดหลายทศวรรษต่อมา มีการพัฒนาขั้นตอนต่างๆ มากมายเพื่อแก้ไขปัญหานี้ ในปี 1996 การประชุมนานาชาติครั้งแรกเกี่ยวกับขั้นตอนการเปรียบเทียบหลายรายการได้จัดขึ้นที่เทลอาวีฟ^{[ 3 ]}นักวิจัยหลายคนทำงานอยู่ในสาขานี้ เช่นEmmanuel CandèsและVladimir Vovk

คำนิยาม

การเปรียบเทียบหลายรายการเกิดขึ้นเมื่อการวิเคราะห์ทางสถิติเกี่ยวข้องกับการทดสอบทางสถิติหลายรายการพร้อมกัน ซึ่งแต่ละรายการมีศักยภาพที่จะก่อให้เกิด "การค้นพบ" ระดับความเชื่อมั่นที่ระบุไว้โดยทั่วไปจะใช้ได้เฉพาะกับการทดสอบแต่ละรายการที่พิจารณาแยกกัน แต่บ่อยครั้งที่พึงปรารถนาที่จะมีระดับความเชื่อมั่นสำหรับการทดสอบทั้งหมดพร้อมกัน^{[ 4 ]} การไม่ชดเชยการเปรียบเทียบหลายรายการอาจส่งผลกระทบสำคัญในโลกแห่งความเป็นจริง ดังตัวอย่างต่อไปนี้:

สมมติว่าการทดลองคือวิธีการสอนการเขียนแบบใหม่สำหรับนักเรียน และกลุ่มควบคุมคือวิธีการสอนการเขียนแบบมาตรฐาน นักเรียนในสองกลุ่มนี้สามารถเปรียบเทียบกันได้ในแง่ของไวยากรณ์ การสะกดคำ การเรียบเรียง เนื้อหา และอื่นๆ ยิ่งเปรียบเทียบคุณลักษณะมากขึ้นเท่าไร โอกาสที่กลุ่มทดลองและกลุ่มควบคุมจะดูแตกต่างกันอย่างน้อยหนึ่งคุณลักษณะเนื่องจากความคลาดเคลื่อนจากการสุ่มตัวอย่าง ก็จะยิ่งมาก ขึ้นเท่านั้น
สมมติว่าเราพิจารณาประสิทธิภาพของยาในแง่ของการลดลงของอาการใดอาการหนึ่งจากหลายอาการของโรค ยิ่งพิจารณาอาการมากขึ้นเท่าไร โอกาสที่ยาตัวนั้นจะแสดงให้เห็นว่าดีกว่ายาที่มีอยู่เดิมอย่างน้อยหนึ่งอาการก็จะยิ่งมากขึ้นเท่านั้น

ในทั้งสองตัวอย่าง เมื่อจำนวนการเปรียบเทียบเพิ่มขึ้น โอกาสที่กลุ่มที่ถูกเปรียบเทียบจะดูแตกต่างกันอย่างน้อยหนึ่งคุณลักษณะก็จะยิ่งมากขึ้น ความมั่นใจของเราที่ว่าผลลัพธ์จะสามารถนำไปใช้กับข้อมูลอิสระได้นั้น โดยทั่วไปแล้วควรจะลดลงหากสังเกตได้จากการวิเคราะห์ที่มีการเปรียบเทียบหลายครั้ง มากกว่าการวิเคราะห์ที่มีการเปรียบเทียบเพียงครั้งเดียว

ตัวอย่างเช่น หากทำการทดสอบหนึ่งครั้งที่ระดับนัยสำคัญ 5% และสมมติฐานว่างที่เกี่ยวข้องเป็นจริง ความเสี่ยงที่จะปฏิเสธสมมติฐานว่างอย่างไม่ถูกต้องจะมีเพียง 5% เท่านั้น อย่างไรก็ตาม หากทำการทดสอบ 100 ครั้งที่ระดับนัยสำคัญ 5% เท่ากันทั้งหมด และสมมติฐานว่างที่เกี่ยวข้องทั้งหมดเป็นจริงจำนวนการปฏิเสธที่ไม่ถูกต้องที่คาดหวัง (หรือที่เรียกว่าผลบวกเท็จหรือข้อผิดพลาดประเภทที่ 1 ) คือ 5 หากการทดสอบเป็นอิสระต่อกันทางสถิติ (เช่น ทำกับตัวอย่างอิสระ) ความน่าจะเป็นของการปฏิเสธที่ไม่ถูกต้องอย่างน้อยหนึ่งครั้งจะอยู่ที่ประมาณ 99.4%

ปัญหาการเปรียบเทียบหลายรายการยังใช้ได้กับช่วงความเชื่อมั่นด้วย ช่วงความเชื่อมั่นเดียวที่มี ระดับ ความน่าจะเป็นครอบคลุม 95% จะครอบคลุมค่าที่แท้จริงของพารามิเตอร์ใน 95% ของตัวอย่าง อย่างไรก็ตาม หากพิจารณาช่วงความเชื่อมั่น 100 ช่วงพร้อมกัน โดยแต่ละช่วงมีความน่าจะเป็นครอบคลุม 95% จำนวนช่วงที่ไม่ครอบคลุมโดยเฉลี่ยคือ 5 ช่วง หากช่วงเหล่านั้นเป็นอิสระทางสถิติจากกันและกัน ความน่าจะเป็นที่อย่างน้อยหนึ่งช่วงจะไม่ครอบคลุมพารามิเตอร์ของประชากรคือ 99.4%

มีการพัฒนาเทคนิคต่างๆ เพื่อป้องกันการเพิ่มขึ้นของอัตราผลบวกเท็จและอัตราการไม่ครอบคลุมที่เกิดขึ้นจากการทดสอบทางสถิติหลายครั้ง

การจำแนกประเภทของการทดสอบสมมติฐานหลายรายการ

$ตารางต่อ ไป$ $นี้$ แสดงผลลัพธ์ที่เป็นไปได้เมื่อทดสอบสมมติฐานว่างหลายข้อ สมมติว่าเรามีสมมติฐานว่างจำนวน $m ข้อ ซึ่งแสดงด้วย H₁$ , H₂ $, ..., Hᵢ โดย ใช้$ การทดสอบทางสถิติเราจะปฏิเสธสมมติฐานว่างหากการทดสอบนั้นมีนัยสำคัญ เราจะไม่ปฏิเสธสมมติฐานว่างหากการทดสอบนั้นไม่มีนัยสำคัญ การรวมผลลัพธ์แต่ละประเภทสำหรับHᵢ ทั้งหมด _จะ ได้ตัวแปรสุ่มดังต่อไปนี้:

	สมมติฐานว่างเป็นจริง (H ₀ )	สมมติฐานทางเลือกเป็นจริง ( _HA )	ทั้งหมด
การทดสอบนี้ถือว่ามีความสำคัญ	$วี$	$เอส$	$อาร์$
ผลการทดสอบถูกประกาศว่าไม่มีนัยสำคัญ	$ยู$	$ที$	$mR$
ทั้งหมด	$m_{0}$	$m-m_{0}$	$ม$

$m$ คือจำนวนสมมติฐานทั้งหมดที่ได้รับการทดสอบ
$m_{0}$ คือจำนวนสมมติฐานว่างที่ เป็นจริง ซึ่งเป็นพารามิเตอร์ที่ไม่ทราบค่า
$m-m_{0}$ คือจำนวนของสมมติฐานทางเลือกที่ เป็นจริง
$V$ คือจำนวนผลบวกเท็จ (ข้อผิดพลาดประเภทที่ 1) (เรียกอีกอย่างว่า "การค้นพบที่ผิดพลาด")
$S$ คือจำนวนผลบวกที่ถูกต้อง (หรือเรียกว่า "การค้นพบที่ถูกต้อง")
$T$ คือจำนวนผลลบเท็จ (ข้อผิดพลาดประเภทที่ 2)
$U$ คือจำนวนของผลลัพธ์เชิงลบที่ถูกต้อง
$R=V+S$ คือจำนวนสมมติฐานว่างที่ถูกปฏิเสธ (หรือเรียกว่า "การค้นพบ" ไม่ว่าจะเป็นจริงหรือเท็จ)

ใน การทดสอบสมมติฐาน $m ครั้ง$ ซึ่งมีสมมติฐานว่างที่เป็นจริง $R$ เป็นตัวแปรสุ่มที่สังเกตได้ และ $S$ , $T$ , $U$ และ $V$ เป็นตัวแปรสุ่ม ที่สังเกตไม่ ได้ $m_{0}$

ขั้นตอนการควบคุม

ความน่าจะเป็นที่สมมติฐานว่างอย่างน้อยหนึ่งข้อจะถูกปฏิเสธอย่างผิดพลาด สำหรับเป็นฟังก์ชันของจำนวนการทดสอบอิสระ

\alpha _{\text{ต่อการเปรียบเทียบ}}=0.05

m

ดูข้อมูลต้นฉบับ

การแก้ไขการทดสอบหลายรายการ

การแก้ไขการทดสอบหลายครั้งหมายถึงการทำให้การทดสอบทางสถิติมีความเข้มงวดมากขึ้นเพื่อแก้ปัญหาการทดสอบหลายครั้ง วิธีการปรับแก้ที่เป็นที่รู้จักดีที่สุดคือการแก้ไขแบบบอนเฟอร์โรนีแต่ก็มีการพัฒนาวิธีการอื่นๆ ขึ้นมาด้วย โดยทั่วไปแล้ว วิธีการเหล่านี้ได้รับการออกแบบมาเพื่อควบคุมอัตราความผิดพลาดโดยรวมหรือ อัตราการค้นพบที่ ผิด พลาด

ถ้าทำการเปรียบเทียบอิสระm ครั้งอัตราความผิดพลาดโดยรวม (FWER) จะคำนวณได้จากสูตร

{\bar {\alpha }}=1-\left(1-\alpha _{\{{\text{ต่อการเปรียบเทียบ}}\}}\right)^{m}.

ดังนั้น เว้นแต่ว่าการทดสอบจะเป็นอิสระต่อกันอย่างสมบูรณ์ (กล่าวคือ เหมือนกันทุกประการ) ค่าจะเพิ่มขึ้นตามจำนวนการเปรียบเทียบที่เพิ่มขึ้น หากเราไม่สมมติว่าการเปรียบเทียบเป็นอิสระต่อกัน เราก็ยังสามารถกล่าวได้ว่า: ${\bar {\alpha }}$

{\bar {\alpha }}\leq m\cdot \alpha _{\{{\text{ต่อการเปรียบเทียบ}}\}},

ซึ่งเป็นผลมาจากอสมการของบูลตัวอย่าง: $0.2649=1-(1-.05)^{6}\leq .05\times 6=0.3$

มีหลายวิธีที่จะรับประกันว่าอัตราความผิดพลาดแบบครอบคลุมทั้งครอบครัวจะมีค่าสูงสุดไม่เกินวิธีที่อนุรักษ์นิยมที่สุด ซึ่งปราศจากสมมติฐานเรื่องการพึ่งพาและการกระจายตัว คือการแก้ไขแบบ Bonferroniการแก้ไขที่อนุรักษ์นิยมน้อยกว่าเล็กน้อยสามารถทำได้โดยการแก้สมการสำหรับอัตราความผิดพลาดแบบครอบคลุมทั้งครอบครัวของการเปรียบเทียบอิสระสำหรับซึ่งจะได้ ซึ่งเรียกว่าการแก้ไขแบบ Šidákอีกวิธีหนึ่งคือวิธี Holm–Bonferroniซึ่งให้พลังมากกว่าการแก้ไขแบบ Bonferroni อย่างง่ายอย่างสม่ำเสมอ โดยการทดสอบเฉพาะค่า p ต่ำสุด ( ) กับเกณฑ์ที่เข้มงวดที่สุด และค่า p ที่สูงกว่า ( ) กับเกณฑ์ที่เข้มงวดน้อยลงเรื่อยๆ^[⁵^] $\alpha$ $\alpha _{\mathrm {\{ต่อ\ การเปรียบเทียบ\}} }={\alpha }/m$ $m$ $\alpha _{\mathrm {\{ต่อ\ การเปรียบเทียบ\}} }$ $\alpha _{\{{\text{ต่อการเปรียบเทียบ}}\}}=1-{(1-{\alpha })}^{1/m}$ $i=1$ $i>1$ $\alpha _{\mathrm {\{per\ comparison\}} }={\alpha }/(m-i+1)$

วิธีการ Bonferroni แบบคลาสสิกนั้นเข้าใจง่าย แต่ไม่ควรใช้เนื่องจากอนุรักษ์นิยมมากเกินไป มีเครื่องคำนวณออนไลน์เพื่อแก้ไขการเปรียบเทียบหลายรายการโดยใช้วิธี Holm-Bonferroni ที่ทันสมัยกว่าหรือขั้นตอน Benjamini-Hochberg ^{[ 6 ]}

สำหรับปัญหาต่อเนื่อง สามารถใช้ ตรรกะแบบ เบย์เซียนในการคำนวณจากอัตราส่วนปริมาตรก่อนหน้าต่อปริมาตรภายหลังได้ การวางนัยทั่วไปแบบต่อเนื่องของ การแก้ไข BonferroniและŠidákได้ถูกนำเสนอไว้ใน^[⁷^] $m$

การทดสอบหลายรายการขนาดใหญ่

วิธีการปรับแก้การเปรียบเทียบหลายรายการแบบดั้งเดิมมุ่งเน้นไปที่การแก้ไขจำนวนการเปรียบเทียบที่ไม่มากนัก ซึ่งมักจะทำในการวิเคราะห์ความแปรปรวน แต่มีการพัฒนาเทคนิคชุดใหม่สำหรับ "การทดสอบหลายรายการขนาดใหญ่" ซึ่งมีการทดสอบหลายพันครั้งหรือมากกว่านั้น ตัวอย่างเช่น ในด้านจีโนมิกส์เมื่อใช้เทคโนโลยีเช่นไมโครอาร์เรย์สามารถวัดระดับการแสดงออกของยีนได้หลายหมื่นยีน และสามารถวัดจีโนไทป์สำหรับเครื่องหมายทางพันธุกรรมได้หลายล้านตัว โดยเฉพาะอย่างยิ่งในสาขา การศึกษา ความสัมพันธ์ทางพันธุกรรมมีปัญหาสำคัญเกี่ยวกับการไม่สามารถทำซ้ำได้ กล่าวคือ ผลลัพธ์มีความสำคัญทางสถิติอย่างมากในการศึกษาหนึ่ง แต่ไม่สามารถทำซ้ำได้ในการศึกษาติดตามผล การไม่สามารถทำซ้ำได้ดังกล่าวอาจมีสาเหตุหลายประการ แต่โดยทั่วไปเชื่อกันว่าการไม่คำนึงถึงผลที่ตามมาจากการเปรียบเทียบหลายรายการอย่างครบถ้วนเป็นหนึ่งในสาเหตุเหล่านั้น^{[ 8 ]}มีการโต้แย้งว่าความก้าวหน้าในการวัดและเทคโนโลยีสารสนเทศทำให้การสร้างชุดข้อมูลขนาดใหญ่สำหรับการวิเคราะห์เชิงสำรวจ ทำได้ง่ายขึ้นมาก ซึ่งมักนำไปสู่การทดสอบสมมติฐานจำนวนมากโดยไม่มีพื้นฐานมาก่อนสำหรับการคาดหวังว่าสมมติฐานจำนวนมากจะเป็นจริง ในสถานการณ์นี้ คาดว่าจะมี อัตราการเกิดผลบวกเท็จ สูงมาก เว้นแต่จะมีการปรับการเปรียบเทียบหลายรายการ

สำหรับปัญหาการทดสอบขนาดใหญ่ที่เป้าหมายคือการให้ผลลัพธ์ที่ชัดเจนอัตราความผิดพลาดแบบครอบคลุมทั้งกลุ่มยังคงเป็นพารามิเตอร์ที่ได้รับการยอมรับมากที่สุดสำหรับการกำหนดระดับนัยสำคัญของการทดสอบทางสถิติ ในทางกลับกัน หากการศึกษาถูกมองว่าเป็นการสำรวจ หรือหากผลลัพธ์ที่มีนัยสำคัญสามารถทดสอบซ้ำได้ง่ายในการศึกษาอิสระ การควบคุมอัตราการค้นพบที่ผิดพลาด (FDR) ^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}มักเป็นที่ต้องการมากกว่า FDR ซึ่งนิยามอย่างคร่าวๆ ว่าเป็นสัดส่วนที่คาดหวังของผลบวกเท็จในบรรดาการทดสอบที่มีนัยสำคัญทั้งหมด ช่วยให้นักวิจัยสามารถระบุชุดของ "ผลบวกที่เป็นไปได้" ที่สามารถประเมินได้อย่างเข้มงวดมากขึ้นในการศึกษาติดตามผล^{[ 12 ]}

การปฏิบัติที่พยายามเปรียบเทียบหลายครั้งโดยไม่ได้ปรับค่าโดยหวังว่าจะพบการเปรียบเทียบที่มีนัยสำคัญนั้นเป็นปัญหาที่ทราบกันดี ไม่ว่าจะนำไปใช้โดยไม่ได้ตั้งใจหรือโดยเจตนา บางครั้งเรียกว่า " p-hacking " ^{[ 13 ]}^{[ 14 ]}

การประเมินว่าสมมติฐานทางเลือกใดเป็นจริงหรือไม่

คำถามพื้นฐานที่ต้องเผชิญเมื่อเริ่มวิเคราะห์ชุดผลการทดสอบจำนวนมากคือ มีหลักฐานใดบ้างที่บ่งชี้ว่าสมมติฐานทางเลือกใดเป็นจริง การทดสอบแบบง่ายๆ ที่สามารถนำมาใช้ได้เมื่อสมมติว่าการทดสอบเป็นอิสระต่อกัน คือ การใช้การแจกแจงปัวซงเป็นแบบจำลองสำหรับจำนวนผลลัพธ์ที่มีนัยสำคัญที่ระดับ α ที่กำหนด ซึ่งจะพบได้เมื่อสมมติฐานว่างทั้งหมดเป็นจริง หากจำนวนผลลัพธ์ที่เป็นบวกที่สังเกตได้มีมากกว่าที่คาดไว้มาก แสดงว่าอาจมีผลลัพธ์ที่เป็นบวกที่แท้จริงปะปนอยู่ในผลลัพธ์ที่มีนัยสำคัญเหล่านั้น

ตัวอย่างเช่น หากทำการทดสอบอิสระ 1,000 ครั้ง โดยแต่ละครั้งมีระดับนัยสำคัญ α = 0.05 เราคาดว่าจะมีผลการทดสอบที่มีนัยสำคัญ 0.05 × 1,000 = 50 ครั้ง เมื่อสมมติฐานว่างทั้งหมดเป็นจริง จากการแจกแจงแบบปัวซงที่มีค่าเฉลี่ย 50 ความน่าจะเป็นที่จะพบผลการทดสอบที่มีนัยสำคัญมากกว่า 61 ครั้งนั้นน้อยกว่า 0.05 ดังนั้นหากพบผลลัพธ์ที่มีนัยสำคัญมากกว่า 61 ครั้ง ก็เป็นไปได้มากว่าบางส่วนจะสอดคล้องกับสถานการณ์ที่สมมติฐานทางเลือกเป็นจริง ข้อเสียของวิธีการนี้คือมันประเมินหลักฐานที่ว่าสมมติฐานทางเลือกบางส่วนเป็นจริงสูงเกินไป เมื่อค่าสถิติการทดสอบมีความสัมพันธ์กันในเชิงบวก ซึ่งมักเกิดขึ้นในทางปฏิบัติ ในทางกลับกัน วิธีการนี้ยังคงใช้ได้แม้จะมีความสัมพันธ์กันระหว่างค่าสถิติการทดสอบ ตราบใดที่สามารถแสดงให้เห็นว่าการแจกแจงแบบปัวซงให้ค่าประมาณที่ดีสำหรับจำนวนผลลัพธ์ที่มีนัยสำคัญ สถานการณ์นี้เกิดขึ้น ตัวอย่างเช่น เมื่อทำการขุดหาชุดรายการที่เกิดขึ้นบ่อยอย่างมีนัยสำคัญจากชุดข้อมูลธุรกรรม นอกจากนี้ การวิเคราะห์สองขั้นตอนอย่างระมัดระวังสามารถจำกัด FDR ไว้ที่ระดับที่กำหนดไว้ล่วงหน้าได้^{[ 15 ]}

อีกแนวทางหนึ่งที่นิยมใช้ในกรณีที่สามารถแปลงค่าสถิติการทดสอบ ให้เป็นค่า Z-score ได้ คือการสร้างแผนภาพควอนไทล์ปกติ ของค่าสถิติการทดสอบ หากควอนไทล์ที่สังเกตได้ กระจายตัวมากกว่าควอนไทล์ปกติอย่างเห็นได้ชัด แสดงว่าผลลัพธ์ที่มีนัยสำคัญบางส่วนอาจเป็นผลบวกที่แท้จริง

ดูเพิ่มเติม

ค่าq

แนวคิดหลัก

ขั้นตอนเดียว

ขั้นตอนการผ่าตัดแบบ "ป้องกัน" สองขั้นตอน

ขั้นตอนตามลำดับ

ขั้นลง
- ขั้นตอนการลดระดับของแคมป์เบลล์และแบล็กเวลล์
- ขั้นตอน Holland-Copenhaver
- วิธี Holm–Bonferroni
- ขั้นตอน Holm ที่ได้รับการดัดแปลงของ Schaffer
- ขั้นตอนการลดระดับของเวลช์ (หรือที่รู้จักกันในชื่อการทดสอบไรอัน-ไอโนต์-กาเบรียล-เวลช์)
ก้าวขึ้น

วิธีการทั่วไปในการปรับค่าอัลฟาสำหรับการเปรียบเทียบหลายรายการ

แนวคิดที่เกี่ยวข้อง

อ่านเพิ่มเติม

F. Bretz, T. Hothorn, P. Westfall (2010), การเปรียบเทียบหลายรายการโดยใช้ R , CRC Press
S. Dudoitและ MJ van der Laan (2008), ขั้นตอนการทดสอบหลายวิธีพร้อมการประยุกต์ใช้กับจีโนมิกส์ , Springer
Farcomeni, A. (2008). "การทบทวนการทดสอบสมมติฐานหลายรายการสมัยใหม่ โดยให้ความสนใจเป็นพิเศษกับสัดส่วนการค้นพบที่ผิดพลาด" วิธีการทางสถิติในการวิจัยทางการแพทย์ 17 ( 4): 347– 388. doi : 10.1177/0962280206079046 . hdl : 11573/142139 . PMID 17698936 . S2CID 12777404 .
Phipson, B.; Smyth, GK (2010). "ค่า P ของการเรียงสับเปลี่ยนไม่ควรเป็นศูนย์: การคำนวณค่า P ที่แม่นยำเมื่อการเรียงสับเปลี่ยนถูกสุ่มเลือก" การประยุกต์ใช้ทางสถิติในพันธุศาสตร์และชีววิทยาโมเลกุล 9 :บทความ 39. arXiv : 1603.05766 . doi : 10.2202/1544-6115.1585 . PMID 21044043 . S2CID 10735784 .
PH Westfall และ SS Young (1993), การทดสอบหลายรายการโดยใช้การสุ่มตัวอย่างซ้ำ: ตัวอย่างและวิธีการปรับค่า p , Wiley
P. Westfall, R. Tobias, R. Wolfinger (2011) การเปรียบเทียบหลายกลุ่มและการทดสอบหลายกลุ่มโดยใช้ SASฉบับที่ 2 สถาบัน SAS
รวมตัวอย่างความสัมพันธ์ที่ไม่น่าเชื่อถือซึ่งได้มาจากการค้นหาข้อมูลอย่างเจาะจง
[1]การ์ตูนxkcdเกี่ยวกับปัญหาการเปรียบเทียบหลายรายการ โดยใช้เยลลี่บีนและสิวเป็นตัวอย่าง

[

[

[ 3 ]

[ 4 ]

[

[ 6 ]

[

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]