การทดสอบการเรียงสับเปลี่ยน

การทดสอบการเรียงสับเปลี่ยน (เรียกอีกอย่างว่า การทดสอบการสุ่มใหม่ หรือ การทดสอบการสับเปลี่ยน) เป็นการทดสอบสมมติฐานทางสถิติ ที่แม่นยำ การทดสอบการเรียงสับเปลี่ยนเกี่ยวข้องกับตัวอย่างสองตัวอย่างขึ้นไป สมมติฐานว่าง (ซึ่งอาจเป็นสมมติฐานเชิงสมมติ ) คือ ตัวอย่างทั้งหมดมาจากการแจกแจงเดียวกันภายใต้สมมติฐานว่างการแจกแจงของค่าสถิติการทดสอบจะได้รับจากการคำนวณค่าที่เป็นไปได้ทั้งหมดของค่าสถิติการทดสอบภายใต้การจัดเรียงข้อมูลใหม่ที่เป็นไปได้ การทดสอบการเรียงสับเปลี่ยนจึงเป็นรูปแบบหนึ่งของการสุ่มตัวอย่างซ้ำ $H_{0}:F=G$

การทดสอบการเรียงสับเปลี่ยนสามารถเข้าใจได้ว่าเป็นการทดสอบข้อมูลทดแทนโดยที่ข้อมูลทดแทนภายใต้สมมติฐานว่างได้มาจากการเรียงสับเปลี่ยนข้อมูลดั้งเดิม^{[ 1 ]}

กล่าวอีกนัยหนึ่ง วิธีการจัดสรรการรักษาให้กับกลุ่มตัวอย่างในการออกแบบการทดลองนั้น สะท้อนให้เห็นในการวิเคราะห์การออกแบบนั้น หากป้ายกำกับสามารถสลับเปลี่ยนกันได้ภายใต้สมมติฐานว่าง การทดสอบที่ได้จะให้ระดับนัยสำคัญที่แน่นอน ดูเพิ่มเติมที่การสลับเปลี่ยนกันได้จากนั้นจึงสามารถหาช่วงความเชื่อมั่นได้จากการทดสอบ ทฤษฎีนี้พัฒนามาจากผลงานของRonald FisherและEJG Pitmanในช่วงทศวรรษ 1930

การทดสอบการเรียงสับเปลี่ยนไม่ควรสับสนกับการทดสอบแบบสุ่ม^{[ 2 ]}

วิธี

เพื่ออธิบายแนวคิดพื้นฐานของการทดสอบการเรียงสับเปลี่ยน สมมติว่าเรารวบรวมตัวแปรสุ่มและสำหรับแต่ละบุคคลจากสองกลุ่มซึ่งมีค่าเฉลี่ยตัวอย่างเป็นและและเราต้องการทราบว่าและมาจากการกระจายเดียวกันหรือไม่ ให้และเป็นขนาดตัวอย่างที่รวบรวมจากแต่ละกลุ่ม การทดสอบการเรียงสับเปลี่ยนถูกออกแบบมาเพื่อตรวจสอบว่าความแตกต่างที่สังเกตได้ระหว่างค่าเฉลี่ยตัวอย่างนั้นมากพอที่จะปฏิเสธสมมติฐานว่าง H ที่ระดับนัยสำคัญบางระดับหรือไม่ สมมติฐานที่ว่าข้อมูลที่ดึงมาจาก มาจากการกระจายเดียวกันกับข้อมูลที่ดึงมาจาก $X_{A}$ $X_{B}$ $A$ $B$ ${\bar {x}}_{A}$ ${\bar {x}}_{B}$ $X_{A}$ $X_{B}$ $n_{A}$ $n_{B}$ $_{0}$ $A$ $B$

การทดสอบดำเนินไปดังนี้ ขั้นแรก คำนวณความแตกต่างของค่าเฉลี่ยระหว่างสองกลุ่มตัวอย่าง: นี่คือค่าที่สังเกตได้ของสถิติการทดสอบ. $T_{\text{obs}}$

ถัดไป ข้อมูลการสังเกตของกลุ่มต่างๆจะถูกรวมเข้าด้วยกัน และคำนวณและบันทึกความแตกต่างของค่าเฉลี่ยตัวอย่างสำหรับทุกวิธีที่เป็นไปได้ในการแบ่งค่าที่รวมกันแล้วออกเป็นสองกลุ่มที่มีขนาดและ(กล่าวคือ สำหรับทุกการเรียงสับเปลี่ยนของป้ายกำกับกลุ่ม A และ B) เซตของความแตกต่างที่คำนวณได้เหล่านี้คือการกระจายที่แน่นอนของความแตกต่างที่เป็นไปได้ (สำหรับตัวอย่างนี้) ภายใต้สมมติฐานว่างที่ว่าป้ายกำกับกลุ่มสามารถสลับเปลี่ยนกันได้ (กล่าวคือ ถูกกำหนดแบบสุ่ม) $A$ $B$ $n_{A}$ $n_{B}$

ค่า p ด้านเดียวของการทดสอบคำนวณจากสัดส่วนของการเรียงสับเปลี่ยนที่สุ่มมาซึ่งความแตกต่างของค่าเฉลี่ยมากกว่าค่า p สองด้านของการทดสอบคำนวณจากสัดส่วนของการเรียงสับเปลี่ยนที่สุ่มมาซึ่งความแตกต่างสัมบูรณ์มากกว่าการใช้งานการทดสอบการเรียงสับเปลี่ยนจำนวนมากต้องการให้ข้อมูลที่สังเกตได้เองถูกนับเป็นหนึ่งในการเรียงสับเปลี่ยนเพื่อให้ค่า p ของการเรียงสับเปลี่ยนจะไม่เป็นศูนย์^[³^] $T_{\text{obs}}$ $|T_{\text{obs}}|$

อีกทางเลือกหนึ่ง หากจุดประสงค์เดียวของการทดสอบคือการปฏิเสธหรือไม่ปฏิเสธสมมติฐานว่าง เราอาจเรียงลำดับความแตกต่างที่บันทึกไว้ แล้วสังเกตว่าค่าดังกล่าวอยู่ในช่วงกลางของค่าเหล่านั้นหรือไม่ ที่ระดับนัยสำคัญใด ๆหากไม่อยู่ เราจะปฏิเสธสมมติฐานที่ว่าเส้นโค้งความน่าจะเป็นเหมือนกันที่ระดับนัยสำคัญนั้น $T_{\text{obs}}$ $(1-\alpha )\times 100$ $\alpha$ $\alpha \times 100\%$

เพื่อใช้ประโยชน์จากการลดความแปรปรวนด้วยตัวอย่างที่จับคู่กันต้องใช้การทดสอบการเรียงสับเปลี่ยนแบบจับคู่ (paired permutation test) ดูที่ การทดสอบ ความแตกต่างแบบจับคู่ (paired difference test ) วิธีนี้เทียบเท่ากับการทำการทดสอบการเรียงสับเปลี่ยนแบบปกติที่ไม่จับคู่กัน แต่จำกัดชุดของการเรียงสับเปลี่ยนที่ถูกต้องให้เหลือเฉพาะชุดที่เคารพธรรมชาติของการจับคู่ของข้อมูล โดยห้ามไม่ให้ทั้งสองส่วนของคู่ใดๆ อยู่ในพาร์ติชันเดียวกัน ในกรณีเฉพาะแต่พบได้ทั่วไปที่สถิติทดสอบคือค่าเฉลี่ย วิธีนี้ยังเทียบเท่ากับการคำนวณชุดความแตกต่างเพียงชุดเดียวของแต่ละคู่และวนซ้ำไปเรื่อยๆ กับการกลับเครื่องหมายทั้งหมด แทนที่จะใช้วิธีการแบ่งพาร์ติชันแบบปกติ $2^{n}$

ความสัมพันธ์กับการทดสอบแบบพาราเมตริก

การทดสอบการเรียงสับเปลี่ยนเป็นส่วนหนึ่งของสถิติที่ไม่ใช้พารามิเตอร์โดยสมมติว่าข้อมูลการทดลองของเราได้มาจากข้อมูลที่วัดได้จากกลุ่มทดลองสองกลุ่ม วิธีนี้จะสร้างการกระจายของความแตกต่างเฉลี่ยภายใต้สมมติฐานว่าทั้งสองกลุ่มนั้นไม่แตกต่างกันในแง่ของตัวแปรที่วัดได้ จากนั้นจึงใช้สถิติที่สังเกตได้ ( ข้างต้น) เพื่อดูว่าสถิตินี้มีความพิเศษมากน้อยเพียงใด กล่าวคือ ความน่าจะเป็นที่จะสังเกตเห็นขนาดของค่าดังกล่าว (หรือมากกว่า) หากป้ายกำกับการทดลองถูกสุ่มใหม่หลังจากทำการทดลองแล้ว $T_{\text{obs}}$

ตรงกันข้ามกับการทดสอบแบบเรียงสับเปลี่ยน การแจกแจงที่เป็นพื้นฐานของ การทดสอบ ทางสถิติแบบ "คลาสสิก" ที่นิยมใช้กันหลายอย่าง เช่นการทดสอบ t , การทดสอบ F , การทดสอบ zและการทดสอบ χ²นั้นได้มาจากการแจกแจงความน่าจะเป็นเชิงทฤษฎีการทดสอบ ความแม่นยำของฟิชเชอร์ เป็นตัวอย่างของการทดสอบแบบพาราเมตริก ^ที่ใช้กันทั่วไปสำหรับการประเมินความสัมพันธ์ระหว่างตัวแปรทวิภาคสองตัว เมื่อขนาดตัวอย่างมีขนาดใหญ่มาก การทดสอบไคสแควร์ของเพียร์สันจะให้ผลลัพธ์ที่แม่นยำ สำหรับตัวอย่างขนาดเล็ก การแจกแจงอ้างอิงของไคสแควร์ไม่สามารถถือได้ว่าให้คำอธิบายที่ถูกต้องของการแจกแจงความน่าจะเป็นของสถิติการทดสอบ และในสถานการณ์นี้ การใช้การทดสอบความแม่นยำของฟิชเชอร์จึงเหมาะสมกว่า

การทดสอบแบบเรียงสับเปลี่ยนมีอยู่ในหลายสถานการณ์ที่การทดสอบแบบพาราเมตริกไม่มี (เช่น เมื่อต้องการหาการทดสอบที่เหมาะสมที่สุดเมื่อความสูญเสียเป็นสัดส่วนกับขนาดของข้อผิดพลาดมากกว่ากำลังสองของข้อผิดพลาด) การทดสอบแบบพาราเมตริกที่ง่ายทั้งหมดและการทดสอบแบบพาราเมตริกที่ค่อนข้างซับซ้อนหลายอย่างมีเวอร์ชันการทดสอบแบบเรียงสับเปลี่ยนที่สอดคล้องกัน ซึ่งกำหนดโดยใช้สถิติการทดสอบเดียวกันกับการทดสอบแบบพาราเมตริก แต่ได้ค่า p จากการแจกแจงแบบเรียงสับเปลี่ยนเฉพาะตัวอย่างของสถิตินั้น แทนที่จะได้จากการแจกแจงทางทฤษฎีที่ได้มาจากสมมติฐานแบบพาราเมตริก ตัวอย่างเช่น ด้วยวิธีนี้ เราสามารถสร้างการทดสอบ t แบบเรียงสับเปลี่ยน การทดสอบ ความสัมพันธ์ แบบเรียงสับเปลี่ยน เวอร์ชันแบบเรียงสับเปลี่ยนของการทดสอบของ Aly สำหรับการเปรียบเทียบความแปรปรวน และอื่นๆ ได้ ${\textstyle \chi ^{2}}$

ข้อเสียเปรียบที่สำคัญของการทดสอบการเรียงสับเปลี่ยนคือ...

อาจต้องใช้การคำนวณอย่างหนักและอาจต้องใช้โค้ด "เฉพาะ" สำหรับสถิติที่คำนวณยาก ซึ่งต้องเขียนใหม่ในทุกกรณี
โดยหลักแล้วใช้เพื่อหาค่า p-value การกลับด้านการทดสอบเพื่อหาช่วงความเชื่อมั่น/ช่วงค่าความเชื่อมั่นนั้นต้องใช้การคำนวณที่ซับซ้อนยิ่งขึ้น

ข้อดี

การทดสอบแบบเรียงสับเปลี่ยนมีอยู่สำหรับสถิติการทดสอบใดๆ โดยไม่คำนึงถึงว่าทราบการกระจายของสถิตินั้นหรือไม่ ดังนั้นจึงสามารถเลือกสถิติที่แยกแยะระหว่างสมมติฐานและสมมติฐานทางเลือกได้ดีที่สุด และลดความสูญเสียให้น้อยที่สุดได้เสมอ

การทดสอบการเรียงสับเปลี่ยนสามารถใช้สำหรับการวิเคราะห์การออกแบบที่ไม่สมดุล^{[ 4 ]}และสำหรับการรวมการทดสอบที่ขึ้นอยู่กันบนส่วนผสมของข้อมูลเชิงหมวดหมู่ เชิงลำดับ และเชิงปริมาณ (Pesarin, 2001) นอกจากนี้ยังสามารถใช้ในการวิเคราะห์ข้อมูลเชิงคุณภาพที่ถูกทำให้เป็นเชิงปริมาณ (เช่น เปลี่ยนเป็นตัวเลข) การทดสอบการเรียงสับเปลี่ยนอาจเหมาะสำหรับการวิเคราะห์ข้อมูลเชิงปริมาณที่ไม่เป็นไปตามข้อสมมติทางสถิติที่อยู่เบื้องหลังการทดสอบพาราเมตริกแบบดั้งเดิม (เช่น การทดสอบ t, ANOVA ) ^{[ 5 ]}ดูPERMANOVA

ก่อนทศวรรษ 1980 ภาระในการสร้างการแจกแจงอ้างอิงนั้นหนักหนาสาหัสมาก ยกเว้นในกรณีที่ชุดข้อมูลมีขนาดตัวอย่างเล็ก

นับตั้งแต่ทศวรรษ 1980 การบรรจบกันของคอมพิวเตอร์ความเร็วสูงราคาไม่แพงและการพัฒนาอัลกอริทึมเส้นทางที่ซับซ้อนใหม่ๆ ที่สามารถนำไปใช้ได้ในสถานการณ์พิเศษ ทำให้วิธีการทดสอบการเรียงสับเปลี่ยนสามารถนำไปประยุกต์ใช้ได้จริงสำหรับปัญหาต่างๆ มากมาย นอกจากนี้ยังเป็นจุดเริ่มต้นของการเพิ่มตัวเลือกการทดสอบแบบแม่นยำในซอฟต์แวร์ทางสถิติหลักๆ และการปรากฏตัวของซอฟต์แวร์เฉพาะทางสำหรับการทำการทดสอบแบบแม่นยำทั้งแบบตัวแปรเดียวและหลายตัวแปร และการคำนวณช่วงความเชื่อมั่น "แบบแม่นยำ" ที่อิงตามการทดสอบ

ข้อจำกัด

ข้อสมมติฐานที่สำคัญเบื้องหลังการทดสอบการเรียงสับเปลี่ยนคือ การสังเกตการณ์สามารถสลับเปลี่ยนกันได้ภายใต้สมมติฐานว่าง ผลที่ตามมาที่สำคัญของข้อสมมติฐานนี้คือ การทดสอบความแตกต่างในตำแหน่ง (เช่น การทดสอบ t แบบเรียงสับเปลี่ยน) ต้องใช้ความแปรปรวนเท่ากันภายใต้สมมติฐานความปกติ ในแง่นี้ การทดสอบ t แบบเรียงสับเปลี่ยนแบบคลาสสิกมีจุดอ่อนเช่นเดียวกับการทดสอบ t ของนักเรียนแบบคลาสสิก ( ปัญหา Behrens–Fisher ) สามารถแก้ไขได้ในลักษณะเดียวกับที่การทดสอบ t แบบคลาสสิกได้รับการขยายเพื่อจัดการกับความแปรปรวนที่ไม่เท่ากัน: โดยการใช้สถิติ Welchพร้อมการปรับ Satterthwaite กับระดับความเป็นอิสระ^{[ 6 ]}ทางเลือกที่สามในสถานการณ์นี้คือการใช้การทดสอบแบบบูตสแตรป นักสถิติPhillip Goodอธิบายความแตกต่างระหว่างการทดสอบการเรียงสับเปลี่ยนและการทดสอบบูตสแตรปดังนี้: "การทดสอบการเรียงสับเปลี่ยนทดสอบสมมติฐานเกี่ยวกับการกระจาย การทดสอบบูตสแตรปทดสอบสมมติฐานเกี่ยวกับพารามิเตอร์ ดังนั้น การทดสอบบูตสแตรปจึงมีข้อสมมติฐานที่เข้มงวดน้อยกว่า" ^{[ 7 ]}การทดสอบบูตสแตรปไม่แม่นยำ ในบางกรณี การทดสอบการเรียงสับเปลี่ยนโดยใช้สถิติแบบนักเรียนที่เหมาะสมสามารถแม่นยำในเชิงอะซิมโทติกได้ แม้ว่าสมมติฐานการแลกเปลี่ยนจะถูกละเมิดก็ตาม^{[ 8 ]} การทดสอบแบบบูตสแตรปสามารถทดสอบด้วยสมมติฐานว่างได้ดังนั้นจึงเหมาะสำหรับการทดสอบความเท่าเทียมกัน $H_{0}:F\neq G$

การทดสอบมอนเตคาร์โล

สามารถสร้างการทดสอบการเรียงสับเปลี่ยนที่เทียบเท่าเชิงอะซิมโทติกได้เมื่อมีลำดับข้อมูลที่เป็นไปได้มากเกินไปจนไม่สามารถแจงนับได้อย่างสะดวก โดยการสร้างการแจกแจงอ้างอิงด้วยการสุ่มตัวอย่างแบบมอนเตคาร์โลซึ่งจะสุ่มตัวอย่างขนาดเล็ก (เมื่อเทียบกับจำนวนการเรียงสับเปลี่ยนทั้งหมด) จากชุดข้อมูลที่เป็นไปได้ทั้งหมด การตระหนักว่าสามารถนำไปใช้กับการทดสอบการเรียงสับเปลี่ยนใดๆ บนชุดข้อมูลใดๆ ก็ได้ถือเป็นความก้าวหน้าครั้งสำคัญในด้านสถิติประยุกต์ เอกสารอ้างอิงที่เก่าแก่ที่สุดที่รู้จักเกี่ยวกับแนวทางนี้คือ Eden และYates (1933) และDwass (1957) ^{[ 9 ]}^{[ 10 ]} การทดสอบการเรียงสับเปลี่ยนประเภทนี้เป็นที่รู้จักกันในชื่อต่างๆ เช่นการทดสอบการเรียงสับเปลี่ยนโดยประมาณการทดสอบการเรียงสับเปลี่ยนแบบมอนเตคาร์โลหรือ การทดสอบ การเรียงสับเปลี่ยนแบบสุ่ม^{[ 11 ]}

หลังจากสุ่มสลับตำแหน่งแล้ว เราสามารถหาช่วงความเชื่อมั่นสำหรับค่า p โดยใช้การแจกแจงทวินามได้ ดูที่ ช่วงความเชื่อมั่นสัดส่วนทวินามตัวอย่างเช่น ถ้าหลังจากสุ่มสลับตำแหน่งแล้ว ค่า p ที่ประมาณได้คือแล้วช่วงความเชื่อมั่น 99% สำหรับค่าที่แท้จริง(ค่าที่จะได้จากการลองสลับตำแหน่งที่เป็นไปได้ทั้งหมด) คือ $N$ $N=10000$ ${\วงกว้าง {p}}=0.05$ $p$ $\left[{\hat {p}}-z{\sqrt {\frac {0.05(1-0.05)}{10000}}},{\hat {p}}+z{\sqrt {\frac {0.05(1-0.05)}{10000}}}\right]=[0.045,0.055]$

ในทางกลับกัน จุดประสงค์ของการประมาณค่า p-value มักเป็นการตัดสินใจว่าโดยที่คือค่าเกณฑ์ที่สมมติฐานว่างจะถูกปฏิเสธ (โดยทั่วไปคือ) ในตัวอย่างข้างต้น ช่วงความเชื่อมั่นบอกเราเพียงว่ามีโอกาสประมาณ 50% ที่ค่า p-value จะน้อยกว่า 0.05 กล่าวคือ ยังไม่ชัดเจนเลยว่าควรปฏิเสธสมมติฐานว่างที่ระดับนัยสำคัญ หรือไม่ $p\leq \alpha$ $\scriptstyle \ \alpha$ $\alpha =0.05$ $\alpha =0.05$

หากสิ่งสำคัญคือการรู้ว่าสำหรับค่าที่กำหนด การจำลองต่อไปจนกว่าจะสามารถพิสูจน์ได้ว่าข้อความนั้นเป็นจริงหรือเท็จด้วยความน่าจะเป็นของข้อผิดพลาดที่ต่ำมากนั้นเป็นเรื่องที่สมเหตุสมผล เมื่อกำหนดขอบเขตของความน่าจะเป็นของข้อผิดพลาดที่ยอมรับได้ (ความน่าจะเป็นของการพบว่าเมื่อในความเป็นจริงเป็นหรือในทางกลับกัน) คำถามเกี่ยวกับจำนวนการเรียงสับเปลี่ยนที่จะสร้างสามารถมองได้ว่าเป็นคำถามเกี่ยวกับเวลาที่จะหยุดสร้างการเรียงสับเปลี่ยน โดยพิจารณาจากผลลัพธ์ของการจำลองที่ผ่านมา เพื่อรับประกันว่าข้อสรุป (ซึ่งเป็น หรือ) นั้นถูกต้องด้วยความน่าจะเป็นอย่างน้อยเท่ากับ( โดยทั่วไปจะเลือกให้มีค่าน้อยมาก เช่น 1/1000) กฎการหยุดเพื่อให้บรรลุเป้าหมายนี้ได้รับการพัฒนา^[¹²^] ซึ่งสามารถรวมเข้าด้วยกันได้โดยมีต้นทุนการคำนวณเพิ่มเติมเพียงเล็กน้อย ในความเป็นจริง ขึ้นอยู่กับค่า p-value ที่แท้จริง มักจะพบว่าจำนวนการจำลองที่ต้องการนั้นน้อยมาก (เช่น ต่ำถึง 5 และมักจะไม่เกิน 100) ก่อนที่จะสามารถตัดสินใจได้อย่างแน่นอน $p\leq \alpha$ $\alpha$ $p\leq \alpha$ $\epsilon$ ${\widehat {p}}>\alpha$ $p\leq \alpha$ $p\leq \alpha$ $p>\alpha$ $1-\epsilon$ $\epsilon$

ตัวอย่างการทดสอบ

ดูเพิ่มเติม

วรรณกรรม

เอกสารอ้างอิงต้นฉบับ:

Fisher, RA (1935) การออกแบบการทดลองนิวยอร์ก: Hafner
Pitman, EJG (1937) "การทดสอบนัยสำคัญที่สามารถนำไปใช้กับตัวอย่างจากประชากรใดๆ" Royal Statistical Society Supplement , 4: 119-130 และ 225-32 (ส่วนที่ I และ II) JSTOR 2984124 JSTOR 2983647
Pitman, EJG (1938). "การทดสอบนัยสำคัญที่อาจนำไปใช้กับตัวอย่างจากประชากรใดๆ ส่วนที่ III การทดสอบการวิเคราะห์ความแปรปรวน" Biometrika . 29 ( 3– 4): 322– 335. doi : 10.1093/biomet/29.3-4.322 .

เอกสารอ้างอิงสมัยใหม่:

Collingridge, DS (2013). "บทนำเกี่ยวกับการวิเคราะห์ข้อมูลเชิงปริมาณและการทดสอบการเรียงสับเปลี่ยน" วารสารการวิจัยวิธีการผสมผสาน 7 ( 1): 79– 95. doi : 10.1177/1558689812454457 . S2CID 124618343 .
Edgington, ES และ Onghena, P. (2007) การทดสอบแบบสุ่ม ฉบับที่ 4 นิวยอร์ก: Chapman and Hall/CRC ISBN 9780367577711
Good, Phillip I. (2005) การทดสอบสมมติฐานแบบเรียงสับเปลี่ยน แบบพาราเมตริก และแบบบูตสแตรปฉบับที่ 3 สำนักพิมพ์ Springer ISBN 0-387-98898-X
Good, P (2002). "การขยายแนวคิดเรื่องความสามารถในการแลกเปลี่ยนและการประยุกต์ใช้"วารสารวิธีการทางสถิติประยุกต์สมัยใหม่ 1 ( 2) jmasm.eP1666: 243– 247. doi : 10.22237/jmasm/1036110240 .
Lunneborg, Cliff. (1999) การวิเคราะห์ข้อมูลโดยการสุ่มตัวอย่างซ้ำ สำนักพิมพ์ Duxbury Press. ISBN 0-534-22110-6.
Pesarin, F. (2001). การทดสอบการเรียงสับเปลี่ยนแบบหลายตัวแปร: พร้อมการประยุกต์ใช้ในสถิติชีวภาพ , John Wiley & Sons . ISBN 978-0471496700
Welch, WJ (1990). "การสร้างการทดสอบการเรียงสับเปลี่ยน". วารสารสมาคมสถิติอเมริกัน 85 (411): 693– 698. Bibcode : 1990JASA ...85..693W . doi : 10.1080/01621459.1990.10474929 .

วิธีการคำนวณ:

Mehta, CR; Patel, NR (1983). "อัลกอริทึมเครือข่ายสำหรับการทำการทดสอบ Fisher's exact test ในตารางความสัมพันธ์ rxc" วารสารสมาคมสถิติอเมริกัน 78 ( 382): 427– 434. doi : 10.1080/01621459.1983.10477989 .
Mehta, CR; Patel, NR; Senchaudhuri, P. (1988). "การสุ่มตัวอย่างความสำคัญเพื่อประมาณความน่าจะเป็นที่แน่นอนในการอนุมานแบบเรียงสับเปลี่ยน" วารสารสมาคมสถิติอเมริกัน 83 ( 404): 999– 1005. doi : 10.1080/01621459.1988.10478691 .
Gill, PMW (2007). "การคำนวณค่า p อย่างมีประสิทธิภาพในการทดสอบนัยสำคัญของการเรียงสับเปลี่ยนทางสถิติเชิงเส้น" (PDF)วารสารการคำนวณทางสถิติและการจำลอง 77 ( 1): 55– 61. CiteSeerX 10.1.1.708.1957 . doi : 10.1080/10629360500108053 . S2CID 1813706 .

งานวิจัยปัจจุบันเกี่ยวกับการทดสอบการเรียงสับเปลี่ยน

Good, PI (2012) คู่มือปฏิบัติสำหรับวิธีการสุ่มตัวอย่างซ้ำ
Good, PI (2005) การทดสอบสมมติฐานด้วยการเรียงสับเปลี่ยน พาราเมตริก และบูตสแตรป
Hesterberg, TC, DS Moore, S. Monaghan , A. Clipson และ R. Epstein (2005): Bootstrap Methods and Permutation Tests , ซอฟต์แวร์
Moore, DS, G. McCabe, W. Duckworth และ S. Sclove (2003): วิธีการบูตสแตรปและการทดสอบการเรียงสับเปลี่ยน
Simon, JL (1997): การสุ่มตัวอย่างซ้ำ : สถิติรูปแบบใหม่
Yu, Chong Ho (2003): วิธีการสุ่มตัวอย่างซ้ำ: แนวคิด การประยุกต์ใช้ และเหตุผล การประเมินผลเชิงปฏิบัติ การวิจัยและการประเมิน 8(19) ( การบูตสแตรปทางสถิติ)
การสุ่มตัวอย่างใหม่: การผสมผสานระหว่างคอมพิวเตอร์และสถิติ (ERIC Digests) เก็บถาวรเมื่อ 21 กุมภาพันธ์ 2009 ที่Wayback Machine
Pesarin, F., Salmaso, L. (2010). การทดสอบการเรียงสับเปลี่ยนสำหรับข้อมูลที่ซับซ้อน: ทฤษฎี การประยุกต์ใช้ และซอฟต์แวร์ Wiley. https://books.google.com/books?id=9PWVTOanxPUC&hl=de

[ 1 ]

[ 2 ]

[

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[