การทดสอบแบบหางเดียวและสองหาง

Q: ข้อมูลสำคัญเกี่ยวกับ การทดสอบแบบหางเดียวและสองหาง

ในการทดสอบนัยสำคัญ ทางสถิติ การทดสอบแบบด้านเดียวและการทดสอบแบบสองด้านเป็นวิธีการทางเลือกในการคำนวณนัยสำคัญทางสถิติของพารามิเตอร์ที่อนุมานจากชุดข้อมูล

Q: ตัวอย่างการโยนเหรียญ

ในการโยนเหรียญ สมมติฐานว่าง คือลำดับของ การทดลองแบบเบอร์นูลลี ที่มีความน่าจะเป็น 0.

การ**ทดสอบแบบสองด้าน**ที่ใช้กับการแจกแจงแบบปกติ

ในการทดสอบนัยสำคัญ ทางสถิติ การทดสอบแบบด้านเดียวและการทดสอบแบบสองด้านเป็นวิธีการทางเลือกในการคำนวณนัยสำคัญทางสถิติของพารามิเตอร์ที่อนุมานจากชุดข้อมูล ในแง่ของสถิติการทดสอบการทดสอบแบบสองด้านเหมาะสมหากค่าประมาณมากกว่าหรือน้อยกว่าช่วงค่าที่กำหนด ตัวอย่างเช่น ผู้สอบอาจได้คะแนนสูงกว่าหรือต่ำกว่าช่วงคะแนนที่กำหนด วิธีนี้ใช้สำหรับ การทดสอบ สมมติฐานว่างและหากค่าประมาณอยู่ในพื้นที่วิกฤต สมมติฐานทางเลือกจะได้รับการยอมรับมากกว่าสมมติฐานว่าง การทดสอบแบบด้านเดียวเหมาะสมหากค่าประมาณอาจเบี่ยงเบนจากค่าอ้างอิงได้เพียงทิศทางเดียว ซ้ายหรือขวา แต่ไม่ใช่ทั้งสองทิศทาง^{[ 1 ]}ตัวอย่างเช่น เครื่องจักรผลิตสินค้าชำรุดมากกว่า 1 เปอร์เซ็นต์หรือไม่ ในสถานการณ์นี้ หากค่าประมาณอยู่ในพื้นที่วิกฤตด้านเดียวด้านใดด้านหนึ่ง ขึ้นอยู่กับทิศทางที่สนใจ (มากกว่าหรือน้อยกว่า) สมมติฐานทางเลือกจะได้รับการยอมรับมากกว่าสมมติฐานว่าง ชื่อเรียกอื่นคือการ ทดสอบ ด้านเดียวและการทดสอบแบบสองด้านคำว่า "หาง" (tail) ถูกใช้เนื่องจากส่วนสุดขั้วของการกระจายตัว ซึ่งค่าสังเกตนำไปสู่การปฏิเสธสมมติฐานว่างนั้น มีขนาดเล็กและมักจะ "เบี่ยงออก" ไปทางศูนย์ เช่นเดียวกับการกระจายแบบปกติ (normal distribution ) ที่มีสีเหลือง หรือ "เส้นโค้งระฆัง" (bell curve) ที่แสดงในภาพด้านขวาและมีสีเขียว

แอปพลิเคชัน

การทดสอบแบบหางเดียวใช้สำหรับการกระจายแบบไม่สมมาตรที่มีหางเดียว เช่นการกระจายไคกำลังสองซึ่งมักใช้ในการวัดความเหมาะสมหรือสำหรับด้านใดด้านหนึ่งของการกระจายที่มีสองหาง เช่นการกระจายแบบปกติซึ่งมักใช้ในการประมาณตำแหน่ง ซึ่งสอดคล้องกับการระบุทิศทาง การทดสอบแบบสองหางใช้ได้เฉพาะเมื่อมีหางสองหาง เช่น ในการกระจายแบบปกติ และสอดคล้องกับการพิจารณาว่าทิศทางใดมีนัยสำคัญ^{[ 2 ]}^{[ 3 ]}

ในแนวทางของRonald Fisherสมมติฐานว่าง H₀ จะถูกปฏิเสธเมื่อค่า pของ_{สถิติ}การทดสอบมีความสุดขั้วมากพอ (เมื่อเทียบกับการแจกแจงตัวอย่าง ของสถิติการทดสอบ ) และจึงถูกตัดสินว่าไม่น่าจะเป็นผลมาจากความบังเอิญ โดยปกติแล้วจะทำได้โดยการเปรียบเทียบค่า p ที่ได้กับระดับนัยสำคัญที่กำหนด ซึ่งแสดงด้วยσ เมื่อคำนวณนัยสำคัญทางสถิติของพารามิเตอร์ ในการทดสอบแบบหางเดียว "สุดขั้ว" จะถูกกำหนดไว้ล่วงหน้าว่าหมายถึง "เล็กมากพอ" หรือ"ใหญ่มากพอ" – ค่าในทิศทางตรงกันข้ามถือว่าไม่มีนัยสำคัญ อาจรายงานความน่าจะเป็นของหางซ้ายหรือหางขวาเป็นค่า p แบบหางเดียว ซึ่งในที่สุดจะสอดคล้องกับทิศทางที่สถิติการทดสอบเบี่ยงเบนจาก H₀ _[⁴^]^ในการทดสอบแบบสองหาง "สุดขั้ว" หมายถึง "เล็กมากพอหรือใหญ่มากพอ" และค่าในทิศทางใดทิศทางหนึ่งถือว่ามีนัยสำคัญ^[⁵^]สำหรับสถิติการทดสอบที่กำหนด จะมีการทดสอบแบบสองด้านหนึ่งรายการ และการทดสอบแบบด้านเดียวสองรายการ โดยแต่ละรายการสำหรับทิศทางใดทิศทางหนึ่ง เมื่อกำหนดระดับนัยสำคัญพื้นที่วิกฤตจะอยู่ที่ปลายหางทั้งสองข้างของการกระจาย โดยมีพื้นที่เท่ากับ สำหรับการทดสอบแบบสองด้าน หรืออีกทางหนึ่ง พื้นที่วิกฤตจะอยู่ที่ปลายหางเพียงด้านเดียว โดยมีพื้นที่เท่ากับสำหรับการทดสอบแบบด้านเดียว สำหรับระดับนัยสำคัญที่กำหนดในการทดสอบแบบสองด้านสำหรับสถิติการทดสอบ การทดสอบแบบด้านเดียวที่สอดคล้องกันสำหรับสถิติการทดสอบเดียวกันจะถือว่ามีนัยสำคัญเป็นสองเท่า (ครึ่งหนึ่งของ ค่า p ) หากข้อมูลอยู่ในทิศทางที่ระบุโดยการทดสอบ หรือไม่มีนัยสำคัญเลย ( ค่า pมากกว่า) หากข้อมูลอยู่ในทิศทางตรงกันข้ามกับพื้นที่วิกฤตที่ระบุโดยการทดสอบ $\alpha$ $\alpha$ $\alpha /2$ $\alpha$ $\alpha$

ตัวอย่างเช่น หากโยนเหรียญการทดสอบว่ามีแนวโน้มออกหัวหรือไม่นั้นเป็นการทดสอบแบบด้านเดียว และการได้ข้อมูล "หัวทั้งหมด" จะถือว่ามีความสำคัญอย่างมาก ในขณะที่การได้ข้อมูล "ก้อยทั้งหมด" จะไม่มีนัยสำคัญเลย ( p = 1) ในทางตรงกันข้าม การทดสอบว่ามีแนวโน้มไปใน ทิศทาง ใดทิศทางหนึ่งนั้นเป็นการทดสอบแบบสองด้าน และทั้ง "หัวทั้งหมด" หรือ "ก้อยทั้งหมด" จะถือว่าเป็นข้อมูลที่มีนัยสำคัญอย่างมาก ในการทดสอบทางการแพทย์ โดยทั่วไปแล้วเราสนใจว่าการรักษาจะให้ผลลัพธ์ที่ดีกว่าโอกาสหรือไม่ ซึ่งแนะนำให้ใช้การทดสอบแบบด้านเดียว แต่ ผลลัพธ์ ที่แย่ลงก็เป็นสิ่งที่น่าสนใจสำหรับวงการวิทยาศาสตร์เช่นกัน ดังนั้นจึงควรใช้การทดสอบแบบสองด้านที่สอดคล้องกับการทดสอบว่าการรักษาจะให้ผลลัพธ์ที่แตกต่างจากโอกาสหรือไม่ ไม่ว่าจะดีขึ้นหรือแย่ลง^{[ 6 ]}ใน การทดลอง ชิมชาของสุภาพสตรี ต้นแบบ ฟิชเชอร์ได้ทดสอบว่าสุภาพสตรีคนดังกล่าวสามารถแยกแยะชาสองประเภทได้ดี กว่าโอกาสหรือไม่ ไม่ใช่ว่าความสามารถของเธอ แตกต่างจากโอกาสหรือไม่ ดังนั้นเขาจึงใช้การทดสอบแบบด้านเดียว

ตัวอย่างการโยนเหรียญ

ในการโยนเหรียญสมมติฐานว่างคือลำดับของการทดลองแบบเบอร์นูลลีที่มีความน่าจะเป็น 0.5 ซึ่งให้ตัวแปรสุ่มXที่มีค่าเป็น 1 สำหรับหัวและ 0 สำหรับก้อย และสถิติการทดสอบทั่วไปคือค่าเฉลี่ยของตัวอย่าง (ของจำนวนหัว) หากต้องการทดสอบว่าเหรียญมีแนวโน้มออกหัวหรือไม่ จะใช้การทดสอบแบบด้านเดียว – เฉพาะจำนวนหัวจำนวนมากเท่านั้นที่จะมีความสำคัญทางสถิติ ในกรณีนั้น ชุดข้อมูลหัวห้าครั้ง (HHHHH) โดยมีค่าเฉลี่ยตัวอย่างเท่ากับ 1 มีโอกาสเกิดขึ้น (การโยนเหรียญติดต่อกัน 5 ครั้ง โดยมีผลลัพธ์ 2 แบบ - ((1/2)^5 =1/32)) ซึ่งจะมีความสำคัญทางสถิติ (ปฏิเสธสมมติฐานว่าง) หากวิเคราะห์การทดสอบที่ระดับนัยสำคัญ(ระดับนัยสำคัญที่สอดคล้องกับขอบเขตการตัด) อย่างไรก็ตาม หากทดสอบว่าเหรียญเอนเอียงไปทางหัวหรือก้อยหรือไม่ จะใช้การทดสอบแบบสองด้าน และชุดข้อมูลหัวห้าครั้ง (ค่าเฉลี่ยตัวอย่าง 1) มีความสุดขั้วเท่ากับชุดข้อมูลก้อยห้าครั้ง (ค่าเฉลี่ยตัวอย่าง 0) ดังนั้น ค่า pจะเป็นและจะไม่มีความสำคัญทางสถิติ (ไม่ปฏิเสธสมมติฐานว่าง) หากวิเคราะห์การทดสอบที่ระดับนัยสำคัญ ${\bar {X}}.$ $1/32=0.03125\approx 0.03$ $p\approx 0.03$ $\alpha =0.05$ $2/32=0.0625\approx 0.06$ $\alpha =0.05$

ประวัติศาสตร์

ค่าpถูกนำเสนอโดยKarl Pearson ^{[ 7 ]}ในการทดสอบไคกำลังสองของ Pearsonโดยที่เขากำหนด P (สัญลักษณ์ดั้งเดิม) ว่าเป็นความน่าจะเป็นที่สถิติจะอยู่ที่ระดับที่กำหนดหรือสูงกว่าระดับที่กำหนด นี่คือคำจำกัดความแบบหางเดียว และการแจกแจงไคกำลังสองนั้นไม่สมมาตร โดยมีค่าเป็นบวกหรือศูนย์เท่านั้น และมีเพียงหางเดียว คือหางด้านบน มันวัดความเหมาะสมของข้อมูลกับการแจกแจงเชิงทฤษฎี โดยที่ศูนย์สอดคล้องกับการตกลงกับทฤษฎีอย่างแม่นยำ ดังนั้นค่า pจึงวัดว่าความเหมาะสมนั้นมีโอกาสแย่หรือเลวร้ายกว่านี้มากน้อยเพียงใด

^{ความแตกต่างระหว่างการทดสอบ แบบ}หางเดียวและแบบสองหางได้รับความนิยมจากRonald Fisherในหนังสือที่มีอิทธิพลอย่างStatistical Methods for Research Workers [ ⁸^]โดยเขาได้นำไปใช้โดยเฉพาะกับการแจกแจงปกติซึ่งเป็นการแจกแจงแบบสมมาตรที่มีหางเท่ากันสองหาง การแจกแจงปกติเป็นการวัดตำแหน่งทั่วไปมากกว่าการวัดความเหมาะสม และมีสองหาง ซึ่งสอดคล้องกับการประมาณค่าตำแหน่งที่อยู่เหนือหรือต่ำกว่าตำแหน่งทางทฤษฎี (เช่น ค่าเฉลี่ยของตัวอย่างเมื่อเทียบกับค่าเฉลี่ยทางทฤษฎี) ในกรณีของการแจกแจงแบบสมมาตร เช่น การแจกแจงปกติ ค่าp แบบหางเดียวจะมีค่าเป็นครึ่งหนึ่งของค่า pแบบสองหางพอดี: ^[⁸^]

บางครั้งอาจเกิดความสับสนขึ้นเนื่องจากในบางกรณีเราต้องการทราบความน่าจะเป็นที่ค่าเบี่ยงเบนซึ่งทราบว่าเป็นบวกจะเกินค่าที่สังเกตได้ ในขณะที่ในกรณีอื่นๆ ความน่าจะเป็นที่ต้องการคือความน่าจะเป็นที่ค่าเบี่ยงเบนซึ่งมีโอกาสเป็นบวกและลบเท่าๆ กันจะเกินค่าที่สังเกตได้ โดยความน่าจะเป็นในกรณีหลังจะเป็นครึ่งหนึ่งของความน่าจะเป็นในกรณีแรกเสมอ

— โรนัลด์ ฟิชเชอร์ , วิธีการทางสถิติสำหรับนักวิจัย

ฟิชเชอร์เน้นย้ำถึงความสำคัญของการวัดค่าหาง – ค่าที่สังเกตได้ของสถิติการทดสอบและค่าสุดขั้วทั้งหมด – มากกว่าเพียงแค่ความน่าจะเป็นของผลลัพธ์เฉพาะเจาะจง ในหนังสือThe Design of Experiments (1935) ของเขา ^{[ 9 ]}เขาอธิบายเรื่องนี้ว่า เนื่องจาก ชุดข้อมูล เฉพาะเจาะจงอาจไม่น่าจะเกิดขึ้น (ในสมมติฐานว่าง) แต่ผลลัพธ์สุดขั้วอาจเป็นไปได้ ดังนั้นเมื่อมองในแง่นี้ ข้อมูลที่ไม่น่าจะเกิดขึ้นเฉพาะเจาะจงแต่ไม่สุดขั้วจึงไม่ควรพิจารณาว่ามีนัยสำคัญ

การทดสอบเฉพาะ

ถ้าค่าสถิติการทดสอบมีการแจกแจง แบบ tของนักเรียนในสมมติฐานว่าง – ซึ่งเป็นเรื่องปกติเมื่อตัวแปรพื้นฐานมีการแจกแจงแบบปกติ ที่มีปัจจัยการปรับขนาดที่ไม่ทราบค่า – การทดสอบนั้นจะเรียกว่า การทดสอบ tแบบด้านเดียวหรือสองด้าน ถ้าการทดสอบดำเนินการโดยใช้ค่าเฉลี่ยและความแปรปรวนของประชากรจริง แทนที่จะใช้ค่าประมาณจากตัวอย่าง การทดสอบนั้นจะเรียกว่า การ ทดสอบ Zแบบด้านเดียวหรือสองด้าน

ตารางทางสถิติสำหรับค่า tและค่าZให้ค่าวิกฤตสำหรับการทดสอบทั้งแบบด้านเดียวและสองด้าน กล่าวคือ ตารางเหล่านี้ให้ค่าวิกฤตที่ตัดขอบเขตทั้งหมดที่ปลายด้านใดด้านหนึ่งของการกระจายตัวอย่าง รวมถึงค่าวิกฤตที่ตัดขอบเขต (ขนาดครึ่งหนึ่ง) ที่ปลายทั้งสองด้านของการกระจายตัวอย่างด้วย

ดูเพิ่มเติม

การทดสอบความแตกต่างแบบจับคู่เมื่อเปรียบเทียบตัวอย่างสองตัวอย่าง

[ 1 ]

[ 2 ]

[ 3 ]

4

[

[ 6 ]

[ 7 ]

ความแตกต่างระหว่างการทดสอบ แบบ

[ 9 ]