อ่าน 4 นาที
การทดสอบแบบหางเดียวและสองหาง
ในการทดสอบนัยสำคัญ ทางสถิติ การทดสอบแบบด้านเดียวและการทดสอบแบบสองด้านเป็นวิธีการทางเลือกในการคำนวณนัยสำคัญทางสถิติของพารามิเตอร์ที่อนุมานจากชุดข้อมูล
การทดสอบแบบหางเดียวและสองหาง


ในการทดสอบนัยสำคัญ ทางสถิติ การทดสอบแบบด้านเดียวและการทดสอบแบบสองด้านเป็นวิธีการทางเลือกในการคำนวณนัยสำคัญทางสถิติของพารามิเตอร์ที่อนุมานจากชุดข้อมูล ในแง่ของสถิติการทดสอบการทดสอบแบบสองด้านเหมาะสมหากค่าประมาณมากกว่าหรือน้อยกว่าช่วงค่าที่กำหนด ตัวอย่างเช่น ผู้สอบอาจได้คะแนนสูงกว่าหรือต่ำกว่าช่วงคะแนนที่กำหนด วิธีนี้ใช้สำหรับ การทดสอบ สมมติฐานว่างและหากค่าประมาณอยู่ในพื้นที่วิกฤต สมมติฐานทางเลือกจะได้รับการยอมรับมากกว่าสมมติฐานว่าง การทดสอบแบบด้านเดียวเหมาะสมหากค่าประมาณอาจเบี่ยงเบนจากค่าอ้างอิงได้เพียงทิศทางเดียว ซ้ายหรือขวา แต่ไม่ใช่ทั้งสองทิศทาง[ 1 ]ตัวอย่างเช่น เครื่องจักรผลิตสินค้าชำรุดมากกว่า 1 เปอร์เซ็นต์หรือไม่ ในสถานการณ์นี้ หากค่าประมาณอยู่ในพื้นที่วิกฤตด้านเดียวด้านใดด้านหนึ่ง ขึ้นอยู่กับทิศทางที่สนใจ (มากกว่าหรือน้อยกว่า) สมมติฐานทางเลือกจะได้รับการยอมรับมากกว่าสมมติฐานว่าง ชื่อเรียกอื่นคือการ ทดสอบ ด้านเดียวและการทดสอบแบบสองด้านคำว่า "หาง" (tail) ถูกใช้เนื่องจากส่วนสุดขั้วของการกระจายตัว ซึ่งค่าสังเกตนำไปสู่การปฏิเสธสมมติฐานว่างนั้น มีขนาดเล็กและมักจะ "เบี่ยงออก" ไปทางศูนย์ เช่นเดียวกับการกระจายแบบปกติ (normal distribution ) ที่มีสีเหลือง หรือ "เส้นโค้งระฆัง" (bell curve) ที่แสดงในภาพด้านขวาและมีสีเขียว
แอปพลิเคชัน
การทดสอบแบบหางเดียวใช้สำหรับการกระจายแบบไม่สมมาตรที่มีหางเดียว เช่นการกระจายไคกำลังสองซึ่งมักใช้ในการวัดความเหมาะสมหรือสำหรับด้านใดด้านหนึ่งของการกระจายที่มีสองหาง เช่นการกระจายแบบปกติซึ่งมักใช้ในการประมาณตำแหน่ง ซึ่งสอดคล้องกับการระบุทิศทาง การทดสอบแบบสองหางใช้ได้เฉพาะเมื่อมีหางสองหาง เช่น ในการกระจายแบบปกติ และสอดคล้องกับการพิจารณาว่าทิศทางใดมีนัยสำคัญ[ 2 ] [ 3 ]
ในแนวทางของRonald Fisherสมมติฐานว่าง H₀ จะถูกปฏิเสธเมื่อค่าpของสถิติการทดสอบมีความสุดขั้วมากพอ (เมื่อเทียบกับการแจกแจงตัวอย่าง ของสถิติการทดสอบ ) และจึงถูกตัดสินว่าไม่น่าจะเป็นผลมาจากความบังเอิญ โดยปกติแล้วจะทำได้โดยการเปรียบเทียบค่า p ที่ได้กับระดับนัยสำคัญที่กำหนด ซึ่งแสดงด้วยσ เมื่อคำนวณนัยสำคัญทางสถิติของพารามิเตอร์ ในการทดสอบแบบหางเดียว "สุดขั้ว" จะถูกกำหนดไว้ล่วงหน้าว่าหมายถึง "เล็กมากพอ" หรือ"ใหญ่มากพอ" – ค่าในทิศทางตรงกันข้ามถือว่าไม่มีนัยสำคัญ อาจรายงานความน่าจะเป็นของหางซ้ายหรือหางขวาเป็นค่า p แบบหางเดียว ซึ่งในที่สุดจะสอดคล้องกับทิศทางที่สถิติการทดสอบเบี่ยงเบนจาก H₀ [ 4 ] ในการทดสอบแบบสองหาง "สุดขั้ว" หมายถึง "เล็กมากพอหรือใหญ่มากพอ" และค่าในทิศทางใดทิศทางหนึ่งถือว่ามีนัยสำคัญ[ 5 ]สำหรับสถิติการทดสอบที่กำหนด จะมีการทดสอบแบบสองด้านหนึ่งรายการ และการทดสอบแบบด้านเดียวสองรายการ โดยแต่ละรายการสำหรับทิศทางใดทิศทางหนึ่ง เมื่อกำหนดระดับนัยสำคัญพื้นที่วิกฤตจะอยู่ที่ปลายหางทั้งสองข้างของการกระจาย โดยมีพื้นที่เท่ากับ สำหรับการทดสอบแบบสองด้าน หรืออีกทางหนึ่ง พื้นที่วิกฤตจะอยู่ที่ปลายหางเพียงด้านเดียว โดยมีพื้นที่เท่ากับสำหรับการทดสอบแบบด้านเดียว สำหรับระดับนัยสำคัญที่กำหนดในการทดสอบแบบสองด้านสำหรับสถิติการทดสอบ การทดสอบแบบด้านเดียวที่สอดคล้องกันสำหรับสถิติการทดสอบเดียวกันจะถือว่ามีนัยสำคัญเป็นสองเท่า (ครึ่งหนึ่งของ ค่า p ) หากข้อมูลอยู่ในทิศทางที่ระบุโดยการทดสอบ หรือไม่มีนัยสำคัญเลย ( ค่า pมากกว่า) หากข้อมูลอยู่ในทิศทางตรงกันข้ามกับพื้นที่วิกฤตที่ระบุโดยการทดสอบ
ตัวอย่างเช่น หากโยนเหรียญการทดสอบว่ามีแนวโน้มออกหัวหรือไม่นั้นเป็นการทดสอบแบบด้านเดียว และการได้ข้อมูล "หัวทั้งหมด" จะถือว่ามีความสำคัญอย่างมาก ในขณะที่การได้ข้อมูล "ก้อยทั้งหมด" จะไม่มีนัยสำคัญเลย ( p = 1) ในทางตรงกันข้าม การทดสอบว่ามีแนวโน้มไปใน ทิศทาง ใดทิศทางหนึ่งนั้นเป็นการทดสอบแบบสองด้าน และทั้ง "หัวทั้งหมด" หรือ "ก้อยทั้งหมด" จะถือว่าเป็นข้อมูลที่มีนัยสำคัญอย่างมาก ในการทดสอบทางการแพทย์ โดยทั่วไปแล้วเราสนใจว่าการรักษาจะให้ผลลัพธ์ที่ดีกว่าโอกาสหรือไม่ ซึ่งแนะนำให้ใช้การทดสอบแบบด้านเดียว แต่ ผลลัพธ์ ที่แย่ลงก็เป็นสิ่งที่น่าสนใจสำหรับวงการวิทยาศาสตร์เช่นกัน ดังนั้นจึงควรใช้การทดสอบแบบสองด้านที่สอดคล้องกับการทดสอบว่าการรักษาจะให้ผลลัพธ์ที่แตกต่างจากโอกาสหรือไม่ ไม่ว่าจะดีขึ้นหรือแย่ลง[ 6 ]ใน การทดลอง ชิมชาของสุภาพสตรี ต้นแบบ ฟิชเชอร์ได้ทดสอบว่าสุภาพสตรีคนดังกล่าวสามารถแยกแยะชาสองประเภทได้ดี กว่าโอกาสหรือไม่ ไม่ใช่ว่าความสามารถของเธอ แตกต่างจากโอกาสหรือไม่ ดังนั้นเขาจึงใช้การทดสอบแบบด้านเดียว
ตัวอย่างการโยนเหรียญ
ในการโยนเหรียญสมมติฐานว่างคือลำดับของการทดลองแบบเบอร์นูลลีที่มีความน่าจะเป็น 0.5 ซึ่งให้ตัวแปรสุ่มXที่มีค่าเป็น 1 สำหรับหัวและ 0 สำหรับก้อย และสถิติการทดสอบทั่วไปคือค่าเฉลี่ยของตัวอย่าง (ของจำนวนหัว) หากต้องการทดสอบว่าเหรียญมีแนวโน้มออกหัวหรือไม่ จะใช้การทดสอบแบบด้านเดียว – เฉพาะจำนวนหัวจำนวนมากเท่านั้นที่จะมีความสำคัญทางสถิติ ในกรณีนั้น ชุดข้อมูลหัวห้าครั้ง (HHHHH) โดยมีค่าเฉลี่ยตัวอย่างเท่ากับ 1 มีโอกาสเกิดขึ้น (การโยนเหรียญติดต่อกัน 5 ครั้ง โดยมีผลลัพธ์ 2 แบบ - ((1/2)^5 =1/32)) ซึ่งจะมีความสำคัญทางสถิติ (ปฏิเสธสมมติฐานว่าง) หากวิเคราะห์การทดสอบที่ระดับนัยสำคัญ(ระดับนัยสำคัญที่สอดคล้องกับขอบเขตการตัด) อย่างไรก็ตาม หากทดสอบว่าเหรียญเอนเอียงไปทางหัวหรือก้อยหรือไม่ จะใช้การทดสอบแบบสองด้าน และชุดข้อมูลหัวห้าครั้ง (ค่าเฉลี่ยตัวอย่าง 1) มีความสุดขั้วเท่ากับชุดข้อมูลก้อยห้าครั้ง (ค่าเฉลี่ยตัวอย่าง 0) ดังนั้น ค่า pจะเป็นและจะไม่มีความสำคัญทางสถิติ (ไม่ปฏิเสธสมมติฐานว่าง) หากวิเคราะห์การทดสอบที่ระดับนัยสำคัญ
ประวัติศาสตร์

ค่าpถูกนำเสนอโดยKarl Pearson [ 7 ]ในการทดสอบไคกำลังสองของ Pearsonโดยที่เขากำหนด P (สัญลักษณ์ดั้งเดิม) ว่าเป็นความน่าจะเป็นที่สถิติจะอยู่ที่ระดับที่กำหนดหรือสูงกว่าระดับที่กำหนด นี่คือคำจำกัดความแบบหางเดียว และการแจกแจงไคกำลังสองนั้นไม่สมมาตร โดยมีค่าเป็นบวกหรือศูนย์เท่านั้น และมีเพียงหางเดียว คือหางด้านบน มันวัดความเหมาะสมของข้อมูลกับการแจกแจงเชิงทฤษฎี โดยที่ศูนย์สอดคล้องกับการตกลงกับทฤษฎีอย่างแม่นยำ ดังนั้นค่า pจึงวัดว่าความเหมาะสมนั้นมีโอกาสแย่หรือเลวร้ายกว่านี้มากน้อยเพียงใด

ความแตกต่างระหว่างการทดสอบ แบบหางเดียวและแบบสองหางได้รับความนิยมจากRonald Fisherในหนังสือที่มีอิทธิพลอย่างStatistical Methods for Research Workers [ 8 ]โดยเขาได้นำไปใช้โดยเฉพาะกับการแจกแจงปกติซึ่งเป็นการแจกแจงแบบสมมาตรที่มีหางเท่ากันสองหาง การแจกแจงปกติเป็นการวัดตำแหน่งทั่วไปมากกว่าการวัดความเหมาะสม และมีสองหาง ซึ่งสอดคล้องกับการประมาณค่าตำแหน่งที่อยู่เหนือหรือต่ำกว่าตำแหน่งทางทฤษฎี (เช่น ค่าเฉลี่ยของตัวอย่างเมื่อเทียบกับค่าเฉลี่ยทางทฤษฎี) ในกรณีของการแจกแจงแบบสมมาตร เช่น การแจกแจงปกติ ค่าp แบบหางเดียวจะมีค่าเป็นครึ่งหนึ่งของค่า pแบบสองหางพอดี: [ 8 ]
บางครั้งอาจเกิดความสับสนขึ้นเนื่องจากในบางกรณีเราต้องการทราบความน่าจะเป็นที่ค่าเบี่ยงเบนซึ่งทราบว่าเป็นบวกจะเกินค่าที่สังเกตได้ ในขณะที่ในกรณีอื่นๆ ความน่าจะเป็นที่ต้องการคือความน่าจะเป็นที่ค่าเบี่ยงเบนซึ่งมีโอกาสเป็นบวกและลบเท่าๆ กันจะเกินค่าที่สังเกตได้ โดยความน่าจะเป็นในกรณีหลังจะเป็นครึ่งหนึ่งของความน่าจะเป็นในกรณีแรกเสมอ
ฟิชเชอร์เน้นย้ำถึงความสำคัญของการวัดค่าหาง – ค่าที่สังเกตได้ของสถิติการทดสอบและค่าสุดขั้วทั้งหมด – มากกว่าเพียงแค่ความน่าจะเป็นของผลลัพธ์เฉพาะเจาะจง ในหนังสือThe Design of Experiments (1935) ของเขา [ 9 ]เขาอธิบายเรื่องนี้ว่า เนื่องจาก ชุดข้อมูล เฉพาะเจาะจงอาจไม่น่าจะเกิดขึ้น (ในสมมติฐานว่าง) แต่ผลลัพธ์สุดขั้วอาจเป็นไปได้ ดังนั้นเมื่อมองในแง่นี้ ข้อมูลที่ไม่น่าจะเกิดขึ้นเฉพาะเจาะจงแต่ไม่สุดขั้วจึงไม่ควรพิจารณาว่ามีนัยสำคัญ
การทดสอบเฉพาะ
ถ้าค่าสถิติการทดสอบมีการแจกแจงแบบ tของนักเรียนในสมมติฐานว่าง – ซึ่งเป็นเรื่องปกติเมื่อตัวแปรพื้นฐานมีการแจกแจงแบบปกติ ที่มีปัจจัยการปรับขนาดที่ไม่ทราบค่า – การทดสอบนั้นจะเรียกว่า การทดสอบtแบบด้านเดียวหรือสองด้าน ถ้าการทดสอบดำเนินการโดยใช้ค่าเฉลี่ยและความแปรปรวนของประชากรจริง แทนที่จะใช้ค่าประมาณจากตัวอย่าง การทดสอบนั้นจะเรียกว่า การ ทดสอบZแบบด้านเดียวหรือสองด้าน
ตารางทางสถิติสำหรับค่า tและค่าZให้ค่าวิกฤตสำหรับการทดสอบทั้งแบบด้านเดียวและสองด้าน กล่าวคือ ตารางเหล่านี้ให้ค่าวิกฤตที่ตัดขอบเขตทั้งหมดที่ปลายด้านใดด้านหนึ่งของการกระจายตัวอย่าง รวมถึงค่าวิกฤตที่ตัดขอบเขต (ขนาดครึ่งหนึ่ง) ที่ปลายทั้งสองด้านของการกระจายตัวอย่างด้วย
ดูเพิ่มเติม
- การทดสอบความแตกต่างแบบจับคู่เมื่อเปรียบเทียบตัวอย่างสองตัวอย่าง
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การทดสอบแบบหางเดียวและสองหาง
ในการทดสอบนัยสำคัญ ทางสถิติ การทดสอบแบบด้านเดียวและการทดสอบแบบสองด้านเป็นวิธีการทางเลือกในการคำนวณนัยสำคัญทางสถิติของพารามิเตอร์ที่อนุมานจากชุดข้อมูล
แอปพลิเคชัน
การทดสอบแบบหางเดียวใช้สำหรับการกระจายแบบไม่สมมาตรที่มีหางเดียว เช่น การกระจายไคกำลังสอง ซึ่งมักใช้ในการวัด ความเหมาะสม หรือสำหรับด้านใดด้านหนึ่งของการกระจายที่มีสองหาง เช่น การกระจายแบบปกติ ซึ่งมักใช้ในการประมาณตำแหน่ง ซึ่งสอดคล้องกับการระบุทิศทาง...
ตัวอย่างการโยนเหรียญ
ในการโยนเหรียญ สมมติฐานว่าง คือลำดับของ การทดลองแบบเบอร์นูลลี ที่มีความน่าจะเป็น 0.
ประวัติศาสตร์
ค่า p ถูกนำเสนอโดย Karl Pearson [ 7 ] ใน การทดสอบไคกำลังสองของ Pearson โดยที่เขากำหนด P (สัญลักษณ์ดั้งเดิม) ว่าเป็นความน่าจะเป็นที่สถิติจะอยู่ที่ระดับที่กำหนดหรือสูงกว่าระดับที่กำหนด นี่คือคำจำกัดความแบบหางเดียว และการแจกแจงไคกำลังสองนั้นไม่สมมาตร...