ค่าp

ในการทดสอบนัยสำคัญของสมมติฐานว่าง ค่าp [ ^{หมายเหตุ} 1 ^]^คือความน่าจะเป็นที่จะได้ผลการทดสอบที่รุนแรงอย่างน้อยเท่ากับผลลัพธ์ที่สังเกตได้จริงภายใต้สมมติฐานว่าสมมติฐานว่างถูกต้อง^{[ 2 ]}^{[ 3 ]} ค่า pที่น้อยมากหมายความว่าผลลัพธ์ ที่สังเกตได้ที่รุนแรงเช่นนั้น ไม่น่าจะเกิดขึ้นได้ภายใต้สมมติฐานว่างแม้ว่าการรายงาน ค่า pของการทดสอบทางสถิติจะเป็นแนวปฏิบัติทั่วไปในสิ่งพิมพ์ทางวิชาการของสาขาเชิงปริมาณหลายสาขา แต่การตีความผิดและการใช้ค่า p ในทาง ที่ผิด นั้นแพร่หลายและเป็นหัวข้อสำคัญในคณิตศาสตร์และอภิวิทยาศาสตร์^{[ 4 ]}^{[ 5 ]}

ในปี 2016 สมาคมสถิติอเมริกัน (ASA) ได้ออกแถลงการณ์อย่างเป็นทางการว่า " ค่า pไม่ได้วัดความน่าจะเป็นที่สมมติฐานที่ศึกษาเป็นจริง หรือความน่าจะเป็นที่ข้อมูลเกิดขึ้นจากความบังเอิญเพียงอย่างเดียว" และ " ค่า pหรือนัยสำคัญทางสถิติ ไม่ได้วัดขนาดของผลกระทบหรือความสำคัญของผลลัพธ์" และ "ไม่ได้ให้หลักฐานที่ดีเกี่ยวกับแบบจำลองหรือสมมติฐาน" หากปราศจาก "บริบทหรือหลักฐานอื่น ๆ" ^{[ 6 ]}อย่างไรก็ตาม คณะทำงานของ ASA ในปี 2019 ได้ออกแถลงการณ์เกี่ยวกับนัยสำคัญทางสถิติและความสามารถในการทำซ้ำ โดยสรุปว่า " ค่า pและการทดสอบนัยสำคัญ เมื่อนำไปใช้และตีความอย่างถูกต้อง จะเพิ่มความเข้มงวดของข้อสรุปที่ได้จากข้อมูล" ^{[ 7 ]}

แนวคิดพื้นฐาน

ในทางสถิติ ข้อสันนิษฐานทุกอย่างเกี่ยวกับความน่าจะเป็นที่ไม่ทราบค่าของการแจกแจงของกลุ่มตัวแปรสุ่มที่แสดงถึงข้อมูลที่สังเกตได้ในการศึกษาบางอย่าง เรียกว่าสมมติฐานทางสถิติ ถ้าเราตั้งสมมติฐานเพียงข้อเดียว และจุดประสงค์ของการทดสอบทางสถิติคือการดูว่าสมมติฐานนี้เป็นไปได้หรือไม่ แต่ไม่ใช่เพื่อตรวจสอบสมมติฐานเฉพาะอื่น ๆ การทดสอบดังกล่าวเรียกว่าการทดสอบสมมติฐานว่าง $X$

เนื่องจากสมมติฐานทางสถิติของเราจะระบุคุณสมบัติบางอย่างของการแจกแจงตามนิยามสมมติฐานว่างจึงเป็นสมมติฐานเริ่มต้นที่ระบุว่าคุณสมบัตินั้นไม่มีอยู่ สมมติฐานว่างโดยทั่วไปคือพารามิเตอร์บางอย่าง (เช่น ค่าสหสัมพันธ์หรือความแตกต่างระหว่างค่าเฉลี่ย) ในประชากรที่สนใจมีค่าเป็นศูนย์ สมมติฐานของเราอาจระบุการแจกแจงความน่าจะเป็นของค่าดังกล่าวอย่างแม่นยำ หรืออาจระบุเพียงว่าค่าดังกล่าวอยู่ในกลุ่มการแจกแจงบางกลุ่ม บ่อยครั้งที่เราลดข้อมูลให้เหลือเพียงสถิติเชิงตัวเลขตัวเดียว เช่นซึ่งการแจกแจงความน่าจะเป็นแบบมาร์จินัลมีความเชื่อมโยงอย่างใกล้ชิดกับคำถามหลักที่น่าสนใจในการศึกษา $X$ $T$

ค่าpใช้ในบริบทของการทดสอบสมมติฐานว่างเพื่อวัดนัยสำคัญทางสถิติของผลลัพธ์ โดยผลลัพธ์นั้นคือค่าที่สังเกตได้ของสถิติที่เลือก[ ^{หมายเหตุ}²^]ยิ่ง ค่า p ต่ำเท่าไร โอกาสที่จะได้ผลลัพธ์นั้นก็จะยิ่งน้อยลงเท่านั้น หากสมมติฐานว่างเป็นจริง ผลลัพธ์จะถือว่ามีนัยสำคัญทางสถิติหากทำให้เราสามารถปฏิเสธสมมติฐานว่างได้ โดยทั่วไปแล้ว ค่า p ที่น้อยกว่า จะถือเป็นหลักฐานที่แข็งแกร่งกว่าในการปฏิเสธสมมติฐานว่าง $T$

โดยคร่าวๆ แล้ว การปฏิเสธสมมติฐานว่างหมายความว่ามีหลักฐานเพียงพอที่จะหักล้างสมมติฐานนั้น

ยกตัวอย่างเช่น หากสมมติฐานว่างระบุว่าค่าสถิติสรุปค่าหนึ่ง เป็นไปตาม การแจกแจงปกติมาตรฐานการปฏิเสธสมมติฐานว่างนี้อาจหมายความว่า (i) ค่าเฉลี่ยไม่ใช่ 0 หรือ (ii) ค่าความแปรปรวนไม่ใช่ 1 หรือ (iii) ไม่ได้มีการแจกแจงแบบปกติ การทดสอบสมมติฐานว่างเดียวกันที่แตกต่างกันจะมีความไวต่อทางเลือกที่แตกต่างกันมากหรือน้อย อย่างไรก็ตาม แม้ว่าเราจะสามารถปฏิเสธสมมติฐานว่างสำหรับทางเลือกทั้ง 3 ข้อได้ และแม้ว่าเราจะรู้ว่าการแจกแจงเป็นแบบปกติและค่าความแปรปรวนเท่ากับ 1 การทดสอบสมมติฐานว่างก็ไม่ได้บอกเราว่าค่าเฉลี่ยที่ไม่เป็นศูนย์ค่าใดมีความเป็นไปได้มากที่สุด ยิ่งมีจำนวนการสังเกตที่เป็นอิสระจากกันจากแหล่งความน่าจะเป็นเดียวกันมากเท่าใด การทดสอบก็จะยิ่งแม่นยำมากขึ้น และความแม่นยำในการกำหนดค่าเฉลี่ยและแสดงให้เห็นว่าไม่เท่ากับศูนย์ก็จะยิ่งสูงขึ้น แต่สิ่งนี้จะเพิ่มความสำคัญของการประเมินความเกี่ยวข้องในโลกแห่งความเป็นจริงหรือทางวิทยาศาสตร์ของความเบี่ยงเบนนี้ด้วย $T$ ${\mathcal {N}}(0,1),$ $T$ $T$ $T$

คำจำกัดความและการตีความ

คำนิยาม

ค่าpคือความน่าจะเป็นภายใต้สมมติฐานว่างของการได้ค่าสถิติการทดสอบที่เป็นจำนวนจริงที่มีค่าอย่างน้อยที่สุดสุดขั้วเท่ากับค่าที่ได้ พิจารณาค่าสถิติการทดสอบที่สังเกตได้จาก1การแจกแจงที่ไม่ทราบค่าดังนั้นค่าpคือความน่าจะเป็นก่อนหน้าของการสังเกตค่าสถิติการทดสอบที่มีค่าอย่างน้อยที่สุด "สุดขั้ว" เท่ากับกรณีที่สมมติฐานว่างเป็นจริง กล่าวคือ: $t$ $T$ $p$ $t$ $H_{0}$

$p=\Pr(T\geq t\mid H_{0})$ สำหรับการกระจายค่าสถิติการทดสอบแบบด้านเดียวหางขวา
$p=\Pr(T\leq t\mid H_{0})$ สำหรับการกระจายค่าสถิติการทดสอบแบบด้านเดียวหางซ้าย
$p=2\min\{\Pr(T\geq t\mid H_{0}),\Pr(T\leq t\mid H_{0})\}$ สำหรับการแจกแจงสถิติการทดสอบแบบสองด้าน ถ้าการแจกแจงของมีความสมมาตรเกี่ยวกับศูนย์แล้ว $T$ $p=\Pr(|T|\geq |t|\mid H_{0}).$

การตีความ

ข้อผิดพลาดที่นักสถิติผู้ปฏิบัติงานจะพิจารณาว่าสำคัญที่สุดที่จะต้องหลีกเลี่ยง (ซึ่งเป็นการตัดสินใจตามความรู้สึกส่วนตัว) เรียกว่า ข้อผิดพลาดประเภทที่หนึ่ง ข้อกำหนดแรกของทฤษฎีทางคณิตศาสตร์คือการอนุมานเกณฑ์การทดสอบที่จะทำให้มั่นใจได้ว่าความน่าจะเป็นของการเกิดข้อผิดพลาดประเภทที่หนึ่งจะเท่ากับ (หรือใกล้เคียง หรือไม่เกิน) ตัวเลขที่กำหนดไว้ล่วงหน้า α เช่น α = 0.05 หรือ 0.01 เป็นต้น ตัวเลขนี้เรียกว่า ระดับนัยสำคัญ

— Jerzy Neyman, "การกำเนิดของสถิติทางคณิตศาสตร์" ^{[ 8 ]}

ในการทดสอบนัยสำคัญ สมมติฐานว่างจะถูกปฏิเสธหาก ค่า pน้อยกว่าค่าเกณฑ์ที่กำหนดไว้ล่วงหน้าซึ่งเรียกว่าระดับอัลฟาหรือระดับนัยสำคัญไม่ได้มาจากข้อมูล แต่ถูกกำหนดโดยนักวิจัยก่อนที่จะตรวจสอบข้อมูลโดยทั่วไปจะกำหนดไว้ที่ 0.05 แม้ว่าบางครั้งจะใช้ระดับอัลฟาที่ต่ำกว่าก็ตาม ค่า 0.05 (เทียบเท่ากับโอกาส 1/20) ได้รับการเสนอครั้งแรกโดยRonald Fisherในปี 1925 ในหนังสือที่มีชื่อเสียงของเขาชื่อ " Statistical Methods for Research Workers " ^[⁹^] $H_{0}$ $\alpha$ $\alpha$ $\alpha$

สามารถนำค่า pที่แตกต่างกันซึ่งได้จากชุดข้อมูลที่เป็นอิสระมาผสมผสานกันได้ ตัวอย่างเช่น โดยใช้การทดสอบความน่าจะเป็นแบบผสมของฟิชเชอร์

การกระจาย

ค่าpเป็นฟังก์ชันของสถิติทดสอบที่เลือกและดังนั้นจึงเป็นตัวแปรสุ่มถ้าสมมติฐานว่างกำหนดการกระจายความน่าจะเป็นของค่า p ได้อย่างแม่นยำ (เช่นโดยที่เป็นพารามิเตอร์เดียว) และถ้าการกระจายนั้นเป็นแบบต่อเนื่อง เมื่อสมมติฐานว่างเป็นจริง ค่า pจะมีการกระจายแบบสม่ำเสมอระหว่าง 0 ถึง 1 ไม่ว่าสมมติฐานว่างจะเป็นจริงหรือ ไม่ ค่าpก็ไม่คงที่ ถ้าทำการทดสอบซ้ำโดยอิสระด้วยข้อมูลใหม่ โดยทั่วไปแล้วจะได้ ค่า p ที่แตกต่างกัน ในแต่ละครั้ง $T$ $T$ $H_{0}:\theta =\theta _{0},$ $\theta$ $H_{0}$

โดยปกติจะสังเกตเห็นค่า pเพียงค่าเดียวที่เกี่ยวข้องกับสมมติฐาน ดังนั้น ค่า pจึงถูกตีความโดยการทดสอบนัยสำคัญ และไม่มีความพยายามใด ๆ ในการประมาณการการกระจายที่ดึงมาจาก เมื่อ มีค่า pหลายค่า (เช่น เมื่อพิจารณากลุ่มการศึกษาในหัวข้อเดียวกัน) การกระจายของ ค่า p ที่มีนัยสำคัญ บางครั้งเรียกว่าเส้นโค้งp ^{[ 10 ]} เส้น โค้ง pสามารถใช้เพื่อประเมินความน่าเชื่อถือของวรรณกรรมทางวิทยาศาสตร์ เช่น โดยการตรวจจับอคติในการตีพิมพ์หรือp - hacking ^{[ 10 ]}^{[ 11 ]}

การแจกแจงสำหรับสมมติฐานแบบผสม

ในปัญหาการทดสอบสมมติฐานแบบพาราเมตริกสมมติฐานแบบง่ายหรือแบบจุดหมายถึงสมมติฐานที่ค่าของพารามิเตอร์ถือว่าเป็นตัวเลขเดียว ในทางตรงกันข้าม ในสมมติฐานแบบผสมค่าของพารามิเตอร์จะกำหนดโดยชุดของตัวเลข เมื่อสมมติฐานว่างเป็นแบบผสม (หรือการกระจายของสถิติเป็นแบบไม่ต่อเนื่อง) เมื่อสมมติฐานว่างเป็นจริง ความน่าจะเป็นที่จะได้ค่าpน้อยกว่าหรือเท่ากับตัวเลขใดๆ ระหว่าง 0 ถึง 1 ก็ยังคงน้อยกว่าหรือเท่ากับตัวเลขนั้น กล่าวอีกนัยหนึ่ง ค่าที่เล็กมากยังคงมีโอกาสเกิดขึ้นน้อยมากหากสมมติฐานว่างเป็นจริง และการทดสอบนัยสำคัญที่ระดับ จะ ^ได้รับโดยการปฏิเสธสมมติฐานว่างหาก ค่า pน้อยกว่าหรือเท่ากับ^[ 12 ^]^[¹³^] $\alpha$ $\alpha$

ตัวอย่างเช่น เมื่อทดสอบสมมติฐานว่างที่ว่าการแจกแจงเป็นแบบปกติโดยมีค่าเฉลี่ยน้อยกว่าหรือเท่ากับศูนย์ เทียบกับสมมติฐานทางเลือกที่ว่าค่าเฉลี่ยมากกว่าศูนย์ (โดยที่ค่าความแปรปรวนทราบแล้ว) สมมติฐานว่างไม่ได้ระบุการแจกแจงความน่าจะเป็นที่แน่นอนของสถิติการทดสอบที่เหมาะสม ในตัวอย่างนี้ นั่นคือสถิติ Z ที่เป็นของการทดสอบ Zแบบด้านเดียวสำหรับตัวอย่างเดียวสำหรับแต่ละค่าที่เป็นไปได้ของค่าเฉลี่ยทางทฤษฎี สถิติการทดสอบ Zจะมีการแจกแจงความน่าจะเป็นที่แตกต่างกัน ในสถานการณ์เหล่านี้ ค่า pจะถูกกำหนดโดยการเลือกกรณีสมมติฐานว่างที่ไม่เอื้ออำนวยที่สุด ซึ่งโดยทั่วไปจะอยู่บนขอบเขตระหว่างสมมติฐานว่างและสมมติฐานทางเลือก คำจำกัดความนี้รับประกันความสมบูรณ์ของค่า p และระดับอัลฟา: หมายความว่าเราจะปฏิเสธสมมติฐานว่างก็ต่อเมื่อ ค่า pน้อยกว่าหรือเท่ากับและการทดสอบสมมติฐานจะมีอัตราความผิดพลาดประเภทที่ 1 สูงสุดเท่ากับ $H_{0}:\mu \leq 0$ $\alpha =0.05$ $0.05$ $0.05$

การใช้งาน

ค่าpถูกใช้กันอย่างแพร่หลายในการทดสอบสมมติฐานทางสถิติโดยเฉพาะอย่างยิ่งในการทดสอบความสำคัญของสมมติฐานว่าง ในวิธีนี้ ก่อนดำเนินการศึกษา จะต้องเลือกแบบจำลอง ( สมมติฐานว่าง ) และระดับอัลฟาα (โดยทั่วไปคือ 0.05) ก่อน หลังจากวิเคราะห์ข้อมูลแล้ว หาก ค่า pน้อยกว่าαนั่นหมายความว่าข้อมูลที่สังเกตได้ไม่สอดคล้องกับสมมติฐานว่าง มาก พอที่จะต้องปฏิเสธสมมติฐานว่าง อย่างไรก็ตาม นั่นไม่ได้พิสูจน์ว่าสมมติฐานว่างเป็นเท็จ ค่า pไม่ได้กำหนดความน่าจะเป็นของสมมติฐานด้วยตัวมันเอง แต่เป็นเครื่องมือสำหรับการตัดสินใจว่าจะปฏิเสธสมมติฐานว่างหรือไม่^{[ 14 ]}

การใช้ในทางที่ผิด

ตามที่ ASA ระบุ มีข้อตกลงกันอย่างกว้างขวางว่า ค่า pมักถูกนำไปใช้ในทางที่ผิดและตีความผิด^{[ 3 ]}แนวปฏิบัติหนึ่งที่ถูกวิพากษ์วิจารณ์เป็นพิเศษคือการยอมรับสมมติฐานทางเลือกสำหรับ ค่า p ใดๆ ที่น้อยกว่า 0.05 โดยไม่มีหลักฐานสนับสนุนอื่นๆ แม้ว่า ค่า pจะมีประโยชน์ในการประเมินว่าข้อมูลไม่สอดคล้องกับแบบจำลองทางสถิติที่กำหนดมากน้อยเพียงใด แต่ปัจจัยบริบทก็ต้องนำมาพิจารณาด้วย เช่น "การออกแบบการศึกษา คุณภาพของการวัด หลักฐานภายนอกสำหรับปรากฏการณ์ที่กำลังศึกษา และความถูกต้องของสมมติฐานที่อยู่เบื้องหลังการวิเคราะห์ข้อมูล" ^{[ 3 ]}ข้อกังวลอีกประการหนึ่งคือ ค่า pมักถูกเข้าใจผิดว่าเป็นความน่าจะเป็นที่สมมติฐานว่างเป็นจริง^{[ 3 ]}^{[ 15 ]} ค่า pและการทดสอบนัยสำคัญยังไม่ได้กล่าวถึงความเป็นไปได้ในการสรุปผลจากตัวอย่างไปยังประชากร

^{นักสถิติบาง คน}เสนอให้ละทิ้ง ค่า pและมุ่งเน้นไปที่สถิติเชิงอนุมานอื่นๆ มากขึ้น^{[ 3 ]}เช่นช่วงความเชื่อมั่น [ ¹⁶^]^[¹⁷^]อัตราส่วนความน่าจะเป็น [ ¹⁸^]^[¹⁹^]^หรือปัจจัยเบย์ส [ ²⁰^]^[²¹^]^[²²^]^แต่มีการถกเถียงกันอย่างดุเดือดเกี่ยวกับความเป็นไปได้ของทางเลือกเหล่านี้^[²³^]^[²⁴^]ในขณะเดียวกัน การใช้ ค่า pก็ได้รับการปกป้องในฐานะเครื่องมือทางสถิติที่มีประโยชน์ซึ่งไม่ควรละทิ้ง^[²⁵^]^[²⁶^]^[²⁷^]^[²⁸^]คนอื่นๆ เสนอให้ลบเกณฑ์ความสำคัญคงที่ออกและตีความ ค่า pเป็นดัชนีต่อเนื่องของความแข็งแกร่งของหลักฐานที่ขัดแย้งกับสมมติฐานว่าง^[²⁹^]^[³⁰^]แม้ว่าข้อเสนอเหล่านี้เองก็ถูกวิพากษ์วิจารณ์^[³¹^] คนอื่นๆ แนะนำให้รายงานควบคู่ไปกับ ค่า pถึงความน่าจะเป็นก่อนหน้าของผลกระทบที่แท้จริงซึ่งจำเป็นต่อการเกิดความเสี่ยงบวกเท็จ (กล่าวคือ ความน่าจะเป็นที่ไม่มีผลกระทบที่แท้จริง) ที่ต่ำกว่าเกณฑ์ที่กำหนดไว้ล่วงหน้า (เช่น 5%) ^[³²^]

อย่างไรก็ตาม ในปี 2019 คณะทำงานของ ASA ได้ประชุมเพื่อพิจารณาการใช้วิธีการทางสถิติในการศึกษาทางวิทยาศาสตร์ โดยเฉพาะอย่างยิ่งการทดสอบสมมติฐานและ ค่า pและความเชื่อมโยงกับความสามารถในการทำซ้ำ^{[ 7 ]}ระบุว่า "มาตรวัดความไม่แน่นอนที่แตกต่างกันสามารถเสริมซึ่งกันและกันได้ ไม่มีมาตรวัดใดมาตรวัดเดียวที่ใช้ได้กับทุกวัตถุประสงค์" โดยอ้างถึง ค่า pเป็นหนึ่งในมาตรวัดเหล่านี้ พวกเขายังเน้นย้ำว่า ค่า pสามารถให้ข้อมูลที่มีค่าเมื่อพิจารณาค่าเฉพาะ เช่นเดียวกับเมื่อเปรียบเทียบกับเกณฑ์บางอย่าง โดยทั่วไปแล้ว เน้นย้ำว่า " ค่า pและการทดสอบนัยสำคัญ เมื่อนำไปใช้และตีความอย่างถูกต้อง จะเพิ่มความเข้มงวดของข้อสรุปที่ได้จากข้อมูล" ความคิดเห็นนี้ได้รับการสนับสนุนเพิ่มเติมจากความคิดเห็นในNature Human Behaviourซึ่งตอบสนองต่อคำแนะนำในการกำหนดนัยสำคัญทางสถิติใหม่เป็น P ≤ 0.005 โดยเสนอว่า "นักวิจัยควรรายงานอย่างโปร่งใสและให้เหตุผลถึงทางเลือกทั้งหมดที่พวกเขาทำเมื่อออกแบบการศึกษา รวมถึงระดับอัลฟาด้วย" ^{[ 33 ]}

การคำนวณ

โดยทั่วไปแล้ว ค่า สถิติทดสอบคือค่าที่ได้จาก ฟังก์ชัน สเกลาร์ของข้อมูลสังเกตทั้งหมด ค่าสถิตินี้จะให้ค่าตัวเลขเพียงค่าเดียว เช่นค่าสถิติ tหรือค่าสถิติ Fดังนั้น ค่าสถิติทดสอบจึงมีการแจกแจงตามฟังก์ชันที่ใช้ในการกำหนดค่าสถิติทดสอบนั้น และการแจกแจงของข้อมูลสังเกตที่ป้อนเข้ามา $T$

สำหรับกรณีสำคัญที่ข้อมูลถูกตั้งสมมติฐานว่าเป็นตัวอย่างสุ่มจาก1การแจกแจงแบบปกติ ขึ้นอยู่กับลักษณะของสถิติทดสอบและสมมติฐานที่สนใจเกี่ยวกับการแจกแจงของข้อมูลนั้น ได้มีการพัฒนาการทดสอบสมมติฐานว่างที่แตกต่างกันออกไป การทดสอบบางอย่างได้แก่การทดสอบ zสำหรับสมมติฐานเกี่ยวกับค่าเฉลี่ยของการแจกแจงแบบปกติที่มีความแปรปรวนที่ทราบการทดสอบ tซึ่งอิงจากการแจกแจง t ของนักเรียนของสถิติที่เหมาะสมสำหรับสมมติฐานเกี่ยวกับค่าเฉลี่ยของการแจกแจงแบบปกติเมื่อความแปรปรวนไม่ทราบการทดสอบ Fซึ่งอิงจากการแจกแจง Fของสถิติอีกตัวหนึ่งสำหรับสมมติฐานเกี่ยวกับความแปรปรวน สำหรับข้อมูลที่มีลักษณะอื่น เช่น ข้อมูลเชิงหมวดหมู่ (ข้อมูลไม่ต่อเนื่อง) อาจมีการสร้างสถิติทดสอบที่มีการแจกแจงสมมติฐานว่างโดยอิงจากการประมาณค่าแบบปกติของสถิติที่เหมาะสมซึ่งได้มาจากการใช้ทฤษฎีบทขีดจำกัดกลางสำหรับตัวอย่างขนาดใหญ่ เช่นในกรณีของการทดสอบไคกำลังสองของเพียร์สัน

ดังนั้น การคำนวณ ค่า pจึงต้องใช้สมมติฐานว่าง สถิติทดสอบ (รวมถึงการตัดสินใจว่านักวิจัยกำลังทำการทดสอบแบบด้านเดียวหรือสองด้าน ) และข้อมูล แม้ว่าการคำนวณสถิติทดสอบจากข้อมูลที่กำหนดอาจทำได้ง่าย แต่การคำนวณการแจกแจงตัวอย่างภายใต้สมมติฐานว่าง และการคำนวณฟังก์ชันการแจกแจงสะสม (CDF) นั้นมักเป็นปัญหาที่ยาก ในปัจจุบัน การคำนวณนี้ทำโดยใช้ซอฟต์แวร์ทางสถิติ ซึ่งมักใช้วิธีเชิงตัวเลข (แทนที่จะใช้สูตรที่แน่นอน) แต่ในช่วงต้นและกลางศตวรรษที่ 20 การคำนวณนี้ทำโดยใช้ตารางค่า และประมาณ ค่า pจากค่าที่ไม่ต่อเนื่องเหล่านี้ แทนที่จะใช้ตาราง ค่า pฟิชเชอร์กลับใช้การกลับด้าน CDF โดยเผยแพร่รายการค่าของสถิติทดสอบสำหรับ ค่า p ที่กำหนดไว้ ซึ่งสอดคล้องกับการคำนวณฟังก์ชันควอนไทล์ (CDF ผกผัน)

ตัวอย่าง

การทดสอบความยุติธรรมของเหรียญ

ตัวอย่างหนึ่งของการทดสอบทางสถิติ คือ การทำการทดลองเพื่อตรวจสอบว่าการโยนเหรียญ นั้น ยุติธรรมหรือ ไม่ (โอกาสที่จะออกหัวหรือก้อยเท่ากัน) หรือไม่ยุติธรรม (ผลลัพธ์หนึ่งมีโอกาสเกิดขึ้นมากกว่าอีกผลลัพธ์หนึ่ง)

สมมติว่าผลการทดลองแสดงให้เห็นว่าเหรียญออกหัว 14 ครั้งจากการโยนทั้งหมด 20 ครั้ง ข้อมูลทั้งหมดจะเป็นลำดับของสัญลักษณ์ "H" หรือ "T" จำนวน 20 ครั้ง สถิติที่เราอาจให้ความสนใจคือจำนวนหัวทั้งหมด สมมติฐานว่างคือเหรียญนั้นยุติธรรม และการโยนเหรียญแต่ละครั้งเป็นอิสระต่อกัน หากพิจารณาการทดสอบแบบหางขวา ซึ่งจะเป็นกรณีที่เราสนใจความเป็นไปได้ที่เหรียญนั้นมีแนวโน้มที่จะออกหัวมากกว่า ค่า pของผลลัพธ์นี้คือโอกาสที่เหรียญยุติธรรมจะออกหัวอย่างน้อย 14 ครั้งจาก 20 ครั้ง ความน่าจะเป็นนั้นสามารถคำนวณได้จากสัมประสิทธิ์ทวินามดังนี้ $X$ $T$

{\begin{aligned}&\Pr(14{\text{ หัว}})+\Pr(15{\text{ หัว}})+\cdots +\Pr(20{\text{ หัว}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60\,460}{1\,048\,576}}\approx 0.058.\end{aligned}}

ค่าความน่าจะเป็นนี้คือ ค่า pซึ่งพิจารณาเฉพาะผลลัพธ์สุดขั้วที่เอื้อต่อการออกหัวเท่านั้น เรียกว่าการทดสอบแบบด้านเดียวอย่างไรก็ตาม บางคนอาจสนใจความเบี่ยงเบนในทิศทางใดทิศทางหนึ่งที่เอื้อต่อการออกหัวหรือก้อย จึงสามารถคำนวณค่าp แบบสองด้านได้ ซึ่งพิจารณาความเบี่ยงเบนที่เอื้อต่อการออกหัวหรือก้อย เนื่องจากการ แจกแจงแบบทวินามมีความสมมาตรสำหรับเหรียญที่ยุติธรรม ค่า p แบบสองด้านจึงเป็นเพียงสองเท่าของค่า pแบบด้านเดียวที่คำนวณข้างต้น : ค่า pแบบสองด้านคือ 0.115

ในตัวอย่างข้างต้น:

สมมติฐานว่าง ( H₀ ₎ : เหรียญเป็นเหรียญยุติธรรม โดยมีโอกาสออกหัวเท่ากับ 0.5
สถิติการทดสอบ: จำนวนหัว
ระดับอัลฟา (เกณฑ์ความสำคัญที่กำหนด): 0.05
ข้อสังเกตO : ออกหัว 14 ครั้ง จากการโยนเหรียญ 20 ครั้ง
ค่า pแบบสองด้านของการสังเกตOเมื่อกำหนดH ₀ = 2 × min(Pr(จำนวนหัว ≥ 14 หัว), Pr(จำนวนหัว ≤ 14 หัว)) = 2 × min(0.058, 0.978) = 2 × 0.058 = 0.115

ความน่าจะเป็นที่เหรียญออกหัว ≤ 14 ครั้ง จะได้ว่า Pr(จำนวนหัว ≤ 14 ครั้ง) = 1 − Pr(จำนวนหัว ≥ 14 ครั้ง) + Pr(จำนวนหัว = 14 ครั้ง) = 1 − 0.058 + 0.036 = 0.978 อย่างไรก็ตาม ความสมมาตรของการแจกแจงแบบทวินามนี้ทำให้ไม่จำเป็นต้องคำนวณหาค่าความน่าจะเป็นที่น้อยกว่าระหว่างสองค่านี้ ในที่นี้ ค่า p ที่คำนวณได้ เกิน 0.05 ซึ่งหมายความว่าข้อมูลอยู่ในช่วงที่อาจเกิดขึ้น 95% ของเวลา หากเหรียญนั้นเป็นเหรียญยุติธรรม ดังนั้น สมมติฐานว่างจึงไม่ถูกปฏิเสธที่ระดับนัยสำคัญ 0.05

อย่างไรก็ตาม หากได้หัวเพิ่มอีกหนึ่งหัว ค่า p ที่ได้ (แบบสองด้าน) จะเท่ากับ 0.0414 (4.14%) ซึ่งในกรณีนี้สมมติฐานหลักจะถูกปฏิเสธที่ระดับนัยสำคัญ 0.05

การหยุดรถตามความสมัครใจ

ความแตกต่างระหว่างความหมายทั้งสองของคำว่า "สุดขั้ว" ปรากฏขึ้นเมื่อเราพิจารณาการทดสอบสมมติฐานตามลำดับ หรือการหยุดแบบเลือกได้ สำหรับความยุติธรรมของเหรียญ โดยทั่วไป การหยุดแบบเลือกได้จะเปลี่ยนวิธีการคำนวณค่า p ^{[ 34 ]}^{[ 35 ]}สมมติว่าเราออกแบบการทดลองดังต่อไปนี้:

โยนเหรียญสองครั้ง ถ้าออกหัวหรือก้อยทั้งสองครั้ง ให้ยุติการทดลอง
มิเช่นนั้น ให้โยนเหรียญอีก 4 ครั้ง

การทดลองนี้มีผลลัพธ์ 7 แบบ ได้แก่ หัว 2 ครั้ง, ก้อย 2 ครั้ง, หัว 5 ครั้ง ก้อย 1 ครั้ง, ..., หัว 1 ครั้ง ก้อย 5 ครั้ง ตอนนี้เราจะคำนวณ ค่า pของผลลัพธ์ "หัว 3 ครั้ง ก้อย 3 ครั้ง"

ถ้าเราใช้ค่าสถิติการทดสอบ # แล้วภายใต้สมมติฐานว่าง (เช่น # ) ค่า pสองด้านจะเท่ากับ 1 พอดี และทั้งค่า p ด้านเดียวทางซ้ายและ ค่า p ด้านเดียวทางขวา จะเท่ากับพอดี $หัว/หาง$ $จำนวนหัวไม่เกิน 3$ $19/32$

ถ้าเราพิจารณาผลลัพธ์ทุกอย่างที่มีความน่าจะเป็นเท่ากันหรือต่ำกว่า "3 หัว 3 ก้อย" ว่า "มีความสุดขั้วอย่างน้อยเท่ากัน" แล้ว ค่า pจะเท่ากับ... $1/2.$

อย่างไรก็ตาม สมมติว่าเราวางแผนที่จะโยนเหรียญ 6 ครั้งโดยไม่คำนึงถึงผลลัพธ์ใดๆ นิยามที่สองของ ค่า pจะหมายความว่า ค่า pของ "หัว 3 ครั้ง ก้อย 3 ครั้ง" จะเท่ากับ 1 พอดี

ดังนั้น นิยามของ ค่า p ที่ว่า "อย่างน้อยก็สุดขั้วเท่ากัน" จึงขึ้นอยู่กับบริบทอย่างมาก และขึ้นอยู่กับสิ่งที่ผู้ทำการทดลองวางแผนจะทำ แม้ในสถานการณ์ที่ไม่ได้เกิดขึ้นจริงก็ตาม

ประวัติศาสตร์

ภาพถ่ายโทนสีซีเปียของชายหนุ่มสวมสูท เหรียญรางวัล และแว่นตาขอบโลหะ — โรนัลด์ ฟิชเชอร์

การคำนวณค่า pมีมาตั้งแต่ศตวรรษที่ 1700 ซึ่งใช้ในการคำนวณอัตราส่วนเพศของมนุษย์เมื่อแรกเกิด และใช้ในการคำนวณความสำคัญทางสถิติเมื่อเทียบกับสมมติฐานว่างของความน่าจะเป็นที่เท่ากันของการเกิดของเพศชายและเพศหญิง^{[ 36 ]}จอห์น อาร์บัทนอตศึกษาคำถามนี้ในปี 1710 ^{[ 37 ]}^{[ 38 ]}^{[ 39 ]}^{[ 40 ]}และตรวจสอบบันทึกการเกิดในลอนดอนในแต่ละปีจากทั้งหมด 82 ปี ตั้งแต่ปี 1629 ถึง 1710 ในทุกปี จำนวนเพศชายที่เกิดในลอนดอนมีมากกว่าจำนวนเพศหญิง เมื่อพิจารณาว่าการเกิดของเพศชายหรือเพศหญิงมากกว่ามีความน่าจะเป็นเท่ากัน ความน่าจะเป็นของผลลัพธ์ที่สังเกตได้คือ 1/2 ⁸²หรือประมาณ 1 ใน 4,836,000,000,000,000,000,000,000 ในแง่สมัยใหม่คือค่าpสิ่งนี้มีขนาดเล็กมากจนทำให้ Arbuthnot สรุปว่าสิ่งนี้ไม่ได้เกิดจากความบังเอิญ แต่เกิดจากพระประสงค์ของพระเจ้า: "จากนั้นจึงสรุปได้ว่า เป็นศิลปะ ไม่ใช่ความบังเอิญ ที่ควบคุม" ในแง่สมัยใหม่ เขาปฏิเสธสมมติฐานว่างของการเกิดเพศชายและหญิงที่มีโอกาสเท่ากันที่ ระดับนัยสำคัญ p = 1/2 ⁸²งานนี้และงานอื่นๆ ของ Arbuthnot ได้รับการยกย่องว่าเป็น "...การใช้การทดสอบนัยสำคัญครั้งแรก..." ^{[ 41 ]}ตัวอย่างแรกของการให้เหตุผลเกี่ยวกับนัยสำคัญทางสถิติ^{[ 42 ]}และ "...อาจเป็นรายงานที่ตีพิมพ์ครั้งแรกของการทดสอบแบบไม่ใช้พารามิเตอร์ ..." ^{[ 38 ]}โดยเฉพาะการทดสอบเครื่องหมายดูรายละเอียดได้ที่การทดสอบเครื่องหมาย §ประวัติ

ต่อมา Pierre-Simon Laplaceได้ตอบคำถามเดียวกันนี้โดยใช้ การทดสอบ แบบพาราเมตริก แทน โดยจำลองจำนวนการเกิดของเพศชายด้วยการแจกแจงแบบทวินาม : ^{[ 43 ]}

ในช่วงทศวรรษ 1770 ลาปลาซได้พิจารณาสถิติการเกิดเกือบครึ่งล้านคน สถิติแสดงให้เห็นว่ามีเด็กผู้ชายมากกว่าเด็กผู้หญิง เขาจึงสรุปโดยการคำนวณค่าpว่าจำนวนเด็กผู้ชายที่มากกว่านั้นเป็นปรากฏการณ์จริง แต่ยังไม่มีคำอธิบาย

ค่าp ได้รับการแนะนำอย่างเป็นทางการครั้ง ^แรกโดยKarl Pearsonในการทดสอบไคกำลังสองของ Pearson [ ⁴⁴^]โดยใช้การแจกแจงไคกำลังสองและเขียนแทนด้วยตัวพิมพ์ใหญ่ P ^[⁴⁴^]ค่าpสำหรับการแจกแจงไคกำลังสอง (สำหรับค่าต่างๆ ของ χ² ^และองศาอิสระ) ซึ่งปัจจุบันเขียนแทนด้วยPได้รับการคำนวณใน ( Elderton 1902 ) และรวบรวมไว้ใน ( Pearson 1914 , หน้า xxxi–xxxiii, 26–28, ตาราง XII)

โรนัลด์ ฟิชเชอร์ได้วางรูปแบบและทำให้การใช้ ค่า pในสถิติ เป็นที่นิยม ^{[ 45 ]}^{[ 46 ]}โดยมีบทบาทสำคัญในแนวทางของเขาในเรื่องนี้^{[ 47 ]}ในหนังสือที่มีอิทธิพลอย่างมากของเขาเรื่อง Statistical Methods for Research Workers (1925) ฟิชเชอร์ได้เสนอระดับp = 0.05 หรือโอกาส 1 ใน 20 ที่จะเกินค่านี้โดยบังเอิญ เป็นขีดจำกัดสำหรับนัยสำคัญทางสถิติและนำไปใช้กับการแจกแจงแบบปกติ (เป็นการทดสอบแบบสองด้าน) จึงได้กฎของค่าเบี่ยงเบนมาตรฐานสองเท่า (ในการแจกแจงแบบปกติ) สำหรับนัยสำคัญทางสถิติ (ดูกฎ 68–95–99.7 ) ^{[ 48 ]}^{[หมายเหตุ 3 ]}^{[ 49 ]}

จากนั้นเขาคำนวณตารางค่าต่างๆ คล้ายกับของเอลเดอร์ตัน แต่ที่สำคัญคือ เขาได้สลับบทบาทของ χ² ^และ p กล่าวคือ แทนที่จะคำนวณpสำหรับค่าต่างๆ ของ χ² ⁽และองศาอิสระn ) เขาคำนวณค่าของ χ² ^ที่ให้ ค่า p ที่ระบุไว้ โดยเฉพาะ 0.99, 0.98, 0.95, 0.90, 0.80, 0.70, 0.50, 0.30, 0.20, 0.10, 0.05, 0.02 และ 0.01 ^{[ 50 ]}ซึ่งทำให้สามารถเปรียบเทียบค่า χ² ที่คำนวณ^ได้กับค่าตัด และส่งเสริมการใช้ ค่า p (โดยเฉพาะ 0.05, 0.02 และ 0.01) เป็นค่าตัด แทนที่จะคำนวณและรายงาน ค่า pเอง ตารางประเภทเดียวกันนี้ได้รับการรวบรวมไว้ใน ( Fisher & Yates 1938 ) ซึ่งยืนยันแนวทางดังกล่าว^{[ 49 ]}

เพื่อเป็นตัวอย่างการประยุกต์ใช้ ค่า pในการออกแบบและการตีความการทดลอง ในหนังสือเล่มถัดไปของเขาThe Design of Experiments (1935) ฟิชเชอร์ได้นำเสนอการทดลองชิมชาของผู้หญิง^{[ 51 ]}ซึ่งเป็นตัวอย่างต้นแบบของค่า p

เพื่อประเมินคำกล่าวอ้างของสุภาพสตรีท่านหนึ่ง ( มูเรียล บริสตอล ) ที่ว่าเธอสามารถแยกแยะรสชาติของชาที่ชงได้ (เช่น ชงโดยใส่นมก่อนแล้วค่อยใส่ชา หรือชงโดยใส่ชาก่อนแล้วค่อยใส่นม) จึงได้มีการนำถ้วยชา 8 ถ้วยมาให้เธอชิม โดยแบ่งเป็น 4 ถ้วยที่ชงแบบหนึ่ง และ 4 ถ้วยที่ชงอีกแบบหนึ่ง แล้วให้เธอระบุวิธีการชงของแต่ละถ้วย (โดยทราบว่ามีอย่างละ 4 ถ้วย) ในกรณีนี้ สมมติฐานหลักคือเธอไม่มีความสามารถพิเศษใดๆ การทดสอบคือการทดสอบความแม่นยำของฟิชเชอร์และค่าp -value อยู่ในระดับที่ฟิชเชอร์ยินดีที่จะปฏิเสธสมมติฐานหลัก (พิจารณาว่าผลลัพธ์ไม่น่าจะเกิดจากความบังเอิญ) หากเธอจำแนกถ้วยทั้งหมดได้อย่างถูกต้อง (ในการทดลองจริง บริสตอลจำแนกถ้วยทั้ง 8 ถ้วยได้อย่างถูกต้อง) $1/{\binom {8}{4}}=1/70\approx 0.014,$

ฟิชเชอร์ย้ำ เกณฑ์ p = 0.05 และอธิบายเหตุผลโดยระบุว่า: ^{[ 52 ]}

โดยปกติแล้ว นักทดลองมักจะกำหนดระดับนัยสำคัญมาตรฐานไว้ที่ 5 เปอร์เซ็นต์ ซึ่งถือว่าสะดวก เนื่องจากพวกเขายินดีที่จะเพิกเฉยต่อผลลัพธ์ทั้งหมดที่ไม่ถึงระดับมาตรฐานนี้ และด้วยวิธีนี้ พวกเขาสามารถขจัดความผันผวนส่วนใหญ่ที่เกิดจากสาเหตุโดยบังเอิญออกจากการอภิปรายเพิ่มเติมได้

เขายังใช้เกณฑ์นี้ในการออกแบบการทดลอง โดยสังเกตว่าหากมีการนำเสนอถ้วยเพียง 6 ใบ (อย่างละ 3 ใบ) การจำแนกประเภทที่สมบูรณ์แบบจะให้ค่าpที่ไม่ตรงตามระดับนัยสำคัญนี้^[⁵²^]ฟิชเชอร์ยังเน้นย้ำการตีความpว่าเป็นสัดส่วนระยะยาวของค่าที่อย่างน้อยก็สุดขั้วเท่ากับข้อมูล โดยสมมติว่าสมมติฐานว่างเป็นจริง $1/{\binom {6}{3}}=1/20=0.05,$

ในฉบับต่อมา ฟิชเชอร์ได้เปรียบเทียบการใช้ ค่า pสำหรับการอนุมานทางสถิติในวิทยาศาสตร์กับวิธีการของเนย์แมน-เพียร์สันอย่างชัดเจน ซึ่งเขาเรียกว่า "ขั้นตอนการยอมรับ" ^{[ 53 ]}ฟิชเชอร์เน้นย้ำว่าในขณะที่ระดับคงที่ เช่น 5%, 2% และ 1% นั้นสะดวก แต่ สามารถใช้ค่า p ที่แน่นอน ได้ และความแข็งแกร่งของหลักฐานสามารถและจะได้รับการแก้ไขด้วยการทดลองเพิ่มเติม ในทางตรงกันข้าม ขั้นตอนการตัดสินใจต้องการการตัดสินใจที่ชัดเจน ทำให้เกิดการกระทำที่ไม่สามารถย้อนกลับได้ และขั้นตอนดังกล่าวขึ้นอยู่กับต้นทุนของข้อผิดพลาด ซึ่งเขาโต้แย้งว่าไม่สามารถนำมาใช้กับการวิจัยทางวิทยาศาสตร์ได้

ดัชนีที่เกี่ยวข้อง

ค่าEสามารถหมายถึงสองแนวคิด ซึ่งทั้งสองเกี่ยวข้องกับค่า p และทั้งสองมีบทบาทในการทดสอบหลายครั้งประการแรกค่า E สอดคล้องกับทางเลือกทั่วไปที่แข็งแกร่งกว่าค่า pซึ่งสามารถจัดการกับ การทดลอง ที่ต่อเนื่องได้ประการที่สอง ยังใช้เพื่อย่อคำว่า "ค่าคาดหวัง" ซึ่งเป็น จำนวนครั้งที่ คาดว่าจะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่ากับค่าที่สังเกตได้จริง หากสมมติว่าสมมติฐานว่างเป็นจริง^{[ 54 ]}ค่าคาดหวังนี้เป็นผลคูณของจำนวนการทดสอบและค่า p

ค่าq เป็น ค่าเทียบเคียงของ ค่า pเมื่อเทียบกับอัตราการค้นพบที่ผิดพลาดเชิงบวก [ ^{55 ] ใช้}ในการทดสอบสมมติฐานหลายรายการเพื่อรักษาพลังทางสถิติในขณะที่ลดอัตราการเกิดผลบวกเท็จให้ น้อยที่สุด ^{[ 56 ]}

ความน่าจะเป็นของทิศทาง ( pd )คือค่า ตัวเลขแบบ เบย์เซียนที่เทียบเท่ากับค่าp ^{[ 57 ]}โดยสอดคล้องกับสัดส่วนของการกระจายความน่าจะเป็นภายหลังที่มีเครื่องหมายของค่ามัธยฐาน ซึ่งโดยทั่วไปจะแตกต่างกันไประหว่าง 50% ถึง 100% และแสดงถึงความแน่นอนที่ผลกระทบจะเป็นบวกหรือลบ

ค่า p รุ่นที่สองขยายแนวคิดของค่า p โดยไม่พิจารณาขนาดผลกระทบที่ เล็กมากจนแทบไม่มีความสำคัญ ว่ามีความสำคัญ^{[ 58 ]}

ค่า S หรือที่รู้จักกันในชื่อค่าความประหลาดใจ ได้รับการกำหนดให้เป็นการแปลงค่า p เป็นลอการิทึม: ค่า S = - log ₂ (ค่า p) การแปลงเป็นค่า S มีจุดประสงค์เพื่ออำนวยความสะดวกในการตีความค่า p โดยใช้มาตราส่วนลอการิทึมที่เข้าใจง่ายกว่า ซึ่งบ่งชี้ว่า “ประหลาดใจ” กับผลลัพธ์มากน้อยเพียงใด^{[ 59 ]}^{[ 60 ]}^{[ 61 ]}

ดูเพิ่มเติม

หมายเหตุ

^การใช้ตัวเอียง การใช้ตัวพิมพ์ใหญ่ และการใช้เครื่องหมายยัติภังค์ในคำนั้นแตกต่างกันไป ตัวอย่างเช่นรูปแบบ AMAใช้ " P value"รูปแบบ APAใช้ " p value" และสมาคมสถิติอเมริกันใช้ " p -value" ในทุกกรณี "p" หมายถึงความน่าจะเป็น^{[ 1 ]}
^ความสำคัญทางสถิติของผลลัพธ์ไม่ได้หมายความว่าผลลัพธ์นั้นมีความเกี่ยวข้องกับโลกแห่งความเป็นจริงเสมอไป ตัวอย่างเช่น ยาชนิดหนึ่งอาจมีผลทางสถิติที่สำคัญ แต่มีขนาดเล็กเกินกว่าที่จะน่าสนใจ
^เพื่อให้เจาะจงมากขึ้น ค่า p = 0.05 สอดคล้องกับค่าเบี่ยงเบนมาตรฐานประมาณ 1.96 สำหรับการแจกแจงแบบปกติ (การทดสอบแบบสองด้าน) และค่าเบี่ยงเบนมาตรฐาน 2 สอดคล้องกับโอกาสประมาณ 1 ใน 22 ที่จะถูกเกินไปโดยบังเอิญ หรือ p ≈ 0.045; ฟิชเชอร์ได้บันทึกการประมาณค่าเหล่านี้ไว้

[2] การใช้ตัวเอียง การใช้ตัวพิมพ์ใหญ่ และการใช้เครื่องหมายยัติภังค์ในคำนั้นแตกต่างกันไป ตัวอย่างเช่นรูปแบบ AMAใช้ " P value"รูปแบบ APAใช้ " p value" และสมาคมสถิติอเมริกันใช้ " p -value" ในทุกกรณี "p" หมายถึงความน่าจะเป็น^{[ 1 ]}

[9] ความสำคัญทางสถิติของผลลัพธ์ไม่ได้หมายความว่าผลลัพธ์นั้นมีความเกี่ยวข้องกับโลกแห่งความเป็นจริงเสมอไป ตัวอย่างเช่น ยาชนิดหนึ่งอาจมีผลทางสถิติที่สำคัญ แต่มีขนาดเล็กเกินกว่าที่จะน่าสนใจ

[51] เพื่อให้เจาะจงมากขึ้น ค่า p = 0.05 สอดคล้องกับค่าเบี่ยงเบนมาตรฐานประมาณ 1.96 สำหรับการแจกแจงแบบปกติ (การทดสอบแบบสองด้าน) และค่าเบี่ยงเบนมาตรฐาน 2 สอดคล้องกับโอกาสประมาณ 1 ใน 22 ที่จะถูกเกินไปโดยบังเอิญ หรือ p ≈ 0.045; ฟิชเชอร์ได้บันทึกการประมาณค่าเหล่านี้ไว้

หมายเหตุ

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

หมายเหตุ

[ 8 ]

[

[ 10 ]

[ 11 ]

ได้

[

[ 14 ]

[ 15 ]

นักสถิติบาง คน

[

18

19

20

21

22

[

[

[

[

[

[

[

[

[

[

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

แรก

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[หมายเหตุ 3 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

55 ] ใช้

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 1 ]

ค่า p