กลับไปหน้าบทความ

อ่าน 19 นาที

ค่า p

ใน การทดสอบนัยสำคัญของสมมติฐานว่าง ค่า p [ หมายเหตุ 1 ] คือ ความ น่าจะ เป็นที่จะได้ผลการทดสอบที่รุนแรงอย่างน้อยเท่ากับ ผลลัพธ์ที่สังเกตได้จริง ภายใต้สมมติฐานว่า สมมติฐานว่าง...

ค่าp

ในการทดสอบนัยสำคัญของสมมติฐานว่าง ค่าp [ หมายเหตุ 1 ] คือความน่าจะเป็นที่จะได้ผลการทดสอบที่รุนแรงอย่างน้อยเท่ากับผลลัพธ์ที่สังเกตได้จริงภายใต้สมมติฐานว่าสมมติฐานว่างถูกต้อง[ 2 ] [ 3 ] ค่า pที่น้อยมากหมายความว่าผลลัพธ์ ที่สังเกตได้ที่รุนแรงเช่นนั้น ไม่น่าจะเกิดขึ้นได้ภายใต้สมมติฐานว่างแม้ว่าการรายงาน ค่า pของการทดสอบทางสถิติจะเป็นแนวปฏิบัติทั่วไปในสิ่งพิมพ์ทางวิชาการของสาขาเชิงปริมาณหลายสาขา แต่การตีความผิดและการใช้ค่า p ในทาง ที่ผิด นั้นแพร่หลายและเป็นหัวข้อสำคัญในคณิตศาสตร์และอภิวิทยาศาสตร์[ 4 ] [ 5 ]

ในปี 2016 สมาคมสถิติอเมริกัน (ASA) ได้ออกแถลงการณ์อย่างเป็นทางการว่า " ค่า pไม่ได้วัดความน่าจะเป็นที่สมมติฐานที่ศึกษาเป็นจริง หรือความน่าจะเป็นที่ข้อมูลเกิดขึ้นจากความบังเอิญเพียงอย่างเดียว" และ " ค่า pหรือนัยสำคัญทางสถิติ ไม่ได้วัดขนาดของผลกระทบหรือความสำคัญของผลลัพธ์" และ "ไม่ได้ให้หลักฐานที่ดีเกี่ยวกับแบบจำลองหรือสมมติฐาน" หากปราศจาก "บริบทหรือหลักฐานอื่น ๆ" [ 6 ]อย่างไรก็ตาม คณะทำงานของ ASA ในปี 2019 ได้ออกแถลงการณ์เกี่ยวกับนัยสำคัญทางสถิติและความสามารถในการทำซ้ำ โดยสรุปว่า " ค่า pและการทดสอบนัยสำคัญ เมื่อนำไปใช้และตีความอย่างถูกต้อง จะเพิ่มความเข้มงวดของข้อสรุปที่ได้จากข้อมูล" [ 7 ]

แนวคิดพื้นฐาน

ในทางสถิติ ข้อสันนิษฐานทุกอย่างเกี่ยวกับความน่าจะเป็นที่ไม่ทราบค่าของการแจกแจงของกลุ่มตัวแปรสุ่มที่แสดงถึงข้อมูลที่สังเกตได้ในการศึกษาบางอย่าง เรียกว่าสมมติฐานทางสถิติ ถ้าเราตั้งสมมติฐานเพียงข้อเดียว และจุดประสงค์ของการทดสอบทางสถิติคือการดูว่าสมมติฐานนี้เป็นไปได้หรือไม่ แต่ไม่ใช่เพื่อตรวจสอบสมมติฐานเฉพาะอื่น ๆ การทดสอบดังกล่าวเรียกว่าการทดสอบสมมติฐานว่าง

เนื่องจากสมมติฐานทางสถิติของเราจะระบุคุณสมบัติบางอย่างของการแจกแจงตามนิยามสมมติฐานว่างจึงเป็นสมมติฐานเริ่มต้นที่ระบุว่าคุณสมบัตินั้นไม่มีอยู่ สมมติฐานว่างโดยทั่วไปคือพารามิเตอร์บางอย่าง (เช่น ค่าสหสัมพันธ์หรือความแตกต่างระหว่างค่าเฉลี่ย) ในประชากรที่สนใจมีค่าเป็นศูนย์ สมมติฐานของเราอาจระบุการแจกแจงความน่าจะเป็นของค่าดังกล่าวอย่างแม่นยำ หรืออาจระบุเพียงว่าค่าดังกล่าวอยู่ในกลุ่มการแจกแจงบางกลุ่ม บ่อยครั้งที่เราลดข้อมูลให้เหลือเพียงสถิติเชิงตัวเลขตัวเดียว เช่นซึ่งการแจกแจงความน่าจะเป็นแบบมาร์จินัลมีความเชื่อมโยงอย่างใกล้ชิดกับคำถามหลักที่น่าสนใจในการศึกษา

ค่าpใช้ในบริบทของการทดสอบสมมติฐานว่างเพื่อวัดนัยสำคัญทางสถิติของผลลัพธ์ โดยผลลัพธ์นั้นคือค่าที่สังเกตได้ของสถิติที่เลือก[ หมายเหตุ 2 ]ยิ่ง ค่า p ต่ำเท่าไร โอกาสที่จะได้ผลลัพธ์นั้นก็จะยิ่งน้อยลงเท่านั้น หากสมมติฐานว่างเป็นจริง ผลลัพธ์จะถือว่ามีนัยสำคัญทางสถิติหากทำให้เราสามารถปฏิเสธสมมติฐานว่างได้ โดยทั่วไปแล้ว ค่า p ที่น้อยกว่า จะถือเป็นหลักฐานที่แข็งแกร่งกว่าในการปฏิเสธสมมติฐานว่าง

โดยคร่าวๆ แล้ว การปฏิเสธสมมติฐานว่างหมายความว่ามีหลักฐานเพียงพอที่จะหักล้างสมมติฐานนั้น

ยกตัวอย่างเช่น หากสมมติฐานว่างระบุว่าค่าสถิติสรุปค่าหนึ่ง เป็นไปตาม การแจกแจงปกติมาตรฐานการปฏิเสธสมมติฐานว่างนี้อาจหมายความว่า (i) ค่าเฉลี่ยไม่ใช่ 0 หรือ (ii) ค่าความแปรปรวนไม่ใช่ 1 หรือ (iii) ไม่ได้มีการแจกแจงแบบปกติ การทดสอบสมมติฐานว่างเดียวกันที่แตกต่างกันจะมีความไวต่อทางเลือกที่แตกต่างกันมากหรือน้อย อย่างไรก็ตาม แม้ว่าเราจะสามารถปฏิเสธสมมติฐานว่างสำหรับทางเลือกทั้ง 3 ข้อได้ และแม้ว่าเราจะรู้ว่าการแจกแจงเป็นแบบปกติและค่าความแปรปรวนเท่ากับ 1 การทดสอบสมมติฐานว่างก็ไม่ได้บอกเราว่าค่าเฉลี่ยที่ไม่เป็นศูนย์ค่าใดมีความเป็นไปได้มากที่สุด ยิ่งมีจำนวนการสังเกตที่เป็นอิสระจากกันจากแหล่งความน่าจะเป็นเดียวกันมากเท่าใด การทดสอบก็จะยิ่งแม่นยำมากขึ้น และความแม่นยำในการกำหนดค่าเฉลี่ยและแสดงให้เห็นว่าไม่เท่ากับศูนย์ก็จะยิ่งสูงขึ้น แต่สิ่งนี้จะเพิ่มความสำคัญของการประเมินความเกี่ยวข้องในโลกแห่งความเป็นจริงหรือทางวิทยาศาสตร์ของความเบี่ยงเบนนี้ด้วย

คำจำกัดความและการตีความ

คำนิยาม

ค่าpคือความน่าจะเป็นภายใต้สมมติฐานว่างของการได้ค่าสถิติการทดสอบที่เป็นจำนวนจริงที่มีค่าอย่างน้อยที่สุดสุดขั้วเท่ากับค่าที่ได้ พิจารณาค่าสถิติการทดสอบที่สังเกตได้จาก1การแจกแจงที่ไม่ทราบค่าดังนั้นค่าpคือความน่าจะเป็นก่อนหน้าของการสังเกตค่าสถิติการทดสอบที่มีค่าอย่างน้อยที่สุด "สุดขั้ว" เท่ากับกรณีที่สมมติฐานว่างเป็นจริง กล่าวคือ:

  • สำหรับการกระจายค่าสถิติการทดสอบแบบด้านเดียวหางขวา
  • สำหรับการกระจายค่าสถิติการทดสอบแบบด้านเดียวหางซ้าย
  • สำหรับการแจกแจงสถิติการทดสอบแบบสองด้าน ถ้าการแจกแจงของมีความสมมาตรเกี่ยวกับศูนย์แล้ว

การตีความ

ข้อผิดพลาดที่นักสถิติผู้ปฏิบัติงานจะพิจารณาว่าสำคัญที่สุดที่จะต้องหลีกเลี่ยง (ซึ่งเป็นการตัดสินใจตามความรู้สึกส่วนตัว) เรียกว่า ข้อผิดพลาดประเภทที่หนึ่ง ข้อกำหนดแรกของทฤษฎีทางคณิตศาสตร์คือการอนุมานเกณฑ์การทดสอบที่จะทำให้มั่นใจได้ว่าความน่าจะเป็นของการเกิดข้อผิดพลาดประเภทที่หนึ่งจะเท่ากับ (หรือใกล้เคียง หรือไม่เกิน) ตัวเลขที่กำหนดไว้ล่วงหน้า α เช่น α = 0.05 หรือ 0.01 เป็นต้น ตัวเลขนี้เรียกว่า ระดับนัยสำคัญ

— Jerzy Neyman, "การกำเนิดของสถิติทางคณิตศาสตร์" [ 8 ]

ในการทดสอบนัยสำคัญ สมมติฐานว่างจะถูกปฏิเสธหาก ค่า pน้อยกว่าค่าเกณฑ์ที่กำหนดไว้ล่วงหน้าซึ่งเรียกว่าระดับอัลฟาหรือระดับนัยสำคัญไม่ได้มาจากข้อมูล แต่ถูกกำหนดโดยนักวิจัยก่อนที่จะตรวจสอบข้อมูลโดยทั่วไปจะกำหนดไว้ที่ 0.05 แม้ว่าบางครั้งจะใช้ระดับอัลฟาที่ต่ำกว่าก็ตาม ค่า 0.05 (เทียบเท่ากับโอกาส 1/20) ได้รับการเสนอครั้งแรกโดยRonald Fisherในปี 1925 ในหนังสือที่มีชื่อเสียงของเขาชื่อ " Statistical Methods for Research Workers " [ 9 ]

สามารถนำค่า pที่แตกต่างกันซึ่งได้จากชุดข้อมูลที่เป็นอิสระมาผสมผสานกันได้ ตัวอย่างเช่น โดยใช้การทดสอบความน่าจะเป็นแบบผสมของฟิชเชอร์

การกระจาย

ค่าpเป็นฟังก์ชันของสถิติทดสอบที่เลือกและดังนั้นจึงเป็นตัวแปรสุ่มถ้าสมมติฐานว่างกำหนดการกระจายความน่าจะเป็นของค่า p ได้อย่างแม่นยำ (เช่นโดยที่เป็นพารามิเตอร์เดียว) และถ้าการกระจายนั้นเป็นแบบต่อเนื่อง เมื่อสมมติฐานว่างเป็นจริง ค่า pจะมีการกระจายแบบสม่ำเสมอระหว่าง 0 ถึง 1 ไม่ว่าสมมติฐานว่างจะเป็นจริงหรือ ไม่ ค่าpก็ไม่คงที่ ถ้าทำการทดสอบซ้ำโดยอิสระด้วยข้อมูลใหม่ โดยทั่วไปแล้วจะได้ ค่า p ที่แตกต่างกัน ในแต่ละครั้ง

โดยปกติจะสังเกตเห็นค่า pเพียงค่าเดียวที่เกี่ยวข้องกับสมมติฐาน ดังนั้น ค่า pจึงถูกตีความโดยการทดสอบนัยสำคัญ และไม่มีความพยายามใด ๆ ในการประมาณการการกระจายที่ดึงมาจาก เมื่อ มีค่า pหลายค่า (เช่น เมื่อพิจารณากลุ่มการศึกษาในหัวข้อเดียวกัน) การกระจายของ ค่า p ที่มีนัยสำคัญ บางครั้งเรียกว่าเส้นโค้งp [ 10 ] เส้น โค้ง pสามารถใช้เพื่อประเมินความน่าเชื่อถือของวรรณกรรมทางวิทยาศาสตร์ เช่น โดยการตรวจจับอคติในการตีพิมพ์หรือp - hacking [ 10 ] [ 11 ]

การแจกแจงสำหรับสมมติฐานแบบผสม

ในปัญหาการทดสอบสมมติฐานแบบพาราเมตริกสมมติฐานแบบง่ายหรือแบบจุดหมายถึงสมมติฐานที่ค่าของพารามิเตอร์ถือว่าเป็นตัวเลขเดียว ในทางตรงกันข้าม ในสมมติฐานแบบผสมค่าของพารามิเตอร์จะกำหนดโดยชุดของตัวเลข เมื่อสมมติฐานว่างเป็นแบบผสม (หรือการกระจายของสถิติเป็นแบบไม่ต่อเนื่อง) เมื่อสมมติฐานว่างเป็นจริง ความน่าจะเป็นที่จะได้ค่าpน้อยกว่าหรือเท่ากับตัวเลขใดๆ ระหว่าง 0 ถึง 1 ก็ยังคงน้อยกว่าหรือเท่ากับตัวเลขนั้น กล่าวอีกนัยหนึ่ง ค่าที่เล็กมากยังคงมีโอกาสเกิดขึ้นน้อยมากหากสมมติฐานว่างเป็นจริง และการทดสอบนัยสำคัญที่ระดับ จะ ได้รับโดยการปฏิเสธสมมติฐานว่างหาก ค่า pน้อยกว่าหรือเท่ากับ[ 12 ] [ 13 ]

ตัวอย่างเช่น เมื่อทดสอบสมมติฐานว่างที่ว่าการแจกแจงเป็นแบบปกติโดยมีค่าเฉลี่ยน้อยกว่าหรือเท่ากับศูนย์ เทียบกับสมมติฐานทางเลือกที่ว่าค่าเฉลี่ยมากกว่าศูนย์ (โดยที่ค่าความแปรปรวนทราบแล้ว) สมมติฐานว่างไม่ได้ระบุการแจกแจงความน่าจะเป็นที่แน่นอนของสถิติการทดสอบที่เหมาะสม ในตัวอย่างนี้ นั่นคือสถิติZ ที่เป็นของการทดสอบ Zแบบด้านเดียวสำหรับตัวอย่างเดียวสำหรับแต่ละค่าที่เป็นไปได้ของค่าเฉลี่ยทางทฤษฎี สถิติการทดสอบ Zจะมีการแจกแจงความน่าจะเป็นที่แตกต่างกัน ในสถานการณ์เหล่านี้ ค่า pจะถูกกำหนดโดยการเลือกกรณีสมมติฐานว่างที่ไม่เอื้ออำนวยที่สุด ซึ่งโดยทั่วไปจะอยู่บนขอบเขตระหว่างสมมติฐานว่างและสมมติฐานทางเลือก คำจำกัดความนี้รับประกันความสมบูรณ์ของค่า p และระดับอัลฟา: หมายความว่าเราจะปฏิเสธสมมติฐานว่างก็ต่อเมื่อ ค่า pน้อยกว่าหรือเท่ากับและการทดสอบสมมติฐานจะมีอัตราความผิดพลาดประเภทที่ 1 สูงสุดเท่ากับ

การใช้งาน

ค่าpถูกใช้กันอย่างแพร่หลายในการทดสอบสมมติฐานทางสถิติโดยเฉพาะอย่างยิ่งในการทดสอบความสำคัญของสมมติฐานว่าง ในวิธีนี้ ก่อนดำเนินการศึกษา จะต้องเลือกแบบจำลอง ( สมมติฐานว่าง ) และระดับอัลฟาα (โดยทั่วไปคือ 0.05) ก่อน หลังจากวิเคราะห์ข้อมูลแล้ว หาก ค่า pน้อยกว่าαนั่นหมายความว่าข้อมูลที่สังเกตได้ไม่สอดคล้องกับสมมติฐานว่าง มาก พอที่จะต้องปฏิเสธสมมติฐานว่าง อย่างไรก็ตาม นั่นไม่ได้พิสูจน์ว่าสมมติฐานว่างเป็นเท็จ ค่า pไม่ได้กำหนดความน่าจะเป็นของสมมติฐานด้วยตัวมันเอง แต่เป็นเครื่องมือสำหรับการตัดสินใจว่าจะปฏิเสธสมมติฐานว่างหรือไม่[ 14 ]

การใช้ในทางที่ผิด

ตามที่ ASA ระบุ มีข้อตกลงกันอย่างกว้างขวางว่า ค่า pมักถูกนำไปใช้ในทางที่ผิดและตีความผิด[ 3 ]แนวปฏิบัติหนึ่งที่ถูกวิพากษ์วิจารณ์เป็นพิเศษคือการยอมรับสมมติฐานทางเลือกสำหรับ ค่า p ใดๆ ที่น้อยกว่า 0.05 โดยไม่มีหลักฐานสนับสนุนอื่นๆ แม้ว่า ค่า pจะมีประโยชน์ในการประเมินว่าข้อมูลไม่สอดคล้องกับแบบจำลองทางสถิติที่กำหนดมากน้อยเพียงใด แต่ปัจจัยบริบทก็ต้องนำมาพิจารณาด้วย เช่น "การออกแบบการศึกษา คุณภาพของการวัด หลักฐานภายนอกสำหรับปรากฏการณ์ที่กำลังศึกษา และความถูกต้องของสมมติฐานที่อยู่เบื้องหลังการวิเคราะห์ข้อมูล" [ 3 ]ข้อกังวลอีกประการหนึ่งคือ ค่า pมักถูกเข้าใจผิดว่าเป็นความน่าจะเป็นที่สมมติฐานว่างเป็นจริง[ 3 ] [ 15 ] ค่า pและการทดสอบนัยสำคัญยังไม่ได้กล่าวถึงความเป็นไปได้ในการสรุปผลจากตัวอย่างไปยังประชากร

นักสถิติบาง คนเสนอให้ละทิ้ง ค่า pและมุ่งเน้นไปที่สถิติเชิงอนุมานอื่นๆ มากขึ้น[ 3 ]เช่นช่วงความเชื่อมั่น [ 16 ] [ 17 ]อัตราส่วนความน่าจะเป็น [ 18 ] [ 19 ] หรือปัจจัยเบย์ส [ 20 ] [ 21 ] [ 22 ] แต่มีการถกเถียงกันอย่างดุเดือดเกี่ยวกับความเป็นไปได้ของทางเลือกเหล่านี้[ 23 ] [ 24 ]ในขณะเดียวกัน การใช้ ค่า pก็ได้รับการปกป้องในฐานะเครื่องมือทางสถิติที่มีประโยชน์ซึ่งไม่ควรละทิ้ง[ 25 ] [ 26 ] [ 27 ] [ 28 ]คนอื่นๆ เสนอให้ลบเกณฑ์ความสำคัญคงที่ออกและตีความ ค่า pเป็นดัชนีต่อเนื่องของความแข็งแกร่งของหลักฐานที่ขัดแย้งกับสมมติฐานว่าง[ 29 ] [ 30 ]แม้ว่าข้อเสนอเหล่านี้เองก็ถูกวิพากษ์วิจารณ์[ 31 ] คนอื่นๆ แนะนำให้รายงานควบคู่ไปกับ ค่า pถึงความน่าจะเป็นก่อนหน้าของผลกระทบที่แท้จริงซึ่งจำเป็นต่อการเกิดความเสี่ยงบวกเท็จ (กล่าวคือ ความน่าจะเป็นที่ไม่มีผลกระทบที่แท้จริง) ที่ต่ำกว่าเกณฑ์ที่กำหนดไว้ล่วงหน้า (เช่น 5%) [ 32 ]

อย่างไรก็ตาม ในปี 2019 คณะทำงานของ ASA ได้ประชุมเพื่อพิจารณาการใช้วิธีการทางสถิติในการศึกษาทางวิทยาศาสตร์ โดยเฉพาะอย่างยิ่งการทดสอบสมมติฐานและ ค่า pและความเชื่อมโยงกับความสามารถในการทำซ้ำ[ 7 ]ระบุว่า "มาตรวัดความไม่แน่นอนที่แตกต่างกันสามารถเสริมซึ่งกันและกันได้ ไม่มีมาตรวัดใดมาตรวัดเดียวที่ใช้ได้กับทุกวัตถุประสงค์" โดยอ้างถึง ค่า pเป็นหนึ่งในมาตรวัดเหล่านี้ พวกเขายังเน้นย้ำว่า ค่า pสามารถให้ข้อมูลที่มีค่าเมื่อพิจารณาค่าเฉพาะ เช่นเดียวกับเมื่อเปรียบเทียบกับเกณฑ์บางอย่าง โดยทั่วไปแล้ว เน้นย้ำว่า " ค่า pและการทดสอบนัยสำคัญ เมื่อนำไปใช้และตีความอย่างถูกต้อง จะเพิ่มความเข้มงวดของข้อสรุปที่ได้จากข้อมูล" ความคิดเห็นนี้ได้รับการสนับสนุนเพิ่มเติมจากความคิดเห็นในNature Human Behaviourซึ่งตอบสนองต่อคำแนะนำในการกำหนดนัยสำคัญทางสถิติใหม่เป็น P ≤ 0.005 โดยเสนอว่า "นักวิจัยควรรายงานอย่างโปร่งใสและให้เหตุผลถึงทางเลือกทั้งหมดที่พวกเขาทำเมื่อออกแบบการศึกษา รวมถึงระดับอัลฟาด้วย" [ 33 ]

การคำนวณ

โดยทั่วไปแล้ว ค่า สถิติทดสอบคือค่าที่ได้จาก ฟังก์ชัน สเกลาร์ของข้อมูลสังเกตทั้งหมด ค่าสถิตินี้จะให้ค่าตัวเลขเพียงค่าเดียว เช่นค่าสถิติtหรือค่าสถิติFดังนั้น ค่าสถิติทดสอบจึงมีการแจกแจงตามฟังก์ชันที่ใช้ในการกำหนดค่าสถิติทดสอบนั้น และการแจกแจงของข้อมูลสังเกตที่ป้อนเข้ามา

สำหรับกรณีสำคัญที่ข้อมูลถูกตั้งสมมติฐานว่าเป็นตัวอย่างสุ่มจาก1การแจกแจงแบบปกติ ขึ้นอยู่กับลักษณะของสถิติทดสอบและสมมติฐานที่สนใจเกี่ยวกับการแจกแจงของข้อมูลนั้น ได้มีการพัฒนาการทดสอบสมมติฐานว่างที่แตกต่างกันออกไป การทดสอบบางอย่างได้แก่การทดสอบzสำหรับสมมติฐานเกี่ยวกับค่าเฉลี่ยของการแจกแจงแบบปกติที่มีความแปรปรวนที่ทราบการทดสอบtซึ่งอิงจากการแจกแจงtของนักเรียนของสถิติที่เหมาะสมสำหรับสมมติฐานเกี่ยวกับค่าเฉลี่ยของการแจกแจงแบบปกติเมื่อความแปรปรวนไม่ทราบการทดสอบFซึ่งอิงจากการแจกแจงFของสถิติอีกตัวหนึ่งสำหรับสมมติฐานเกี่ยวกับความแปรปรวน สำหรับข้อมูลที่มีลักษณะอื่น เช่น ข้อมูลเชิงหมวดหมู่ (ข้อมูลไม่ต่อเนื่อง) อาจมีการสร้างสถิติทดสอบที่มีการแจกแจงสมมติฐานว่างโดยอิงจากการประมาณค่าแบบปกติของสถิติที่เหมาะสมซึ่งได้มาจากการใช้ทฤษฎีบทขีดจำกัดกลางสำหรับตัวอย่างขนาดใหญ่ เช่นในกรณีของการทดสอบไคกำลังสองของเพียร์สัน

ดังนั้น การคำนวณ ค่า pจึงต้องใช้สมมติฐานว่าง สถิติทดสอบ (รวมถึงการตัดสินใจว่านักวิจัยกำลังทำการทดสอบแบบด้านเดียวหรือสองด้าน ) และข้อมูล แม้ว่าการคำนวณสถิติทดสอบจากข้อมูลที่กำหนดอาจทำได้ง่าย แต่การคำนวณการแจกแจงตัวอย่างภายใต้สมมติฐานว่าง และการคำนวณฟังก์ชันการแจกแจงสะสม (CDF) นั้นมักเป็นปัญหาที่ยาก ในปัจจุบัน การคำนวณนี้ทำโดยใช้ซอฟต์แวร์ทางสถิติ ซึ่งมักใช้วิธีเชิงตัวเลข (แทนที่จะใช้สูตรที่แน่นอน) แต่ในช่วงต้นและกลางศตวรรษที่ 20 การคำนวณนี้ทำโดยใช้ตารางค่า และประมาณ ค่า pจากค่าที่ไม่ต่อเนื่องเหล่านี้ แทนที่จะใช้ตาราง ค่า pฟิชเชอร์กลับใช้การกลับด้าน CDF โดยเผยแพร่รายการค่าของสถิติทดสอบสำหรับ ค่า p ที่กำหนดไว้ ซึ่งสอดคล้องกับการคำนวณฟังก์ชันควอนไทล์ (CDF ผกผัน)

ตัวอย่าง

การทดสอบความยุติธรรมของเหรียญ

ตัวอย่างหนึ่งของการทดสอบทางสถิติ คือ การทำการทดลองเพื่อตรวจสอบว่าการโยนเหรียญ นั้น ยุติธรรมหรือ ไม่ (โอกาสที่จะออกหัวหรือก้อยเท่ากัน) หรือไม่ยุติธรรม (ผลลัพธ์หนึ่งมีโอกาสเกิดขึ้นมากกว่าอีกผลลัพธ์หนึ่ง)

สมมติว่าผลการทดลองแสดงให้เห็นว่าเหรียญออกหัว 14 ครั้งจากการโยนทั้งหมด 20 ครั้ง ข้อมูลทั้งหมดจะเป็นลำดับของสัญลักษณ์ "H" หรือ "T" จำนวน 20 ครั้ง สถิติที่เราอาจให้ความสนใจคือจำนวนหัวทั้งหมด สมมติฐานว่างคือเหรียญนั้นยุติธรรม และการโยนเหรียญแต่ละครั้งเป็นอิสระต่อกัน หากพิจารณาการทดสอบแบบหางขวา ซึ่งจะเป็นกรณีที่เราสนใจความเป็นไปได้ที่เหรียญนั้นมีแนวโน้มที่จะออกหัวมากกว่า ค่า pของผลลัพธ์นี้คือโอกาสที่เหรียญยุติธรรมจะออกหัวอย่างน้อย 14 ครั้งจาก 20 ครั้ง ความน่าจะเป็นนั้นสามารถคำนวณได้จากสัมประสิทธิ์ทวินามดังนี้

ค่าความน่าจะเป็นนี้คือ ค่า pซึ่งพิจารณาเฉพาะผลลัพธ์สุดขั้วที่เอื้อต่อการออกหัวเท่านั้น เรียกว่าการทดสอบแบบด้านเดียวอย่างไรก็ตาม บางคนอาจสนใจความเบี่ยงเบนในทิศทางใดทิศทางหนึ่งที่เอื้อต่อการออกหัวหรือก้อย จึงสามารถคำนวณค่าp แบบสองด้านได้ ซึ่งพิจารณาความเบี่ยงเบนที่เอื้อต่อการออกหัวหรือก้อย เนื่องจากการ แจกแจงแบบทวินามมีความสมมาตรสำหรับเหรียญที่ยุติธรรม ค่า p แบบสองด้านจึงเป็นเพียงสองเท่าของค่า pแบบด้านเดียวที่คำนวณข้างต้น : ค่า pแบบสองด้านคือ 0.115

ในตัวอย่างข้างต้น:

  • สมมติฐานว่าง ( H₀ ) : เหรียญเป็นเหรียญยุติธรรม โดยมีโอกาสออกหัวเท่ากับ 0.5
  • สถิติการทดสอบ: จำนวนหัว
  • ระดับอัลฟา (เกณฑ์ความสำคัญที่กำหนด): 0.05
  • ข้อสังเกตO : ออกหัว 14 ครั้ง จากการโยนเหรียญ 20 ครั้ง
  • ค่า pแบบสองด้านของการสังเกตOเมื่อกำหนดH 0 = 2 × min(Pr(จำนวนหัว ≥ 14 หัว), Pr(จำนวนหัว ≤ 14 หัว)) = 2 × min(0.058, 0.978) = 2 × 0.058 = 0.115

ความน่าจะเป็นที่เหรียญออกหัว ≤ 14 ครั้ง จะได้ว่า Pr(จำนวนหัว ≤ 14 ครั้ง) = 1 − Pr(จำนวนหัว ≥ 14 ครั้ง) + Pr(จำนวนหัว = 14 ครั้ง) = 1 − 0.058 + 0.036 = 0.978 อย่างไรก็ตาม ความสมมาตรของการแจกแจงแบบทวินามนี้ทำให้ไม่จำเป็นต้องคำนวณหาค่าความน่าจะเป็นที่น้อยกว่าระหว่างสองค่านี้ ในที่นี้ ค่า p ที่คำนวณได้ เกิน 0.05 ซึ่งหมายความว่าข้อมูลอยู่ในช่วงที่อาจเกิดขึ้น 95% ของเวลา หากเหรียญนั้นเป็นเหรียญยุติธรรม ดังนั้น สมมติฐานว่างจึงไม่ถูกปฏิเสธที่ระดับนัยสำคัญ 0.05

อย่างไรก็ตาม หากได้หัวเพิ่มอีกหนึ่งหัว ค่า p ที่ได้ (แบบสองด้าน) จะเท่ากับ 0.0414 (4.14%) ซึ่งในกรณีนี้สมมติฐานหลักจะถูกปฏิเสธที่ระดับนัยสำคัญ 0.05

การหยุดรถตามความสมัครใจ

ความแตกต่างระหว่างความหมายทั้งสองของคำว่า "สุดขั้ว" ปรากฏขึ้นเมื่อเราพิจารณาการทดสอบสมมติฐานตามลำดับ หรือการหยุดแบบเลือกได้ สำหรับความยุติธรรมของเหรียญ โดยทั่วไป การหยุดแบบเลือกได้จะเปลี่ยนวิธีการคำนวณค่า p [ 34 ] [ 35 ]สมมติว่าเราออกแบบการทดลองดังต่อไปนี้:

  • โยนเหรียญสองครั้ง ถ้าออกหัวหรือก้อยทั้งสองครั้ง ให้ยุติการทดลอง
  • มิเช่นนั้น ให้โยนเหรียญอีก 4 ครั้ง

การทดลองนี้มีผลลัพธ์ 7 แบบ ได้แก่ หัว 2 ครั้ง, ก้อย 2 ครั้ง, หัว 5 ครั้ง ก้อย 1 ครั้ง, ..., หัว 1 ครั้ง ก้อย 5 ครั้ง ตอนนี้เราจะคำนวณ ค่า pของผลลัพธ์ "หัว 3 ครั้ง ก้อย 3 ครั้ง"

ถ้าเราใช้ค่าสถิติการทดสอบ # แล้วภายใต้สมมติฐานว่าง (เช่น # ) ค่า pสองด้านจะเท่ากับ 1 พอดี และทั้งค่า p ด้านเดียวทางซ้ายและ ค่า p ด้านเดียวทางขวา จะเท่ากับพอดี

ถ้าเราพิจารณาผลลัพธ์ทุกอย่างที่มีความน่าจะเป็นเท่ากันหรือต่ำกว่า "3 หัว 3 ก้อย" ว่า "มีความสุดขั้วอย่างน้อยเท่ากัน" แล้ว ค่า pจะเท่ากับ...

อย่างไรก็ตาม สมมติว่าเราวางแผนที่จะโยนเหรียญ 6 ครั้งโดยไม่คำนึงถึงผลลัพธ์ใดๆ นิยามที่สองของ ค่า pจะหมายความว่า ค่า pของ "หัว 3 ครั้ง ก้อย 3 ครั้ง" จะเท่ากับ 1 พอดี

ดังนั้น นิยามของ ค่า p ที่ว่า "อย่างน้อยก็สุดขั้วเท่ากัน" จึงขึ้นอยู่กับบริบทอย่างมาก และขึ้นอยู่กับสิ่งที่ผู้ทำการทดลองวางแผนจะทำ แม้ในสถานการณ์ที่ไม่ได้เกิดขึ้นจริงก็ตาม

ประวัติศาสตร์

ภาพวาดครึ่งตัวของชายคนหนึ่งสวมเสื้อคลุมสีน้ำตาลและผ้าคลุมศีรษะ สูงระดับอก
จอห์น อาร์บัทนอต
ปิแอร์-ไซมง ลาปลาซ
ชายคนหนึ่งนั่งอยู่ที่โต๊ะทำงานและเงยหน้ามองกล้อง
คาร์ล เพียร์สัน
ภาพถ่ายโทนสีซีเปียของชายหนุ่มสวมสูท เหรียญรางวัล และแว่นตาขอบโลหะ
โรนัลด์ ฟิชเชอร์

การคำนวณค่า pมีมาตั้งแต่ศตวรรษที่ 1700 ซึ่งใช้ในการคำนวณอัตราส่วนเพศของมนุษย์เมื่อแรกเกิด และใช้ในการคำนวณความสำคัญทางสถิติเมื่อเทียบกับสมมติฐานว่างของความน่าจะเป็นที่เท่ากันของการเกิดของเพศชายและเพศหญิง[ 36 ]จอห์น อาร์บัทนอตศึกษาคำถามนี้ในปี 1710 [ 37 ] [ 38 ] [ 39 ] [ 40 ]และตรวจสอบบันทึกการเกิดในลอนดอนในแต่ละปีจากทั้งหมด 82 ปี ตั้งแต่ปี 1629 ถึง 1710 ในทุกปี จำนวนเพศชายที่เกิดในลอนดอนมีมากกว่าจำนวนเพศหญิง เมื่อพิจารณาว่าการเกิดของเพศชายหรือเพศหญิงมากกว่ามีความน่าจะเป็นเท่ากัน ความน่าจะเป็นของผลลัพธ์ที่สังเกตได้คือ 1/2 82หรือประมาณ 1 ใน 4,836,000,000,000,000,000,000,000 ในแง่สมัยใหม่คือค่าpสิ่งนี้มีขนาดเล็กมากจนทำให้ Arbuthnot สรุปว่าสิ่งนี้ไม่ได้เกิดจากความบังเอิญ แต่เกิดจากพระประสงค์ของพระเจ้า: "จากนั้นจึงสรุปได้ว่า เป็นศิลปะ ไม่ใช่ความบังเอิญ ที่ควบคุม" ในแง่สมัยใหม่ เขาปฏิเสธสมมติฐานว่างของการเกิดเพศชายและหญิงที่มีโอกาสเท่ากันที่ ระดับนัยสำคัญ p  = 1/2 82งานนี้และงานอื่นๆ ของ Arbuthnot ได้รับการยกย่องว่าเป็น "...การใช้การทดสอบนัยสำคัญครั้งแรก..." [ 41 ]ตัวอย่างแรกของการให้เหตุผลเกี่ยวกับนัยสำคัญทางสถิติ[ 42 ]และ "...อาจเป็นรายงานที่ตีพิมพ์ครั้งแรกของการทดสอบแบบไม่ใช้พารามิเตอร์ ..." [ 38 ]โดยเฉพาะการทดสอบเครื่องหมายดูรายละเอียดได้ที่การทดสอบเครื่องหมาย §ประวัติ

ต่อมา Pierre-Simon Laplaceได้ตอบคำถามเดียวกันนี้โดยใช้ การทดสอบ แบบพาราเมตริก แทน โดยจำลองจำนวนการเกิดของเพศชายด้วยการแจกแจงแบบทวินาม : [ 43 ]

ในช่วงทศวรรษ 1770 ลาปลาซได้พิจารณาสถิติการเกิดเกือบครึ่งล้านคน สถิติแสดงให้เห็นว่ามีเด็กผู้ชายมากกว่าเด็กผู้หญิง เขาจึงสรุปโดยการคำนวณค่าpว่าจำนวนเด็กผู้ชายที่มากกว่านั้นเป็นปรากฏการณ์จริง แต่ยังไม่มีคำอธิบาย

ค่าp ได้รับการแนะนำอย่างเป็นทางการครั้ง แรกโดยKarl Pearsonในการทดสอบไคกำลังสองของ Pearson [ 44 ]โดยใช้การแจกแจงไคกำลังสองและเขียนแทนด้วยตัวพิมพ์ใหญ่ P [ 44 ]ค่าpสำหรับการแจกแจงไคกำลังสอง (สำหรับค่าต่างๆ ของ χ² และองศาอิสระ) ซึ่งปัจจุบันเขียนแทนด้วยPได้รับการคำนวณใน ( Elderton 1902 ) และรวบรวมไว้ใน ( Pearson 1914 , หน้า xxxi–xxxiii, 26–28, ตาราง XII)

โรนัลด์ ฟิชเชอร์ได้วางรูปแบบและทำให้การใช้ ค่า pในสถิติ เป็นที่นิยม [ 45 ] [ 46 ]โดยมีบทบาทสำคัญในแนวทางของเขาในเรื่องนี้[ 47 ]ในหนังสือที่มีอิทธิพลอย่างมากของเขาเรื่อง Statistical Methods for Research Workers (1925) ฟิชเชอร์ได้เสนอระดับp = 0.05 หรือโอกาส 1 ใน 20 ที่จะเกินค่านี้โดยบังเอิญ เป็นขีดจำกัดสำหรับนัยสำคัญทางสถิติและนำไปใช้กับการแจกแจงแบบปกติ (เป็นการทดสอบแบบสองด้าน) จึงได้กฎของค่าเบี่ยงเบนมาตรฐานสองเท่า (ในการแจกแจงแบบปกติ) สำหรับนัยสำคัญทางสถิติ (ดูกฎ 68–95–99.7 ) [ 48 ] [หมายเหตุ 3 ] [ 49 ]

จากนั้นเขาคำนวณตารางค่าต่างๆ คล้ายกับของเอลเดอร์ตัน แต่ที่สำคัญคือ เขาได้สลับบทบาทของ χ² และ p กล่าวคือ แทนที่จะคำนวณpสำหรับค่าต่างๆ ของ χ² (และองศาอิสระn ) เขาคำนวณค่าของ χ² ที่ให้ ค่า p ที่ระบุไว้ โดยเฉพาะ 0.99, 0.98, 0.95, 0.90, 0.80, 0.70, 0.50, 0.30, 0.20, 0.10, 0.05, 0.02 และ 0.01 [ 50 ]ซึ่งทำให้สามารถเปรียบเทียบค่า χ² ที่คำนวณได้กับค่าตัด และส่งเสริมการใช้ ค่า p (โดยเฉพาะ 0.05, 0.02 และ 0.01) เป็นค่าตัด แทนที่จะคำนวณและรายงาน ค่า pเอง ตารางประเภทเดียวกันนี้ได้รับการรวบรวมไว้ใน ( Fisher & Yates 1938 ) ซึ่งยืนยันแนวทางดังกล่าว[ 49 ]

เพื่อเป็นตัวอย่างการประยุกต์ใช้ ค่า pในการออกแบบและการตีความการทดลอง ในหนังสือเล่มถัดไปของเขาThe Design of Experiments (1935) ฟิชเชอร์ได้นำเสนอการทดลองชิมชาของผู้หญิง[ 51 ]ซึ่งเป็นตัวอย่างต้นแบบของค่า p

เพื่อประเมินคำกล่าวอ้างของสุภาพสตรีท่านหนึ่ง ( มูเรียล บริสตอล ) ที่ว่าเธอสามารถแยกแยะรสชาติของชาที่ชงได้ (เช่น ชงโดยใส่นมก่อนแล้วค่อยใส่ชา หรือชงโดยใส่ชาก่อนแล้วค่อยใส่นม) จึงได้มีการนำถ้วยชา 8 ถ้วยมาให้เธอชิม โดยแบ่งเป็น 4 ถ้วยที่ชงแบบหนึ่ง และ 4 ถ้วยที่ชงอีกแบบหนึ่ง แล้วให้เธอระบุวิธีการชงของแต่ละถ้วย (โดยทราบว่ามีอย่างละ 4 ถ้วย) ในกรณีนี้ สมมติฐานหลักคือเธอไม่มีความสามารถพิเศษใดๆ การทดสอบคือการทดสอบความแม่นยำของฟิชเชอร์และค่าp -value อยู่ในระดับที่ฟิชเชอร์ยินดีที่จะปฏิเสธสมมติฐานหลัก (พิจารณาว่าผลลัพธ์ไม่น่าจะเกิดจากความบังเอิญ) หากเธอจำแนกถ้วยทั้งหมดได้อย่างถูกต้อง (ในการทดลองจริง บริสตอลจำแนกถ้วยทั้ง 8 ถ้วยได้อย่างถูกต้อง)

ฟิชเชอร์ย้ำ เกณฑ์ p = 0.05 และอธิบายเหตุผลโดยระบุว่า: [ 52 ]

โดยปกติแล้ว นักทดลองมักจะกำหนดระดับนัยสำคัญมาตรฐานไว้ที่ 5 เปอร์เซ็นต์ ซึ่งถือว่าสะดวก เนื่องจากพวกเขายินดีที่จะเพิกเฉยต่อผลลัพธ์ทั้งหมดที่ไม่ถึงระดับมาตรฐานนี้ และด้วยวิธีนี้ พวกเขาสามารถขจัดความผันผวนส่วนใหญ่ที่เกิดจากสาเหตุโดยบังเอิญออกจากการอภิปรายเพิ่มเติมได้

เขายังใช้เกณฑ์นี้ในการออกแบบการทดลอง โดยสังเกตว่าหากมีการนำเสนอถ้วยเพียง 6 ใบ (อย่างละ 3 ใบ) การจำแนกประเภทที่สมบูรณ์แบบจะให้ค่าpที่ไม่ตรงตามระดับนัยสำคัญนี้[ 52 ]ฟิชเชอร์ยังเน้นย้ำการตีความpว่าเป็นสัดส่วนระยะยาวของค่าที่อย่างน้อยก็สุดขั้วเท่ากับข้อมูล โดยสมมติว่าสมมติฐานว่างเป็นจริง

ในฉบับต่อมา ฟิชเชอร์ได้เปรียบเทียบการใช้ ค่า pสำหรับการอนุมานทางสถิติในวิทยาศาสตร์กับวิธีการของเนย์แมน-เพียร์สันอย่างชัดเจน ซึ่งเขาเรียกว่า "ขั้นตอนการยอมรับ" [ 53 ]ฟิชเชอร์เน้นย้ำว่าในขณะที่ระดับคงที่ เช่น 5%, 2% และ 1% นั้นสะดวก แต่ สามารถใช้ค่า p ที่แน่นอน ได้ และความแข็งแกร่งของหลักฐานสามารถและจะได้รับการแก้ไขด้วยการทดลองเพิ่มเติม ในทางตรงกันข้าม ขั้นตอนการตัดสินใจต้องการการตัดสินใจที่ชัดเจน ทำให้เกิดการกระทำที่ไม่สามารถย้อนกลับได้ และขั้นตอนดังกล่าวขึ้นอยู่กับต้นทุนของข้อผิดพลาด ซึ่งเขาโต้แย้งว่าไม่สามารถนำมาใช้กับการวิจัยทางวิทยาศาสตร์ได้

ค่าEสามารถหมายถึงสองแนวคิด ซึ่งทั้งสองเกี่ยวข้องกับค่า p และทั้งสองมีบทบาทในการทดสอบหลายครั้งประการแรกค่า E สอดคล้องกับทางเลือกทั่วไปที่แข็งแกร่งกว่าค่า pซึ่งสามารถจัดการกับ การทดลอง ที่ต่อเนื่องได้ประการที่สอง ยังใช้เพื่อย่อคำว่า "ค่าคาดหวัง" ซึ่งเป็น จำนวนครั้งที่ คาดว่าจะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่ากับค่าที่สังเกตได้จริง หากสมมติว่าสมมติฐานว่างเป็นจริง[ 54 ]ค่าคาดหวังนี้เป็นผลคูณของจำนวนการทดสอบและค่า p

ค่าq เป็น ค่าเทียบเคียงของ ค่า pเมื่อเทียบกับอัตราการค้นพบที่ผิดพลาดเชิงบวก [ 55 ] ใช้ในการทดสอบสมมติฐานหลายรายการเพื่อรักษาพลังทางสถิติในขณะที่ลดอัตราการเกิดผลบวกเท็จให้ น้อยที่สุด [ 56 ]

ความน่าจะเป็นของทิศทาง ( pd )คือค่า ตัวเลขแบบ เบย์เซียนที่เทียบเท่ากับค่าp [ 57 ]โดยสอดคล้องกับสัดส่วนของการกระจายความน่าจะเป็นภายหลังที่มีเครื่องหมายของค่ามัธยฐาน ซึ่งโดยทั่วไปจะแตกต่างกันไประหว่าง 50% ถึง 100% และแสดงถึงความแน่นอนที่ผลกระทบจะเป็นบวกหรือลบ

ค่า p รุ่นที่สองขยายแนวคิดของค่า p โดยไม่พิจารณาขนาดผลกระทบที่ เล็กมากจนแทบไม่มีความสำคัญ ว่ามีความสำคัญ[ 58 ]

ค่า S หรือที่รู้จักกันในชื่อค่าความประหลาดใจ ได้รับการกำหนดให้เป็นการแปลงค่า p เป็นลอการิทึม: ค่า S = - log 2 (ค่า p) การแปลงเป็นค่า S มีจุดประสงค์เพื่ออำนวยความสะดวกในการตีความค่า p โดยใช้มาตราส่วนลอการิทึมที่เข้าใจง่ายกว่า ซึ่งบ่งชี้ว่า “ประหลาดใจ” กับผลลัพธ์มากน้อยเพียงใด[ 59 ] [ 60 ] [ 61 ]

ดูเพิ่มเติม

หมายเหตุ

  1. ^การใช้ตัวเอียง การใช้ตัวพิมพ์ใหญ่ และการใช้เครื่องหมายยัติภังค์ในคำนั้นแตกต่างกันไป ตัวอย่างเช่นรูปแบบ AMAใช้ " P value"รูปแบบ APAใช้ " p value" และสมาคมสถิติอเมริกันใช้ " p -value" ในทุกกรณี "p" หมายถึงความน่าจะเป็น [ 1 ]
  2. ^ความสำคัญทางสถิติของผลลัพธ์ไม่ได้หมายความว่าผลลัพธ์นั้นมีความเกี่ยวข้องกับโลกแห่งความเป็นจริงเสมอไป ตัวอย่างเช่น ยาชนิดหนึ่งอาจมีผลทางสถิติที่สำคัญ แต่มีขนาดเล็กเกินกว่าที่จะน่าสนใจ
  3. ^เพื่อให้เจาะจงมากขึ้น ค่า p = 0.05 สอดคล้องกับค่าเบี่ยงเบนมาตรฐานประมาณ 1.96 สำหรับการแจกแจงแบบปกติ (การทดสอบแบบสองด้าน) และค่าเบี่ยงเบนมาตรฐาน 2 สอดคล้องกับโอกาสประมาณ 1 ใน 22 ที่จะถูกเกินไปโดยบังเอิญ หรือ p ≈ 0.045; ฟิชเชอร์ได้บันทึกการประมาณค่าเหล่านี้ไว้

อ่านเพิ่มเติม

  • Denworth L (ตุลาคม 2019). "ปัญหาสำคัญ: วิธีการทางวิทยาศาสตร์มาตรฐานกำลังถูกวิพากษ์วิจารณ์ จะมีอะไรเปลี่ยนแปลงบ้างหรือไม่?" Scientific American . 321 (4): 62–67 (63). การใช้ค่าpเป็นเวลาเกือบศตวรรษ [ตั้งแต่ปี 1925] เพื่อกำหนดนัยสำคัญทางสถิติของ ผล การทดลองได้ก่อให้เกิดภาพลวงตาของความแน่นอนและวิกฤตการณ์การทำซ้ำได้ในหลายสาขาวิทยาศาสตร์มีความมุ่งมั่นเพิ่มมากขึ้นที่จะปฏิรูปการวิเคราะห์ทางสถิติ... นักวิจัยบางคนแนะนำให้เปลี่ยนวิธีการทางสถิติ ในขณะที่คนอื่นๆ จะยกเลิกเกณฑ์สำหรับการกำหนดผลลัพธ์ที่ "มีนัยสำคัญ"
  • Elderton WP (1902). "ตารางสำหรับการทดสอบความเหมาะสมของทฤษฎีกับการสังเกต" Biometrika . 1 ( 2): 155– 163. doi : 10.1093/biomet/1.2.155 .
  • เพียร์สัน, คาร์ล (1914). "เกี่ยวกับความน่าจะเป็นที่การแจกแจงความถี่อิสระสองแบบเป็นตัวอย่างของประชากรเดียวกัน โดยอ้างอิงถึงงานวิจัยล่าสุดเกี่ยวกับเอกลักษณ์ของสายพันธุ์ไทรพาโนโซม" Biometrika . 10 : 85– 154. doi : 10.1093/biomet/10.1.85 .
  • Fisher RA (1925). วิธีการทางสถิติสำหรับนักวิจัย . เอดินบะระ สก็อตแลนด์: Oliver & Boyd. ISBN 978-0-05-002170-5.{{cite book}}:ปัญหาความไม่เข้ากันของหมายเลข ISBN / วันที่ ( ขอความช่วยเหลือ )
  • Fisher RA (1971) [1935]. การออกแบบการทดลอง (ฉบับที่ 9). Macmillan. ISBN 978-0-02-844690-5.
  • Fisher RA, Yates F (1938). ตารางสถิติสำหรับการวิจัยทางชีววิทยา การเกษตร และการแพทย์ลอนดอน ประเทศอังกฤษ{{cite book}}: CS1 maint: ตำแหน่งไม่ชัดเจน ผู้เผยแพร่ ( ลิงก์ )
  • Stigler SM (1986). ประวัติศาสตร์ของสถิติ: การวัดความไม่แน่นอนก่อนปี 1900.เคมบริดจ์ แมสซาชูเซตส์: สำนักพิมพ์ Belknap แห่งมหาวิทยาลัยฮาร์วาร์ด. ISBN 978-0-674-40340-6.
  • Hubbard R, Armstrong JS (2006). "ทำไมเราจึงไม่รู้จริงๆ ว่านัยสำคัญทางสถิติหมายความว่าอย่างไร: ผลกระทบต่อนักการศึกษา" (PDF)วารสารการศึกษาการตลาด 28 ( 2): 114– 120. doi : 10.1177/0273475306288399 . hdl : 2092/413 . S2CID  34729227 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อวันที่ 18 พฤษภาคม 2549
  • Hubbard R, Lindsay RM (2008). "เหตุใด ค่า Pจึงไม่ใช่มาตรวัดหลักฐานที่มีประโยชน์ในการทดสอบนัยสำคัญทางสถิติ" (PDF) . ทฤษฎีและจิตวิทยา . 18 (1): 69– 88. doi : 10.1177/0959354307086923 . S2CID  143487211 . เก็บถาวรจากต้นฉบับ (PDF)เมื่อ 2016-10-21 . สืบค้นเมื่อ2015-08-28 .
  • Stigler S (ธันวาคม 2008). "Fisher และระดับ 5%" . Chance . 21 (4): 12. doi : 10.1007/s00144-008-0033-3 .
  • Dallal GE (2012). คู่มือฉบับย่อว่าด้วยการปฏิบัติทางสถิติ
  • Biau DJ, Jolles BM, Porcher R (มีนาคม 2010). "ค่า P และทฤษฎีการทดสอบสมมติฐาน: คำอธิบายสำหรับนักวิจัยใหม่" . Clinical Orthopaedics and Related Research . 468 (3): 885– 892. doi : 10.1007/s11999-009-1164-4 . PMC  2816758 . PMID  19921345 .
  • Reinhart A (2015). สถิติที่ทำผิดพลาด: คู่มือฉบับสมบูรณ์ที่น่าเศร้า . สำนักพิมพ์ No Starch . หน้า 176. ISBN 978-1-59327-620-1.
  • Benjamini, Yoav ; De Veaux, Richard D.; Efron, Bradley ; Evans, Scott; Glickman, Mark; Graubard, Barry I.; He, Xuming; Meng, Xiao-Li ; Reid, Nancy ; Stigler, Stephen M. ; Vardeman, Stephen B.; Wikle, Christopher K.; Wright, Tommy; Young, Linda J.; Kafadar, Karen (2021). "แถลงการณ์ของคณะทำงานของประธาน ASA เกี่ยวกับนัยสำคัญทางสถิติและความสามารถในการทำซ้ำ" . Annals of Applied Statistics . 15 (3): 1084– 1085. doi : 10.1214/21-AOAS1501 .
  • เบนจามิน, แดเนียล เจ.; เบอร์เกอร์, เจมส์ โอ.; โยฮันเนสสัน, แม็กนัส; โนเซก, ไบรอัน เอ.; วาเกนเมเกอร์ส, อี.-เจ.; เบิร์ก, ริชาร์ด; โบเลน, เคนเนธ เอ.; เบร็มส์, บียอร์น; บราวน์, ลอว์เรนซ์; คาเมเรอร์, โคลิน; เซซารินี, เดวิด; แชมเบอร์ส, คริสโตเฟอร์ ดี.; ไคลด์, เมอร์ลิส; คุก, โทมัส ดี.; เดอ โบเอ็ค, พอล; ไดเนส, โซลตัน; เดรเบอร์, แอนนา; อีสวารัน, เคนนี; เอฟเฟอร์สัน, ชาร์ลส์; เฟอร์, เอิร์นสต์; ฟิดเลอร์, ฟิโอนา; ฟิลด์, แอนดี้ พี.; ฟอร์สเตอร์, มัลคอล์ม; จอร์จ, เอ็ดเวิร์ด ไอ.; กอนซาเลซ, ริชาร์ด; กู๊ดแมน, สตีเวน; กรีน, เอ็ดวิน; กรีน, โดนัลด์ พี.; กรีนวาลด์, แอนโทนี จี.; แฮดฟิลด์, จาร์รอด ดี.; เฮดจ์ส, แลร์รี วี.; เฮลด์, เลออนฮาร์ด; ฮัว โฮ, เทค; ฮอยทิงค์, เฮอร์เบิร์ต; ฮรุชกา, แดเนียล เจ.; อิมาอิ, โคสุเกะ; อิมเบนส์, กุยโด; อิโออันนิดิส, จอห์น พี.เอ.; จอน, มินจอง; โจนส์, เจมส์ ฮอลแลนด์; เคิร์ชเลอร์, ไมเคิล; ไลบ์สัน, เดวิด; ลิสต์, จอห์น; ลิตเติ้ล ร็อดเดอริก; ลูเปีย, อาเธอร์; มาเชอรี, เอดูอาร์ด; แม็กซ์เวลล์, สก็อตต์ อี.; แม็กคาร์ธี, ไมเคิล; มัวร์ ดอน เอ.; มอร์แกน, สตีเฟน แอล.; มูนาโฟ, มาร์คัส; นาคากาวะ, ชินิจิ; ไนฮาน, เบรนแดน; ปาร์คเกอร์, ทิโมธี เอช.; เปริชี่, หลุยส์; เปรูจินี, มาร์โก; เราเดอร์, เจฟฟ์; รุสโซ, จูดิธ; ซาวาเล, วิกตอเรีย; เชินบร็อดท์, เฟลิกซ์ ดี.; เซลเค, โธมัส; ซินแคลร์, เบ็ตซี่; ทิงลีย์, ดัสติน; แวน แซนด์, ทริชา; วาซิเร, ซิมิเน; วัตต์ ดันแคน เจ.; วินชิป, คริสโตเฟอร์; โวลเพิร์ต, โรเบิร์ต แอล.; เซี่ย หยู; หนุ่มคริสโตบัล; Zinman, Jonathan; Johnson, Valen E. (1 กันยายน 2017). "กำหนดนิยามใหม่ของนัยสำคัญทางสถิติ" Nature Human Behaviour . 2 (1): 6– 10. doi : 10.1038/s41562-017-0189-z . eISSN  2397-3374 . hdl : 10281/184094 . PMID  30980045 . S2CID  256726352 .
  • เครื่องมือคำนวณค่าpออนไลน์ฟรีสำหรับการทดสอบเฉพาะต่างๆ (เช่น การทดสอบไคสแควร์, การทดสอบ F ของฟิชเชอร์ เป็นต้น)
  • ทำความเข้าใจค่าpรวมถึงแอปเพล็ต Java ที่แสดงให้เห็นว่าค่าตัวเลขของ ค่า pสามารถทำให้เกิดความเข้าใจผิดเกี่ยวกับความจริงหรือความเท็จของสมมติฐานที่กำลังทดสอบได้ อย่างไร
  • StatQuest: ค่า P อธิบายอย่างชัดเจนบน YouTube
  • StatQuest: ข้อผิดพลาดเกี่ยวกับค่า P และการคำนวณกำลังการทดสอบบน YouTube
  • วิทยาศาสตร์ไม่ได้ผิดพลาด - บทความเกี่ยวกับวิธี การจัดการค่า pและเครื่องมือแบบโต้ตอบเพื่อแสดงภาพผลลัพธ์
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=P-value&oldid=1360715705 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ค่า p

ใน การทดสอบนัยสำคัญของสมมติฐานว่าง ค่า p [ หมายเหตุ 1 ] คือ ความ น่าจะ เป็นที่จะได้ผลการทดสอบที่รุนแรงอย่างน้อยเท่ากับ ผลลัพธ์ที่สังเกตได้จริง ภายใต้สมมติฐานว่า สมมติฐานว่าง...

แนวคิดพื้นฐาน

ในทางสถิติ ข้อสันนิษฐานทุกอย่างเกี่ยวกับความน่าจะเป็นที่ไม่ทราบ ค่าของการแจกแจง ของกลุ่ม ตัวแปรสุ่ม ที่แสดงถึงข้อมูลที่สังเกตได้ในการศึกษาบางอย่าง เรียกว่า สมมติฐานทางสถิติ ถ้าเราตั้งสมมติฐานเพียงข้อเดียว...

คำนิยาม

ค่า p คือความน่าจะเป็นภายใต้สมมติฐานว่างของการได้ค่าสถิติการทดสอบที่เป็นจำนวนจริงที่มีค่าอย่างน้อยที่สุดสุดขั้วเท่ากับค่าที่ได้ พิจารณาค่าสถิติการทดสอบที่สังเกตได้จาก1การแจกแจงที่ไม่ทราบค่าดังนั้นค่า p...

การตีความ

ข้อผิดพลาดที่นักสถิติผู้ปฏิบัติงานจะพิจารณาว่าสำคัญที่สุดที่จะต้องหลีกเลี่ยง (ซึ่งเป็นการตัดสินใจตามความรู้สึกส่วนตัว) เรียกว่า ข้อผิดพลาดประเภทที่หนึ่ง...