อ่าน 7 นาที
สถิติการประมาณค่า
สถิติการประมาณค่า หรือเรียกง่ายๆ ว่า การประมาณค่า คือกรอบการวิเคราะห์ข้อมูลที่ใช้การผสมผสานระหว่าง ขนาดผลกระทบ ช่วง ความเชื่อ มั่น การวางแผนที่แม่นยำ และ การวิเคราะห์เชิงอภิมาน...
สถิติการประมาณค่า
สถิติการประมาณค่าหรือเรียกง่ายๆ ว่าการประมาณค่าคือกรอบการวิเคราะห์ข้อมูลที่ใช้การผสมผสานระหว่างขนาดผลกระทบช่วงความเชื่อมั่น การวางแผนที่แม่นยำ และการวิเคราะห์เชิงอภิมานเพื่อวางแผนการทดลอง วิเคราะห์ข้อมูล และตีความผลลัพธ์[ 1 ] สถิติการประมาณค่า ช่วยเสริมวิธีการทดสอบสมมติฐาน เช่นการทดสอบนัยสำคัญของสมมติฐานว่าง (NHST) โดยก้าวข้ามคำถามที่ว่ามีผลกระทบอยู่หรือไม่ และให้ข้อมูลเกี่ยวกับขนาดของผลกระทบ[ 2 ] [ 3 ]บางครั้งสถิติการประมาณค่าก็ถูกเรียกว่าสถิติใหม่[ 3 ] [ 4 ] [ 5 ]
จุดประสงค์หลักของวิธีการประมาณค่าคือการรายงานขนาดผลกระทบ ( ค่าประมาณจุด ) พร้อมกับช่วงความเชื่อมั่นซึ่งช่วงความเชื่อมั่นนี้เกี่ยวข้องกับความแม่นยำของการประมาณค่า[ 6 ]ช่วงความเชื่อมั่นจะสรุปช่วงของค่าที่เป็นไปได้ของผลกระทบประชากรพื้นฐาน ผู้สนับสนุนการประมาณค่ามองว่าการรายงานค่าPเป็นการเบี่ยงเบนความสนใจที่ไม่เป็นประโยชน์จากเรื่องสำคัญของการรายงานขนาดผลกระทบพร้อมกับช่วงความเชื่อมั่น[ 7 ]และเชื่อว่าการประมาณค่าควรเข้ามาแทนที่การทดสอบนัยสำคัญสำหรับการวิเคราะห์ข้อมูล[ 8 ] [ 9 ]
ประวัติศาสตร์
นับตั้งแต่ปี 1929 นักฟิสิกส์Raymond Thayer Birgeได้ตีพิมพ์บทความวิจารณ์[ 10 ]ซึ่งเขาใช้วิธีค่าเฉลี่ยถ่วงน้ำหนักในการคำนวณค่าประมาณของค่าคงที่ทางฟิสิกส์ ซึ่งเป็นกระบวนการที่ถือได้ว่าเป็นต้นแบบของการวิเคราะห์เมตาแบบ สมัยใหม่ [ 11 ]
ในช่วงทศวรรษ 1930 Jerzy Neymanได้ตีพิมพ์บทความชุดหนึ่งเกี่ยวกับการประมาณค่าทางสถิติ โดยเขาได้กำหนดคณิตศาสตร์และศัพท์เฉพาะของช่วงความเชื่อมั่น [ 12 ] [ 13 ] [ 14 ]
ในทศวรรษ 1960 สถิติการประมาณค่าได้รับการนำมาใช้ในวิทยาศาสตร์ที่ไม่ใช่ฟิสิกส์ โดยเริ่มจากการพัฒนาขนาดผลกระทบมาตรฐานโดยเจคอบ โคเฮน
ในทศวรรษ 1970 Gene V. Glassได้ริเริ่มการสังเคราะห์งานวิจัยสมัยใหม่ด้วยการทบทวนอย่างเป็นระบบและการวิเคราะห์เชิงเมตา ครั้งแรก สำหรับจิตบำบัด[ 15 ]งานบุกเบิกนี้ต่อมามีอิทธิพลต่อการนำการวิเคราะห์เชิงเมตามาใช้ในการรักษาทางการแพทย์โดยทั่วไป
ในช่วงทศวรรษ 1980 และ 1990 วิธีการประมาณค่าได้รับการขยายและปรับปรุงเพื่อการประยุกต์ใช้ในทางปฏิบัติโดยนักสถิติชีวภาพหลายท่าน รวมถึงLarry Hedges , Michael Borenstein, Doug Altman , Martin Gardner และอีกมากมาย ด้วยการพัฒนา วิธีการวิเคราะห์เมตา (ทางการแพทย์) สมัยใหม่
ตั้งแต่ทศวรรษ 1980 เป็นต้นมาการทบทวนอย่างเป็นระบบซึ่งใช้ร่วมกับการวิเคราะห์เมตา ได้กลายเป็นเทคนิคที่ใช้กันอย่างแพร่หลายในการวิจัยทางการแพทย์ มีการอ้างอิง ถึง "การวิเคราะห์เมตา" มากกว่า 200,000 ครั้ง ในPubMed
ในช่วงทศวรรษ 1990 บรรณาธิการKenneth Rothmanได้สั่งห้ามการใช้ค่า p ในวารสารEpidemiologyแม้ว่าจะมีผู้เขียนจำนวนมากปฏิบัติตาม แต่ก็ไม่ได้เปลี่ยนแปลงความคิดเชิงวิเคราะห์ของพวกเขาอย่างมีนัยสำคัญ[ 16 ]
ในช่วงทศวรรษ 2010 Geoff Cumming ได้ตีพิมพ์ตำราเรียนที่อุทิศให้กับสถิติการประมาณค่า พร้อมด้วยซอฟต์แวร์ใน Excel ที่ออกแบบมาเพื่อสอนการคิดเกี่ยวกับขนาดผลกระทบ โดยส่วนใหญ่ให้กับนักจิตวิทยา[ 17 ]นอกจากนี้ ในช่วงทศวรรษ 2010 วิธีการประมาณค่ายังถูกนำมาใช้ในสาขาวิทยาศาสตร์ประสาทมากขึ้น[ 18 ] [ 19 ]
ในปี 2013 คู่มือการตีพิมพ์ของสมาคมจิตวิทยาอเมริกันแนะนำให้ใช้การประมาณค่าควบคู่ไปกับการทดสอบสมมติฐาน[ 20 ]นอกจากนี้ ในปี 2013 เอกสารข้อกำหนดมาตรฐานสำหรับการส่งต้นฉบับไปยังวารสารทางการแพทย์ชีวภาพได้ให้คำแนะนำที่คล้ายกันว่า "ควรหลีกเลี่ยงการพึ่งพาการทดสอบสมมติฐานทางสถิติเพียงอย่างเดียว เช่น ค่า P ซึ่งไม่สามารถถ่ายทอดข้อมูลสำคัญเกี่ยวกับขนาดของผลกระทบได้" [ 21 ]
ในปี 2019 นักวิทยาศาสตร์กว่า 800 คนได้ลงนามในความเห็นเปิดเรียกร้องให้ยกเลิกแนวคิดเรื่องนัยสำคัญทางสถิติทั้งหมด[ 22 ]
ในปี 2019 วารสารeNeuro ของสมาคมประสาทวิทยาศาสตร์ได้กำหนดนโยบายแนะนำให้ใช้กราฟการประมาณค่าเป็นวิธีการนำเสนอข้อมูลที่ต้องการ[ 23 ] และในปี 2022 บรรณาธิการวารสารของสมาคมกายภาพบำบัดระหว่างประเทศแนะนำให้ใช้วิธีการประมาณค่าแทนการทดสอบทางสถิติสมมติฐานว่าง[ 24 ]
แม้ว่าการวิเคราะห์เมตาจะได้รับการยอมรับอย่างกว้างขวางสำหรับการวิจัยทางคลินิก และได้รับการแนะนำจากสถาบันตีพิมพ์หลักหลายแห่ง แต่กรอบการประเมินนี้ก็ไม่ได้ถูกนำมาใช้เป็นประจำในการวิจัยชีวการแพทย์ขั้นต้น[ 25 ]
ระเบียบวิธีวิจัย
การทดสอบความสำคัญหลายอย่างมีคู่เทียบในการประมาณค่า[ 26 ]ในเกือบทุกกรณี ผลการทดสอบ (หรือค่า p ของมัน ) สามารถแทนที่ด้วยขนาดผลกระทบและการประมาณความแม่นยำได้ง่ายๆ ตัวอย่างเช่น แทนที่จะใช้การทดสอบ t ของนักเรียนนักวิเคราะห์สามารถเปรียบเทียบสองกลุ่มอิสระโดยการคำนวณความแตกต่างของค่าเฉลี่ยและช่วงความเชื่อ มั่น 95% วิธีการที่สอดคล้องกันสามารถใช้สำหรับการทดสอบ t แบบจับคู่และการเปรียบเทียบหลายรายการ ในทำนองเดียวกัน สำหรับการวิเคราะห์การถดถอย นักวิเคราะห์จะรายงานค่าสัมประสิทธิ์การกำหนด (R² )และสมการแบบจำลองแทนค่า p ของแบบจำลอง
อย่างไรก็ตาม ผู้สนับสนุนสถิติการประมาณเตือนไม่ให้รายงานเพียงตัวเลขไม่กี่ตัว แต่ควรวิเคราะห์และนำเสนอข้อมูลโดยใช้การแสดงภาพข้อมูล[ 2 ] [ 5 ] [ 6 ]ตัวอย่างของการแสดงภาพที่เหมาะสม ได้แก่แผนภาพกระจายสำหรับการถดถอย และแผนภาพ Gardner–Altman สำหรับสองกลุ่มอิสระ[ 27 ]ในขณะที่แผนภาพกลุ่มข้อมูลในอดีต (แผนภูมิแท่ง แผนภาพกล่อง และแผนภาพไวโอลิน) ไม่แสดงการเปรียบเทียบ แผนภาพการประมาณจะเพิ่มแกนที่สองเพื่อแสดงขนาดผลกระทบอย่างชัดเจน[ 28 ]

พล็อตการ์ดเนอร์-อัลท์แมน
แผนภูมิความแตกต่างเฉลี่ยของ Gardner–Altman ได้รับการอธิบายครั้งแรกโดยMartin GardnerและDoug Altmanในปี 1986 [ 27 ]เป็นกราฟทางสถิติที่ออกแบบมาเพื่อแสดงข้อมูลจากสองกลุ่มอิสระ[ 5 ]นอกจากนี้ยังมีเวอร์ชันที่เหมาะสมสำหรับข้อมูลแบบจับคู่คำแนะนำหลักในการสร้างแผนภูมินี้มีดังนี้: (1) แสดงค่าที่สังเกตได้ทั้งหมดสำหรับทั้งสองกลุ่มเคียงข้างกัน (2) วางแกนที่สองทางด้านขวา เลื่อนเพื่อแสดงมาตราส่วนความแตกต่างเฉลี่ย และ (3) พล็อตความแตกต่างเฉลี่ยพร้อมช่วงความเชื่อมั่นเป็นเครื่องหมายพร้อมแถบข้อผิดพลาด[ 3 ]สามารถสร้างแผนภูมิ Gardner-Altman ได้ด้วยDABEST-Pythonหรือdabestrหรือนักวิเคราะห์สามารถใช้ซอฟต์แวร์ GUI เช่นแอป Estimation Stats ได้

พล็อตคัมมิง
สำหรับกลุ่มหลายกลุ่มGeoff Cummingได้แนะนำการใช้แผงรองเพื่อพล็อตความแตกต่างของค่าเฉลี่ยสองค่าขึ้นไปและช่วงความเชื่อมั่น โดยวางไว้ด้านล่างแผงค่าที่สังเกตได้[ 3 ]การจัดเรียงนี้ช่วยให้สามารถเปรียบเทียบความแตกต่างของค่าเฉลี่ย ('เดลต้า') ระหว่างกลุ่มข้อมูลหลายกลุ่มได้อย่างง่ายดาย สามารถสร้างพล็อต Cumming ได้โดยใช้แพ็คเกจ ESCI , DABESTหรือแอป Estimation Stats
วิธีการอื่นๆ
นอกเหนือจากความแตกต่างเฉลี่ยแล้ว ยังมีขนาดผลกระทบประเภทอื่นๆ อีกมากมาย ซึ่งแต่ละประเภทก็มีข้อดีแตกต่างกันไป ประเภทหลักๆ ได้แก่ ขนาดผลกระทบใน กลุ่มเมตริกมาตรฐาน Cohen's dและสัมประสิทธิ์การกำหนด (R² )สำหรับการวิเคราะห์การถดถอยสำหรับการแจกแจงที่ไม่เป็นปกติ ยังมีขนาดผลกระทบที่แข็งแกร่ง กว่าอีกหลายแบบ รวมถึงCliff's deltaและสถิติ Kolmogorov- Smirnov
ข้อบกพร่องในการทดสอบสมมติฐาน
ในการทดสอบสมมติฐานวัตถุประสงค์หลักของการคำนวณทางสถิติคือการหาค่า pซึ่งเป็นความน่าจะเป็นของการเห็นผลลัพธ์ที่ได้รับ หรือผลลัพธ์ที่รุนแรงกว่า เมื่อสมมติว่าสมมติฐานว่างเป็นจริง หากค่า p ต่ำ (โดยปกติ < 0.05) ผู้ปฏิบัติงานทางสถิติจะได้รับการสนับสนุนให้ปฏิเสธสมมติฐานว่าง ผู้สนับสนุนการประมาณค่าปฏิเสธความถูกต้องของการทดสอบสมมติฐาน[ 3 ] [ 6 ]ด้วยเหตุผลดังต่อไปนี้ เป็นต้น:
- ค่า p มักถูกตีความผิดได้ง่ายและบ่อยครั้ง ตัวอย่างเช่น หลายคนเข้าใจผิดคิดว่าค่า p คือ 'ความน่าจะเป็นที่สมมติฐานว่างเป็นจริง'
- สมมติฐานว่างผิดเสมอสำหรับทุกชุดการสังเกต: มีผลกระทบอยู่เสมอ แม้ว่าจะเล็กน้อยก็ตาม[ 29 ]
- การทดสอบสมมติฐานให้คำตอบแบบใช่หรือไม่ใช่แบบสองทาง ในขณะที่ละทิ้งข้อมูลสำคัญเกี่ยวกับขนาด[ 30 ]
- ค่า p-value ใดๆ เกิดขึ้นจากปฏิสัมพันธ์ของขนาดผลกระทบขนาดตัวอย่าง (โดยทั่วไปแล้ว ขนาดตัวอย่างที่ใหญ่กว่าจะทำให้ค่า p-value เล็กกว่า) และข้อผิดพลาดในการสุ่มตัวอย่าง[ 31 ]
- การจำลองที่ กำลังต่ำเผยให้เห็นว่าข้อผิดพลาดในการสุ่มตัวอย่างทำให้ค่า p มีความผันผวนอย่างมาก[ 32 ]
ประโยชน์ของสถิติการประมาณค่า
การวัดปริมาณ
ในขณะที่ค่า p เน้นคำตอบใช่/ไม่ใช่ การประมาณค่าจะดึงความสนใจของนักวิเคราะห์ไปที่การหาปริมาณ
ข้อดีของช่วงความเชื่อมั่น
ช่วงความเชื่อมั่นมีพฤติกรรมที่คาดเดาได้ ตามคำจำกัดความ ช่วงความเชื่อมั่น 95% มีโอกาส 95% ที่จะครอบคลุมค่าเฉลี่ยประชากรพื้นฐาน (μ) คุณลักษณะนี้ยังคงคงที่แม้ขนาดตัวอย่างจะเพิ่มขึ้น สิ่งที่เปลี่ยนแปลงคือช่วงจะเล็กลง นอกจากนี้ ช่วงความเชื่อมั่น 95% ยังเป็นช่วงการทำนาย 83% อีกด้วย กล่าวคือ ช่วงความเชื่อมั่นหนึ่งช่วง (ก่อนการทดลอง) มีโอกาส 83% ที่จะครอบคลุมค่าเฉลี่ยของการทดลองในอนาคต[ 3 ]ด้วยเหตุนี้ การทราบช่วงความเชื่อมั่น 95% ของการทดลองเพียงครั้งเดียวจะทำให้นักวิเคราะห์มีช่วงที่เหมาะสมสำหรับค่าเฉลี่ยประชากร อย่างไรก็ตาม การแจกแจงความเชื่อมั่นและการแจกแจงภายหลังให้ข้อมูลมากกว่าการประมาณค่าจุดเดียวหรือช่วง[ 33 ]ซึ่งอาจทำให้ความคิดแบบแบ่งขั้วรุนแรงขึ้นตามช่วงที่ครอบคลุมหรือไม่ครอบคลุมค่า "ว่าง" ที่สนใจ (เช่น พฤติกรรมอุปนัยของ Neyman ตรงข้ามกับของ Fisher [ 34 ] )
สถิติเชิงประจักษ์
การศึกษาทางจิตวิทยาเกี่ยวกับการรับรู้สถิติเผยให้เห็นว่าการรายงานค่าประมาณช่วงทำให้การรับรู้ข้อมูลมีความแม่นยำมากกว่าการรายงานค่า p [ 35 ]
การวางแผนอย่างแม่นยำ
ความแม่นยำของการประมาณค่าถูกกำหนดอย่างเป็นทางการเป็น 1/ ความแปรปรวนและเช่นเดียวกับกำลังทางสถิติ ความแม่นยำจะเพิ่มขึ้น (ดีขึ้น) เมื่อขนาดตัวอย่างเพิ่มขึ้น เช่นเดียวกับกำลังทางสถิติ ความแม่นยำสูงมีค่าใช้จ่ายสูง การขอรับทุนวิจัยควรมีการวิเคราะห์ความแม่นยำ/ต้นทุนด้วย ผู้สนับสนุนการประมาณค่าเชื่อว่าการวางแผนความแม่นยำควรเข้ามาแทนที่กำลังทางสถิติ เนื่องจากกำลังทางสถิติเองนั้นเชื่อมโยงกับการทดสอบนัยสำคัญทางสถิติ[ 3 ]การวางแผนความแม่นยำสามารถทำได้ด้วยแอปพลิเคชันเว็บ ESCI
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ สถิติการประมาณค่า
สถิติการประมาณค่า หรือเรียกง่ายๆ ว่า การประมาณค่า คือกรอบการวิเคราะห์ข้อมูลที่ใช้การผสมผสานระหว่าง ขนาดผลกระทบ ช่วง ความเชื่อ มั่น การวางแผนที่แม่นยำ และ การวิเคราะห์เชิงอภิมาน...
ประวัติศาสตร์
นับตั้งแต่ปี 1929 นักฟิสิกส์ Raymond Thayer Birge ได้ตีพิมพ์บทความวิจารณ์ [ 10 ] ซึ่งเขาใช้วิธีค่าเฉลี่ยถ่วงน้ำหนักในการคำนวณค่าประมาณของค่าคงที่ทางฟิสิกส์ ซึ่งเป็นกระบวนการที่ถือได้ว่าเป็นต้นแบบของ การวิเคราะห์เมตา แบบ สมัยใหม่ [ 11 ]
ระเบียบวิธีวิจัย
การทดสอบความสำคัญหลายอย่างมีคู่เทียบในการประมาณค่า [ 26 ] ในเกือบทุกกรณี ผลการทดสอบ (หรือ ค่า p ของมัน ) สามารถแทนที่ด้วยขนาดผลกระทบและการประมาณความแม่นยำได้ง่ายๆ ตัวอย่างเช่น แทนที่จะใช้ การทดสอบ t ของนักเรียน...
พล็อตการ์ดเนอร์-อัลท์แมน
แผนภูมิความแตกต่างเฉลี่ยของ Gardner–Altman ได้รับการอธิบายครั้งแรกโดย Martin Gardner และ Doug Altman ในปี 1986 [ 27 ] เป็นกราฟทางสถิติที่ออกแบบมาเพื่อแสดงข้อมูลจากสองกลุ่มอิสระ [ 5 ]...