สถิติการประมาณค่า

Q: ประวัติศาสตร์

นับตั้งแต่ปี 1929 นักฟิสิกส์ Raymond Thayer Birge ได้ตีพิมพ์บทความวิจารณ์ [ 10 ] ซึ่งเขาใช้วิธีค่าเฉลี่ยถ่วงน้ำหนักในการคำนวณค่าประมาณของค่าคงที่ทางฟิสิกส์ ซึ่งเป็นกระบวนการที่ถือได้ว่าเป็นต้นแบบของ การวิเคราะห์เมตา แบบ สมัยใหม่ [ 11 ]

สถิติการประมาณค่าหรือเรียกง่ายๆ ว่าการประมาณค่าคือกรอบการวิเคราะห์ข้อมูลที่ใช้การผสมผสานระหว่างขนาดผลกระทบช่วงความเชื่อมั่น การวางแผนที่แม่นยำ และการวิเคราะห์เชิงอภิมานเพื่อวางแผนการทดลอง วิเคราะห์ข้อมูล และตีความผลลัพธ์^{[ 1 ]} สถิติการประมาณค่า ช่วยเสริมวิธีการทดสอบสมมติฐาน เช่นการทดสอบนัยสำคัญของสมมติฐานว่าง (NHST) โดยก้าวข้ามคำถามที่ว่ามีผลกระทบอยู่หรือไม่ และให้ข้อมูลเกี่ยวกับขนาดของผลกระทบ^{[ 2 ]}^{[ 3 ]}บางครั้งสถิติการประมาณค่าก็ถูกเรียกว่าสถิติใหม่^{[ 3 ]}^{[ 4 ]}^{[ 5 ]}

จุดประสงค์หลักของวิธีการประมาณค่าคือการรายงานขนาดผลกระทบ ( ค่าประมาณจุด ) พร้อมกับช่วงความเชื่อมั่นซึ่งช่วงความเชื่อมั่นนี้เกี่ยวข้องกับความแม่นยำของการประมาณค่า^{[ 6 ]}ช่วงความเชื่อมั่นจะสรุปช่วงของค่าที่เป็นไปได้ของผลกระทบประชากรพื้นฐาน ผู้สนับสนุนการประมาณค่ามองว่าการรายงานค่า Pเป็นการเบี่ยงเบนความสนใจที่ไม่เป็นประโยชน์จากเรื่องสำคัญของการรายงานขนาดผลกระทบพร้อมกับช่วงความเชื่อมั่น^{[ 7 ]}และเชื่อว่าการประมาณค่าควรเข้ามาแทนที่การทดสอบนัยสำคัญสำหรับการวิเคราะห์ข้อมูล^{[ 8 ]}^{[ 9 ]}

ประวัติศาสตร์

นับตั้งแต่ปี 1929 นักฟิสิกส์Raymond Thayer Birgeได้ตีพิมพ์บทความวิจารณ์^{[ 10 ]}ซึ่งเขาใช้วิธีค่าเฉลี่ยถ่วงน้ำหนักในการคำนวณค่าประมาณของค่าคงที่ทางฟิสิกส์ ซึ่งเป็นกระบวนการที่ถือได้ว่าเป็นต้นแบบของการวิเคราะห์เมตาแบบ สมัยใหม่ ^{[ 11 ]}

ในช่วงทศวรรษ 1930 Jerzy Neymanได้ตีพิมพ์บทความชุดหนึ่งเกี่ยวกับการประมาณค่าทางสถิติ โดยเขาได้กำหนดคณิตศาสตร์และศัพท์เฉพาะของช่วงความเชื่อมั่น ^{[ 12 ]}^{[ 13 ]}^{[ 14 ]}

ในทศวรรษ 1960 สถิติการประมาณค่าได้รับการนำมาใช้ในวิทยาศาสตร์ที่ไม่ใช่ฟิสิกส์ โดยเริ่มจากการพัฒนาขนาดผลกระทบมาตรฐานโดยเจคอบ โคเฮน

ในทศวรรษ 1970 Gene V. Glassได้ริเริ่มการสังเคราะห์งานวิจัยสมัยใหม่ด้วยการทบทวนอย่างเป็นระบบและการวิเคราะห์เชิงเมตา ครั้งแรก สำหรับจิตบำบัด^{[ 15 ]}งานบุกเบิกนี้ต่อมามีอิทธิพลต่อการนำการวิเคราะห์เชิงเมตามาใช้ในการรักษาทางการแพทย์โดยทั่วไป

ในช่วงทศวรรษ 1980 และ 1990 วิธีการประมาณค่าได้รับการขยายและปรับปรุงเพื่อการประยุกต์ใช้ในทางปฏิบัติโดยนักสถิติชีวภาพหลายท่าน รวมถึงLarry Hedges , Michael Borenstein, Doug Altman , Martin Gardner และอีกมากมาย ด้วยการพัฒนา วิธีการวิเคราะห์เมตา (ทางการแพทย์) สมัยใหม่

ตั้งแต่ทศวรรษ 1980 เป็นต้นมาการทบทวนอย่างเป็นระบบซึ่งใช้ร่วมกับการวิเคราะห์เมตา ได้กลายเป็นเทคนิคที่ใช้กันอย่างแพร่หลายในการวิจัยทางการแพทย์ มีการอ้างอิง ถึง "การวิเคราะห์เมตา" มากกว่า 200,000 ครั้ง ในPubMed

ในช่วงทศวรรษ 1990 บรรณาธิการKenneth Rothmanได้สั่งห้ามการใช้ค่า p ในวารสารEpidemiologyแม้ว่าจะมีผู้เขียนจำนวนมากปฏิบัติตาม แต่ก็ไม่ได้เปลี่ยนแปลงความคิดเชิงวิเคราะห์ของพวกเขาอย่างมีนัยสำคัญ^{[ 16 ]}

ในช่วงทศวรรษ 2010 Geoff Cumming ได้ตีพิมพ์ตำราเรียนที่อุทิศให้กับสถิติการประมาณค่า พร้อมด้วยซอฟต์แวร์ใน Excel ที่ออกแบบมาเพื่อสอนการคิดเกี่ยวกับขนาดผลกระทบ โดยส่วนใหญ่ให้กับนักจิตวิทยา^{[ 17 ]}นอกจากนี้ ในช่วงทศวรรษ 2010 วิธีการประมาณค่ายังถูกนำมาใช้ในสาขาวิทยาศาสตร์ประสาทมากขึ้น^{[ 18 ]}^{[ 19 ]}

ในปี 2013 คู่มือการตีพิมพ์ของสมาคมจิตวิทยาอเมริกันแนะนำให้ใช้การประมาณค่าควบคู่ไปกับการทดสอบสมมติฐาน^{[ 20 ]}นอกจากนี้ ในปี 2013 เอกสารข้อกำหนดมาตรฐานสำหรับการส่งต้นฉบับไปยังวารสารทางการแพทย์ชีวภาพได้ให้คำแนะนำที่คล้ายกันว่า "ควรหลีกเลี่ยงการพึ่งพาการทดสอบสมมติฐานทางสถิติเพียงอย่างเดียว เช่น ค่า P ซึ่งไม่สามารถถ่ายทอดข้อมูลสำคัญเกี่ยวกับขนาดของผลกระทบได้" ^{[ 21 ]}

ในปี 2019 นักวิทยาศาสตร์กว่า 800 คนได้ลงนามในความเห็นเปิดเรียกร้องให้ยกเลิกแนวคิดเรื่องนัยสำคัญทางสถิติทั้งหมด^{[ 22 ]}

ในปี 2019 วารสารeNeuro ของสมาคมประสาทวิทยาศาสตร์ได้กำหนดนโยบายแนะนำให้ใช้กราฟการประมาณค่าเป็นวิธีการนำเสนอข้อมูลที่ต้องการ^[²³^] และในปี 2022 บรรณาธิการวารสารของสมาคมกายภาพบำบัดระหว่างประเทศแนะนำให้ใช้วิธีการประมาณค่าแทนการทดสอบทางสถิติสมมติฐานว่าง^[²⁴^]

แม้ว่าการวิเคราะห์เมตาจะได้รับการยอมรับอย่างกว้างขวางสำหรับการวิจัยทางคลินิก และได้รับการแนะนำจากสถาบันตีพิมพ์หลักหลายแห่ง แต่กรอบการประเมินนี้ก็ไม่ได้ถูกนำมาใช้เป็นประจำในการวิจัยชีวการแพทย์ขั้นต้น^{[ 25 ]}

ระเบียบวิธีวิจัย

การทดสอบความสำคัญหลายอย่างมีคู่เทียบในการประมาณค่า^{[ 26 ]}ในเกือบทุกกรณี ผลการทดสอบ (หรือค่า p ของมัน ) สามารถแทนที่ด้วยขนาดผลกระทบและการประมาณความแม่นยำได้ง่ายๆ ตัวอย่างเช่น แทนที่จะใช้การทดสอบ t ของนักเรียนนักวิเคราะห์สามารถเปรียบเทียบสองกลุ่มอิสระโดยการคำนวณความแตกต่างของค่าเฉลี่ยและช่วงความเชื่อ มั่น 95% วิธีการที่สอดคล้องกันสามารถใช้สำหรับการทดสอบ t แบบจับคู่และการเปรียบเทียบหลายรายการ ในทำนองเดียวกัน สำหรับการวิเคราะห์การถดถอย นักวิเคราะห์จะรายงานค่าสัมประสิทธิ์การกำหนด (R² ⁾และสมการแบบจำลองแทนค่า p ของแบบจำลอง

อย่างไรก็ตาม ผู้สนับสนุนสถิติการประมาณเตือนไม่ให้รายงานเพียงตัวเลขไม่กี่ตัว แต่ควรวิเคราะห์และนำเสนอข้อมูลโดยใช้การแสดงภาพข้อมูล^{[ 2 ]}^{[ 5 ]}^{[ 6 ]}ตัวอย่างของการแสดงภาพที่เหมาะสม ได้แก่แผนภาพกระจายสำหรับการถดถอย และแผนภาพ Gardner–Altman สำหรับสองกลุ่มอิสระ^{[ 27 ]}ในขณะที่แผนภาพกลุ่มข้อมูลในอดีต (แผนภูมิแท่ง แผนภาพกล่อง และแผนภาพไวโอลิน) ไม่แสดงการเปรียบเทียบ แผนภาพการประมาณจะเพิ่มแกนที่สองเพื่อแสดงขนาดผลกระทบอย่างชัดเจน^{[ 28 ]}

**แผนภูมิการ์ดเนอร์-อัลท์แมน ด้านซ้าย:**แผนภูมิแท่งแบบดั้งเดิม โดยใช้เครื่องหมายดอกจันเพื่อแสดงว่าความแตกต่างนั้น 'มีนัยสำคัญทางสถิติ' **ด้านขวา:**แผนภูมิการ์ดเนอร์-อัลท์แมนที่แสดงจุดข้อมูลทั้งหมด พร้อมด้วยค่าเฉลี่ยของความแตกต่างและช่วงความเชื่อมั่น

พล็อตการ์ดเนอร์-อัลท์แมน

แผนภูมิความแตกต่างเฉลี่ยของ Gardner–Altman ได้รับการอธิบายครั้งแรกโดยMartin GardnerและDoug Altmanในปี 1986 ^{[ 27 ]}เป็นกราฟทางสถิติที่ออกแบบมาเพื่อแสดงข้อมูลจากสองกลุ่มอิสระ^{[ 5 ]}นอกจากนี้ยังมีเวอร์ชันที่เหมาะสมสำหรับข้อมูลแบบจับคู่คำแนะนำหลักในการสร้างแผนภูมินี้มีดังนี้: (1) แสดงค่าที่สังเกตได้ทั้งหมดสำหรับทั้งสองกลุ่มเคียงข้างกัน (2) วางแกนที่สองทางด้านขวา เลื่อนเพื่อแสดงมาตราส่วนความแตกต่างเฉลี่ย และ (3) พล็อตความแตกต่างเฉลี่ยพร้อมช่วงความเชื่อมั่นเป็นเครื่องหมายพร้อมแถบข้อผิดพลาด^{[ 3 ]}สามารถสร้างแผนภูมิ Gardner-Altman ได้ด้วยDABEST-Pythonหรือdabestrหรือนักวิเคราะห์สามารถใช้ซอฟต์แวร์ GUI เช่นแอป Estimation Stats ได้

พล็อตคัมมิง

สำหรับกลุ่มหลายกลุ่มGeoff Cummingได้แนะนำการใช้แผงรองเพื่อพล็อตความแตกต่างของค่าเฉลี่ยสองค่าขึ้นไปและช่วงความเชื่อมั่น โดยวางไว้ด้านล่างแผงค่าที่สังเกตได้^{[ 3 ]}การจัดเรียงนี้ช่วยให้สามารถเปรียบเทียบความแตกต่างของค่าเฉลี่ย ('เดลต้า') ระหว่างกลุ่มข้อมูลหลายกลุ่มได้อย่างง่ายดาย สามารถสร้างพล็อต Cumming ได้โดยใช้แพ็คเกจ ESCI , DABESTหรือแอป Estimation Stats

วิธีการอื่นๆ

นอกเหนือจากความแตกต่างเฉลี่ยแล้ว ยังมีขนาดผลกระทบประเภทอื่นๆ อีกมากมาย ซึ่งแต่ละประเภทก็มีข้อดีแตกต่างกันไป ประเภทหลักๆ ได้แก่ ขนาดผลกระทบใน กลุ่มเมตริกมาตรฐาน Cohen's dและสัมประสิทธิ์การกำหนด (R² ⁾สำหรับการวิเคราะห์การถดถอยสำหรับการแจกแจงที่ไม่เป็นปกติ ยังมีขนาดผลกระทบที่แข็งแกร่ง กว่าอีกหลายแบบ รวมถึงCliff's deltaและสถิติ Kolmogorov- Smirnov

ข้อบกพร่องในการทดสอบสมมติฐาน

ในการทดสอบสมมติฐานวัตถุประสงค์หลักของการคำนวณทางสถิติคือการหาค่า pซึ่งเป็นความน่าจะเป็นของการเห็นผลลัพธ์ที่ได้รับ หรือผลลัพธ์ที่รุนแรงกว่า เมื่อสมมติว่าสมมติฐานว่างเป็นจริง หากค่า p ต่ำ (โดยปกติ < 0.05) ผู้ปฏิบัติงานทางสถิติจะได้รับการสนับสนุนให้ปฏิเสธสมมติฐานว่าง ผู้สนับสนุนการประมาณค่าปฏิเสธความถูกต้องของการทดสอบสมมติฐาน^{[ 3 ]}^{[ 6 ]}ด้วยเหตุผลดังต่อไปนี้ เป็นต้น:

ค่า p มักถูกตีความผิดได้ง่ายและบ่อยครั้ง ตัวอย่างเช่น หลายคนเข้าใจผิดคิดว่าค่า p คือ 'ความน่าจะเป็นที่สมมติฐานว่างเป็นจริง'
สมมติฐานว่างผิดเสมอสำหรับทุกชุดการสังเกต: มีผลกระทบอยู่เสมอ แม้ว่าจะเล็กน้อยก็ตาม^{[ 29 ]}
การทดสอบสมมติฐานให้คำตอบแบบใช่หรือไม่ใช่แบบสองทาง ในขณะที่ละทิ้งข้อมูลสำคัญเกี่ยวกับขนาด^{[ 30 ]}
ค่า p-value ใดๆ เกิดขึ้นจากปฏิสัมพันธ์ของขนาดผลกระทบขนาดตัวอย่าง (โดยทั่วไปแล้ว ขนาดตัวอย่างที่ใหญ่กว่าจะทำให้ค่า p-value เล็กกว่า) และข้อผิดพลาดในการสุ่มตัวอย่าง^{[ 31 ]}
การจำลองที่ กำลังต่ำเผยให้เห็นว่าข้อผิดพลาดในการสุ่มตัวอย่างทำให้ค่า p มีความผันผวนอย่างมาก^{[ 32 ]}

ประโยชน์ของสถิติการประมาณค่า

การวัดปริมาณ

ในขณะที่ค่า p เน้นคำตอบใช่/ไม่ใช่ การประมาณค่าจะดึงความสนใจของนักวิเคราะห์ไปที่การหาปริมาณ

ข้อดีของช่วงความเชื่อมั่น

ช่วงความเชื่อมั่นมีพฤติกรรมที่คาดเดาได้ ตามคำจำกัดความ ช่วงความเชื่อมั่น 95% มีโอกาส 95% ที่จะครอบคลุมค่าเฉลี่ยประชากรพื้นฐาน (μ) คุณลักษณะนี้ยังคงคงที่แม้ขนาดตัวอย่างจะเพิ่มขึ้น สิ่งที่เปลี่ยนแปลงคือช่วงจะเล็กลง นอกจากนี้ ช่วงความเชื่อมั่น 95% ยังเป็นช่วงการทำนาย 83% อีกด้วย กล่าวคือ ช่วงความเชื่อมั่นหนึ่งช่วง (ก่อนการทดลอง) มีโอกาส 83% ที่จะครอบคลุมค่าเฉลี่ยของการทดลองในอนาคต^{[ 3 ]}ด้วยเหตุนี้ การทราบช่วงความเชื่อมั่น 95% ของการทดลองเพียงครั้งเดียวจะทำให้นักวิเคราะห์มีช่วงที่เหมาะสมสำหรับค่าเฉลี่ยประชากร อย่างไรก็ตาม การแจกแจงความเชื่อมั่นและการแจกแจงภายหลังให้ข้อมูลมากกว่าการประมาณค่าจุดเดียวหรือช่วง^{[ 33 ]}ซึ่งอาจทำให้ความคิดแบบแบ่งขั้วรุนแรงขึ้นตามช่วงที่ครอบคลุมหรือไม่ครอบคลุมค่า "ว่าง" ที่สนใจ (เช่น พฤติกรรมอุปนัยของ Neyman ตรงข้ามกับของ Fisher ^{[ 34 ]} )

สถิติเชิงประจักษ์

การศึกษาทางจิตวิทยาเกี่ยวกับการรับรู้สถิติเผยให้เห็นว่าการรายงานค่าประมาณช่วงทำให้การรับรู้ข้อมูลมีความแม่นยำมากกว่าการรายงานค่า p ^{[ 35 ]}

การวางแผนอย่างแม่นยำ

ความแม่นยำของการประมาณค่าถูกกำหนดอย่างเป็นทางการเป็น 1/ ความแปรปรวนและเช่นเดียวกับกำลังทางสถิติ ความแม่นยำจะเพิ่มขึ้น (ดีขึ้น) เมื่อขนาดตัวอย่างเพิ่มขึ้น เช่นเดียวกับกำลังทางสถิติ ความแม่นยำสูงมีค่าใช้จ่ายสูง การขอรับทุนวิจัยควรมีการวิเคราะห์ความแม่นยำ/ต้นทุนด้วย ผู้สนับสนุนการประมาณค่าเชื่อว่าการวางแผนความแม่นยำควรเข้ามาแทนที่กำลังทางสถิติ เนื่องจากกำลังทางสถิติเองนั้นเชื่อมโยงกับการทดสอบนัยสำคัญทางสถิติ^{[ 3 ]}การวางแผนความแม่นยำสามารถทำได้ด้วยแอปพลิเคชันเว็บ ESCI

ดูเพิ่มเติม

[ 1 ]

[ 3 ]

[ 4 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[

[

[ 25 ]

[ 26 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]