กลับไปหน้าบทความ

อ่าน 10 นาที

การถ่วงน้ำหนักความน่าจะเป็นผกผัน

การถ่วงน้ำหนักความน่าจะเป็นผกผันเป็นเทคนิคทางสถิติสำหรับการประมาณค่าปริมาณที่เกี่ยวข้องกับประชากรอื่นที่ไม่ใช่ประชากรที่เก็บรวบรวมข้อมูลมา...

การถ่วงน้ำหนักความน่าจะเป็นผกผัน

การถ่วงน้ำหนักความน่าจะเป็นผกผันเป็นเทคนิคทางสถิติสำหรับการประมาณค่าปริมาณที่เกี่ยวข้องกับประชากรอื่นที่ไม่ใช่ประชากรที่เก็บรวบรวมข้อมูลมา การออกแบบการศึกษาที่มีประชากรตัวอย่างและประชากรเป้าหมายในการอนุมาน (ประชากรเป้าหมาย) ที่แตกต่างกันนั้นพบได้ทั่วไปในการประยุกต์ใช้[ 1 ]อาจมีปัจจัยที่ขัดขวางไม่ให้นักวิจัยสุ่มตัวอย่างจากประชากรเป้าหมายโดยตรง เช่น ค่าใช้จ่าย เวลา หรือข้อกังวลด้านจริยธรรม[ 2 ]วิธีแก้ปัญหานี้คือการใช้กลยุทธ์การออกแบบทางเลือกอื่น เช่นการสุ่มตัวอย่างแบบแบ่งชั้นการถ่วงน้ำหนัก เมื่อนำไปใช้อย่างถูกต้อง อาจช่วยเพิ่มประสิทธิภาพและลดอคติของตัวประมาณค่าที่ไม่ถ่วงน้ำหนักได้

ตัวประมาณค่าถ่วงน้ำหนักในยุคแรกๆ ตัวหนึ่งคือ ตัวประมาณค่า เฉลี่ยของHorvitz–Thompson [ 3 ]เมื่อ ทราบ ความน่าจะเป็นของการสุ่มตัวอย่างซึ่งประชากรตัวอย่างจะถูกดึงมาจากประชากรเป้าหมาย จะใช้ค่าผกผันของความน่าจะเป็นนี้ในการถ่วงน้ำหนักการสังเกต วิธีการนี้ได้รับการขยายไปสู่สถิติหลายแง่มุมภายใต้กรอบการทำงานต่างๆ โดยเฉพาะอย่างยิ่ง มีความน่าจะเป็นแบบถ่วงน้ำหนักสมการประมาณค่าแบบถ่วงน้ำหนักและความหนาแน่นของความน่าจะเป็นแบบถ่วงน้ำหนักซึ่งสถิติส่วนใหญ่ได้มาจากสิ่งเหล่านี้ การประยุกต์ใช้เหล่านี้ได้กำหนดทฤษฎีของสถิติและตัวประมาณค่าอื่นๆ เช่นแบบจำลองโครงสร้างเชิงชายขอบอัตราส่วนการตายมาตรฐานและอัลกอริทึม EM สำหรับ ข้อมูลที่หยาบหรือรวม

การถ่วงน้ำหนักความน่าจะเป็นผกผันยังใช้เพื่อชดเชยข้อมูลที่หายไปเมื่อไม่สามารถรวมกลุ่มตัวอย่างที่มีข้อมูลหายไปในการวิเคราะห์หลักได้[ 4 ] ด้วยการประมาณค่าความน่าจะเป็นของการสุ่มตัวอย่าง หรือความน่าจะเป็นที่ปัจจัยจะถูกวัดในการวัดอื่น การถ่วงน้ำหนักความน่าจะเป็นผกผันสามารถใช้เพื่อเพิ่มน้ำหนักให้กับกลุ่มตัวอย่างที่มีจำนวนน้อยเกินไปเนื่องจากข้อมูลที่หายไปจำนวน มาก

ตัวประมาณค่าถ่วงน้ำหนักความน่าจะเป็นผกผัน (IPWE)

ตัวประมาณค่าถ่วงน้ำหนักความน่าจะเป็นผกผันสามารถใช้เพื่อแสดงความสัมพันธ์เชิงสาเหตุได้ เมื่อนักวิจัยไม่สามารถทำการทดลองแบบควบคุมได้ แต่มีข้อมูลที่สังเกตได้เพื่อใช้ในการสร้างแบบจำลอง เนื่องจากถือว่าการรักษาไม่ได้ถูกกำหนดแบบสุ่ม เป้าหมายจึงเป็นการประมาณผลลัพธ์ที่เป็นไปได้หากผู้เข้าร่วมทั้งหมดในประชากรได้รับการรักษาแบบใดแบบหนึ่ง

เราพิจารณาตัวแปรสุ่มที่มีการแจกแจงร่วมกันตามกฎที่กำหนด

  • ตัวแปรควบคุมคือตัวแปรเสริม
  • มีวิธีการรักษาที่เป็นไปได้สองวิธี
  • คือคำตอบ
  • ไม่มีการตั้งสมมติฐานใดๆ เช่นการสุ่มจัดสรรการรักษา

ตามกรอบแนวคิดผลลัพธ์ที่เป็นไปได้ของรูบินเรายังกำหนดให้มีตัวแปรสุ่มสำหรับแต่ละกรณีด้วย ในเชิงความหมายหมายถึงผลลัพธ์ที่เป็นไปได้ที่จะสังเกตได้หากผู้ถูกทดลองได้รับการรักษา ในทางเทคนิคแล้ว เราทำงานกับการแจกแจงร่วมแบบเต็มของในกรณีนั้นคือการแจกแจงแบบมาร์จินัลสำหรับส่วนประกอบที่สังเกตได้ของ เท่านั้นจำเป็นต้องมีข้อสมมติพิเศษเพื่ออนุมานคุณสมบัติเกี่ยวกับ โดยใช้ซึ่งจะอธิบายรายละเอียดต่อไป

สมมติว่าเรามีข้อมูลที่สังเกตได้ซึ่งมีการกระจายแบบเดียวกันและเป็นอิสระต่อกันตามเป้าหมายคือการใช้ข้อมูลที่สังเกตได้เพื่อประมาณคุณสมบัติของผลลัพธ์ที่เป็นไปได้ตัวอย่างเช่น เราอาจต้องการเปรียบเทียบผลลัพธ์เฉลี่ยหากผู้ป่วยทั้งหมดในประชากรได้รับการรักษาแบบใดแบบหนึ่ง: เราต้องการประมาณค่าโดยใช้ข้อมูลที่สังเกตได้

สูตรประมาณการ

การสร้าง IPWE

  1. ที่ไหน
  2. สร้างหรือใช้แบบจำลองความน่าจะเป็นใดๆ (ส่วนใหญ่มักเป็นแบบจำลองการถดถอย โลจิสติก )

เมื่อคำนวณค่าเฉลี่ยของแต่ละกลุ่มทดลองแล้วสามารถใช้การทดสอบt-test หรือ ANOVA ทางสถิติเพื่อประเมินความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม และกำหนด นัยสำคัญทางสถิติของผลกระทบจากการทดลองได้

ข้อสมมติฐาน

โปรดจำแบบจำลองความน่าจะเป็นร่วมแบบเต็มรูปแบบสำหรับตัวแปรอิสระการกระทำการตอบสนองและผลลัพธ์ที่เป็นไปได้และโปรดจำไว้ด้วยว่าคือการแจกแจงแบบมาร์จินัลของข้อมูลที่สังเกตได้

เราตั้งสมมติฐานต่อไปนี้เกี่ยวกับการเชื่อมโยงผลลัพธ์ที่เป็นไปได้กับข้อมูลที่สังเกตได้ สมมติฐานเหล่านี้ช่วยให้เราสามารถอนุมานคุณสมบัติของผ่านทางได้

  • ( A1 ) ความสม่ำเสมอ: ดังนั้นสำหรับ.
  • ( A2 ) ไม่มีตัวแปรแทรกซ้อนที่วัดไม่ได้: ในทางทฤษฎี สำหรับฟังก์ชันที่วัดได้แบบ Borel ที่มีขอบเขตและสำหรับใดๆ ก็ตามหมายความว่าการกำหนดการรักษาจะขึ้นอยู่กับข้อมูลตัวแปรเสริมเท่านั้น และเป็นอิสระจากผลลัพธ์ที่เป็นไปได้
  • ( A3 ) ทัศนคติเชิงบวก: สำหรับทุกคนและ.

การพิสูจน์อย่างเป็นทางการ

ภายใต้สมมติฐาน ( A1 )-( A3 ) เราจะได้เอกลักษณ์ต่อไปนี้[ 5 ]

ความเท่าเทียมกันข้อแรกแสดงได้ดังนี้:

สำหรับความเท่าเทียมกันข้อที่สอง ก่อนอื่นให้สังเกตจากบทพิสูจน์ข้างต้นว่า

ตอนนี้โดย ( A3 ) เกือบจะแน่นอนนอกจากนี้ โปรดสังเกตว่า

ดังนั้นเราจึงสามารถเขียนได้ว่า

การลดความแปรปรวน

ตัวประมาณค่าถ่วงน้ำหนักความน่าจะเป็นผกผัน (IPWE) เป็นที่ทราบกันดีว่าไม่เสถียรหากความโน้มเอียงที่ประมาณไว้บางส่วนอยู่ใกล้ 0 หรือ 1 มากเกินไป ในกรณีดังกล่าว IPWE อาจถูกครอบงำโดยกลุ่มตัวอย่างจำนวนน้อยที่มีน้ำหนักมาก เพื่อแก้ไขปัญหานี้ จึงมีการเสนอตัวประมาณค่า IPWE แบบเรียบโดยใช้ Rao-Blackwellization ซึ่งช่วยลดความแปรปรวนของ IPWE ได้มากถึง 7 เท่า และช่วยปกป้องตัวประมาณค่าจากการกำหนดแบบจำลองที่ไม่ถูกต้อง[ 6 ]

ตัวประมาณค่าถ่วงน้ำหนักความน่าจะเป็นผกผันเสริม (AIPWE)

ตัวประมาณทางเลือกคือตัวประมาณถ่วงน้ำหนักความน่าจะเป็นผกผันเสริม (AIPWE) ซึ่งรวมคุณสมบัติของตัวประมาณตามการถดถอยและตัวประมาณถ่วงน้ำหนักความน่าจะเป็นผกผันเข้าด้วยกัน ดังนั้นจึงเป็นวิธีการที่ 'แข็งแกร่งสองเท่า' เนื่องจากต้องการเพียงแบบจำลองความโน้มเอียงหรือแบบจำลองผลลัพธ์ที่ถูกต้องเพียงอย่างใดอย่างหนึ่ง แต่ไม่จำเป็นต้องระบุทั้งสองอย่าง วิธีนี้เสริม IPWE เพื่อลดความแปรปรวนและปรับปรุงประสิทธิภาพการประมาณ แบบจำลองนี้มีข้อสมมติฐานเดียวกันกับตัวประมาณถ่วงน้ำหนักความน่าจะเป็นผกผัน (IPWE) [ 7 ]

สูตรประมาณการ

โดยมีสัญลักษณ์ดังต่อไปนี้:

  1. เป็นฟังก์ชันบ่งชี้ว่าบุคคล i เป็นส่วนหนึ่งของกลุ่มการรักษา a หรือไม่
  2. สร้างตัวประมาณการถดถอยเพื่อทำนายผลลัพธ์โดยอาศัยตัวแปรควบคุมและการรักษาสำหรับผู้ป่วยรายใดรายหนึ่ง ตัวอย่างเช่น โดยใช้การถดถอยกำลังสองน้อยที่สุดแบบธรรมดา
  3. สร้างค่าประมาณความโน้มเอียง (ความน่าจะเป็น) ตัวอย่างเช่น โดยใช้การถดถอยโลจิสติ
  4. รวมใน AIPWE เพื่อให้ได้

การตีความและ "ความทนทานสองเท่า"

การจัดเรียงสูตรใหม่ในภายหลังช่วยเปิดเผยแนวคิดพื้นฐาน: ตัวประมาณค่าของเราขึ้นอยู่กับผลลัพธ์ที่คาดการณ์โดยเฉลี่ยโดยใช้แบบจำลอง (เช่น: ) อย่างไรก็ตาม หากแบบจำลองมีอคติ ค่าตกค้างของแบบจำลองจะไม่ (ในกลุ่มการรักษาทั้งหมด a) อยู่ใกล้ 0 เราสามารถแก้ไขอคติที่อาจเกิดขึ้นนี้ได้โดยการเพิ่มพจน์พิเศษของค่าตกค้างเฉลี่ยของแบบจำลอง (Q) จากค่าจริงของผลลัพธ์ (Y) (เช่น: ) เนื่องจากเรามีค่า Y ที่หายไป เราจึงให้ค่าน้ำหนักเพื่อขยายความสำคัญสัมพัทธ์ของค่าตกค้างแต่ละค่า (ค่าน้ำหนักเหล่านี้ขึ้นอยู่กับแนวโน้มผกผัน หรือความน่าจะเป็นของการเห็นการสังเกตของแต่ละบุคคล) (ดูหน้า 10 ใน[ 8 ] )

ประโยชน์ "แข็งแกร่งสองเท่า" ของตัวประมาณค่าดังกล่าวมาจากการที่เพียงพอแล้วที่แบบจำลองหนึ่งในสองแบบจะถูกกำหนดอย่างถูกต้อง ตัวประมาณค่าก็จะไม่เอนเอียง (อย่างใดอย่างหนึ่งหรือทั้งสองอย่าง) ทั้งนี้เพราะหากแบบจำลองผลลัพธ์ถูกกำหนดไว้อย่างดี ค่าตกค้างก็จะอยู่ประมาณ 0 (โดยไม่คำนึงถึงน้ำหนักที่ค่าตกค้างแต่ละค่าจะได้รับ) ในขณะที่หากแบบจำลองเอนเอียง แต่แบบจำลองการถ่วงน้ำหนักถูกกำหนดไว้อย่างดี ความเอนเอียงก็จะถูกประมาณค่าได้ดี (และแก้ไขแล้ว) โดยค่าตกค้างเฉลี่ยถ่วงน้ำหนัก[ 8 ] [ 9 ] [ 10 ]

อคติของตัวประมาณค่าที่แข็งแกร่งสองเท่าเรียกว่าอคติลำดับที่สองและขึ้นอยู่กับผลคูณของความแตกต่างและความแตกต่างคุณสมบัตินี้ช่วยให้เราสามารถลดอคติโดยรวมของตัวประมาณค่าที่แข็งแกร่งสองเท่าได้เมื่อมีขนาดตัวอย่างที่ "ใหญ่พอ" โดยใช้ ตัวประมาณค่า การเรียนรู้ของเครื่อง (แทนที่จะใช้แบบจำลองพาราเมตริก) [ 11 ]

การนำซอฟต์แวร์ไปใช้งาน

การถ่วงน้ำหนักความน่าจะเป็นผกผันถูกนำไปใช้ในโปรแกรมซอฟต์แวร์ทางสถิติต่างๆ:

  • Python : ipwจาก แพ็คเกจ balanceช่วยให้สามารถปรับ IPW เพื่อปรับอคติจากการไม่ตอบแบบสอบถามได้[ 12 ]ซึ่งอาศัยการถดถอยโลจิสติก (ดูบทช่วยสอนเริ่มต้นอย่างรวดเร็ว ) หรือ โมเดลการจำแนกประเภทscikit-learnอื่นๆ
  • R : แพ็คเกจ ipw CRAN : ประมาณน้ำหนักความน่าจะเป็นผกผัน[ 13 ]แพ็คเกจ WeightIt CRANยังรองรับแนวทางที่หลากหลายยิ่งขึ้นด้วย: การถ่วงน้ำหนักเพื่อความสมดุลของตัวแปรควบคุมในการศึกษาเชิงสังเกต[ 14 ]

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Inverse_probability_weighting&oldid=1359042258 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การถ่วงน้ำหนักความน่าจะเป็นผกผัน

การถ่วงน้ำหนักความน่าจะเป็นผกผันเป็นเทคนิคทางสถิติสำหรับการประมาณค่าปริมาณที่เกี่ยวข้องกับประชากรอื่นที่ไม่ใช่ประชากรที่เก็บรวบรวมข้อมูลมา...

ตัวประมาณค่าถ่วงน้ำหนักความน่าจะเป็นผกผัน (IPWE)

ตัวประมาณค่าถ่วงน้ำหนักความน่าจะเป็นผกผันสามารถใช้เพื่อแสดงความสัมพันธ์เชิงสาเหตุได้ เมื่อนักวิจัยไม่สามารถทำการทดลองแบบควบคุมได้ แต่มีข้อมูลที่สังเกตได้เพื่อใช้ในการสร้างแบบจำลอง เนื่องจากถือว่าการรักษาไม่ได้ถูกกำหนดแบบสุ่ม...

สูตรประมาณการ

μ ^ เอ , n ฉัน พี ว อี = 1 n ∑ ฉัน = 1 n วาย ฉัน 1 เอ ฉัน = เอ พี ^ n ( เอ ฉัน | X ฉัน ) {\displaystyle {\hat {\mu }}_{a,n}^{IPWE}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}{\frac {\mathbf {1} _{A_{i}=a}}{{\hat {p}}_{n}(A_{i}|X_{i})}}}

ตัวประมาณค่าถ่วงน้ำหนักความน่าจะเป็นผกผันเสริม (AIPWE)

ตัวประมาณทางเลือกคือตัวประมาณถ่วงน้ำหนักความน่าจะเป็นผกผันเสริม (AIPWE) ซึ่งรวมคุณสมบัติของตัวประมาณตามการถดถอยและตัวประมาณถ่วงน้ำหนักความน่าจะเป็นผกผันเข้าด้วยกัน ดังนั้นจึงเป็นวิธีการที่ 'แข็งแกร่งสองเท่า'...