อ่าน 12 นาที
ระเบียบวิธีสร้างแบบจำลองการตอบสนอง
ระเบียบวิธีสร้างแบบจำลองการตอบสนอง (Response Modeling Methodology: RMM)เป็นแพลตฟอร์มทั่วไปสำหรับการสร้างแบบจำลองทางสถิติของความสัมพันธ์เชิงเส้น/ไม่เชิงเส้นระหว่างตัวแปรตอบสนอง (...
ระเบียบวิธีสร้างแบบจำลองการตอบสนอง
ระเบียบวิธีสร้างแบบจำลองการตอบสนอง (Response Modeling Methodology: RMM)เป็นแพลตฟอร์มทั่วไปสำหรับการสร้างแบบจำลองทางสถิติของความสัมพันธ์เชิงเส้น/ไม่เชิงเส้นระหว่างตัวแปรตอบสนอง ( ตัวแปรตาม ) และตัวทำนายเชิงเส้น ( การรวมกันเชิงเส้นของตัวทำนาย/ผลกระทบ/ปัจจัย/ ตัวแปรอิสระ ) ซึ่งมักแสดงด้วยฟังก์ชันตัวทำนายเชิงเส้นโดยทั่วไปจะถือว่าความสัมพันธ์ที่สร้างแบบจำลองนั้นเป็นแบบนูนโมโนโทน (ให้ฟังก์ชันนูนโมโนโทน ) หรือแบบเว้าโมโนโทน (ให้ฟังก์ชันเว้าโมโนโทน ) อย่างไรก็ตาม ฟังก์ชันที่ไม่เป็นโมโนโทนหลายฟังก์ชัน เช่นสมการกำลังสองเป็นกรณีพิเศษของแบบจำลองทั่วไป
RMM ถูกพัฒนาขึ้นมาในขั้นต้นโดยเป็นการต่อยอดจากการแปลงผกผัน Box–Cox ดั้งเดิม โดยที่yคือเปอร์เซ็นไทล์ของตัวแปรตอบสนองที่จำลองขึ้นY ( ตัวแปรสุ่ม ที่จำลองขึ้น ) zคือเปอร์เซ็นไทล์ที่เกี่ยวข้องของตัวแปรสุ่มปกติและ λ คือพารามิเตอร์ Box–Cox เมื่อ λ เข้าใกล้ศูนย์การแปลงผกผัน Box–Coxจะกลายเป็น แบบ จำลองเลขชี้กำลังดังนั้นการแปลงผกผัน Box–Cox ดั้งเดิมจึงประกอบด้วยแบบจำลองสามแบบ ได้แก่ เชิงเส้น ( λ = 1) กำลัง ( λ ≠ 1, λ ≠ 0) และเลขชี้กำลัง ( λ = 0) ซึ่งหมายความว่าเมื่อประมาณค่า λ โดยใช้ข้อมูลตัวอย่าง แบบจำลองสุดท้ายจะไม่ถูกกำหนดไว้ล่วงหน้า (ก่อนการประมาณค่า) แต่เป็นผลมาจากการประมาณค่า กล่าวอีกนัยหนึ่ง ข้อมูลเพียงอย่างเดียวเป็นตัวกำหนดแบบจำลองสุดท้าย
ส่วนขยายของการแปลง Box–Cox ผกผันได้รับการพัฒนาโดย Shore (2001a [ 1 ] ) และเรียกว่าการแปลงการทำให้เป็นมาตรฐานผกผัน (INTs) มีการนำไปใช้เพื่อสร้างแบบจำลองความสัมพันธ์แบบนูนโมโนโทนในสาขาวิศวกรรมต่างๆ โดยส่วนใหญ่ใช้เพื่อสร้างแบบจำลองคุณสมบัติทางกายภาพของสารประกอบทางเคมี (Shore et al. , 2001a, [ 1 ]และเอกสารอ้างอิงในนั้น) เมื่อตระหนักว่าแบบจำลอง INT อาจถูกมองว่าเป็นกรณีพิเศษของแนวทางทั่วไปที่กว้างกว่ามากสำหรับการสร้างแบบจำลองความสัมพันธ์แบบนูนโมโนโทนที่ไม่เป็นเชิงเส้น จึงได้มีการริเริ่มและพัฒนาวิธีการสร้างแบบจำลองการตอบสนองแบบใหม่ (Shore, 2005a, [ 2 ] 2011 [ 3 ]และเอกสารอ้างอิงในนั้น)
แบบจำลอง RMM แสดงความสัมพันธ์ระหว่างค่าตอบสนองY (ตัวแปรสุ่มในแบบจำลอง) กับส่วนประกอบสองส่วนที่ทำให้เกิดความแปรปรวนใน Y:
- ฟังก์ชันทำนายเชิงเส้น LP (แทนด้วย η ):โดยที่ { X 1 ,..., X k } คือตัวแปรถดถอย ("ปัจจัยที่มีผลกระทบ") ที่ทำให้เกิด ความแปรผัน อย่างเป็นระบบต่อการตอบสนอง
- ข้อผิดพลาดปกติ ซึ่งทำให้ผลลัพธ์เปลี่ยนแปลงแบบสุ่ม
แบบจำลอง RMM พื้นฐานอธิบายYในแง่ของ LP ข้อผิดพลาดปกติที่มีค่าเฉลี่ยเป็นศูนย์สองค่าที่อาจมีความสัมพันธ์กันε 1และε 2 (โดยมีความสัมพันธ์ρและค่าเบี่ยงเบนมาตรฐานσ ε 1และ σ ε 2ตามลำดับ) และเวกเตอร์ของพารามิเตอร์ { α , λ , μ } (Shore, 2005a, [ 2 ] 2011 [ 3 ] ):
และε 1แทนความไม่แน่นอน (ความไม่แม่นยำในการวัดหรืออื่นๆ) ในตัวแปรอธิบาย (ที่รวมอยู่ใน LP) ซึ่งเป็นความไม่แน่นอนเพิ่มเติมจากความไม่แน่นอนที่เกี่ยวข้องกับการตอบสนอง ( ε 2 ) เมื่อแสดงε 1และε 2ในรูปของตัวแปรสุ่มปกติมาตรฐานZ 1และZ 2ตามลำดับ ซึ่งมีความสัมพันธ์ρและมีเงื่อนไขZ 2 | Z 1 = z 1 ( Z 2เมื่อZ 1เท่ากับค่าที่กำหนดz 1 ) เราอาจเขียนในรูปของข้อผิดพลาดเดียว ε ได้ ดังนี้:
โดยที่Zเป็นตัวแปรปกติมาตรฐาน ซึ่งเป็นอิสระจากทั้งZ 1และZ 2 , εเป็นข้อผิดพลาดที่มีค่าเฉลี่ยเป็นศูนย์ และ d เป็นพารามิเตอร์ จากความสัมพันธ์เหล่านี้ฟังก์ชันควอนไทล์ RMM ที่เกี่ยวข้อง คือ (Shore, 2011 [ 3 ] ):
หรือหลังจากปรับพารามิเตอร์ใหม่:
โดยที่ y คือเปอร์เซ็นไทล์ของการตอบสนอง ( Y ), zคือ เปอร์เซ็นไทล์ ปกติมาตรฐาน ที่เกี่ยวข้อง , εคือข้อผิดพลาดปกติที่มีค่าเฉลี่ยเป็นศูนย์และค่าความแปรปรวนคงที่ของแบบจำลอง, σ , { a, b, c, d } คือพารามิเตอร์ และM Yคือ ค่า มัธยฐาน ของการตอบสนอง ( z = 0) ซึ่งขึ้นอยู่กับค่าของพารามิเตอร์และค่าของ LP, η :
โดยที่μ (หรือm ) เป็นพารามิเตอร์เพิ่มเติม
หากถือว่า cz<<η แล้ว แบบจำลองข้างต้นสำหรับฟังก์ชันควอนไทล์ RMM สามารถประมาณได้ดังนี้:
พารามิเตอร์ “c” ไม่สามารถ “รวม” เข้ากับพารามิเตอร์ของ LP (η) ได้ เนื่องจาก “c” และ LP ถูกประมาณค่าในสองขั้นตอนที่แยกจากกัน (ดังที่อธิบายไว้ด้านล่าง)
หากข้อมูลการตอบสนองที่ใช้ในการประมาณค่าแบบจำลองมีค่าที่เปลี่ยนเครื่องหมาย หรือหากค่าการตอบสนองต่ำสุดอยู่ห่างจากศูนย์มาก (ตัวอย่างเช่น เมื่อข้อมูลถูกตัดทอนทางซ้าย) อาจมีการเพิ่ม พารามิเตอร์ตำแหน่งLเข้าไปในการตอบสนอง เพื่อให้สูตรสำหรับฟังก์ชันควอนไทล์และค่ามัธยฐานเป็นดังนี้:
ความนูนแบบโมโนโทนิกต่อเนื่อง
ดังที่แสดงไว้ก่อนหน้านี้ การแปลงผกผันของ Box–Cox ขึ้นอยู่กับพารามิเตอร์ตัวเดียวคือλซึ่งเป็นตัวกำหนดรูปแบบสุดท้ายของแบบจำลอง (ไม่ว่าจะเป็นเชิงเส้น กำลัง หรือเลขชี้กำลัง) ดังนั้นแบบจำลองทั้งสามจึงเป็นเพียงจุดบนสเปกตรัมต่อเนื่องของความนูนแบบโมโนโทนิก ซึ่งครอบคลุมโดย λ คุณสมบัตินี้ ซึ่งแบบจำลองที่รู้จักต่าง ๆ กลายเป็นเพียงจุดบนสเปกตรัมต่อเนื่อง ซึ่งครอบคลุมโดยพารามิเตอร์ของแบบจำลอง เรียกว่า คุณสมบัติความนูนแบบโมโนโทนิกต่อเนื่อง (Continuous Monotonic Convexity: CMC) คุณสมบัตินี้เป็นลักษณะเฉพาะของแบบจำลอง RMM ทั้งหมด และช่วยให้วงจรพื้นฐาน “เชิงเส้น-กำลัง-เลขชี้กำลัง” (ซึ่งเป็นพื้นฐานของการแปลงผกผันของ Box–Cox) สามารถทำซ้ำได้เรื่อย ๆ อย่างไม่มีที่สิ้นสุด ทำให้สามารถสร้างแบบจำลองที่นูนขึ้นได้มากขึ้นเรื่อย ๆ ตัวอย่างของแบบจำลองดังกล่าว ได้แก่ แบบจำลองเลขชี้กำลัง-กำลัง หรือแบบจำลองเลขชี้กำลัง-เลขชี้กำลัง-กำลัง (ดูแบบจำลองที่อธิบายไว้โดยละเอียดต่อไป) เนื่องจากรูปแบบสุดท้ายของแบบจำลองถูกกำหนดโดยค่าของพารามิเตอร์ RMM นั่นหมายความว่าข้อมูลที่ใช้ในการประมาณค่าพารามิเตอร์จะเป็นตัวกำหนดรูปแบบสุดท้ายของแบบจำลอง RMM ที่ประมาณค่าได้ (เช่นเดียวกับการแปลงผกผันของ Box–Cox) ดังนั้น คุณสมบัติ CMC จึงทำให้แบบจำลอง RMM มีความยืดหยุ่นสูงในการรองรับข้อมูลที่ใช้ในการประมาณค่าพารามิเตอร์ เอกสารอ้างอิงด้านล่างแสดงผลการเปรียบเทียบที่ตีพิมพ์ระหว่างแบบจำลอง RMM และแบบจำลองที่มีอยู่ การเปรียบเทียบเหล่านี้แสดงให้เห็นถึงประสิทธิภาพของคุณสมบัติ CMC
ตัวอย่างของโมเดล RMM
หากไม่พิจารณาข้อผิดพลาดของ RMM (โดยไม่สนใจเทอมcz , dzและeในแบบจำลองเปอร์เซ็นไทล์) เราจะได้แบบจำลอง RMM ดังต่อไปนี้ ซึ่งเรียงลำดับตามความนูนแบบโมโนโทนจากน้อยไปมาก:
การเพิ่มพารามิเตอร์ใหม่สองตัวโดยการแนะนำสำหรับη (ในแบบจำลองเปอร์เซ็นไทล์): จะมีการวนซ้ำรอบใหม่ของ “เชิงเส้น-กำลัง-เลขชี้กำลัง” เพื่อสร้างแบบจำลองที่มีความนูนแบบโมโนโทนที่แข็งแกร่งขึ้น (Shore, 2005a, [ 2 ] 2011, [ 3 ] 2012 [ 4 ] ):
เป็นที่ทราบกันว่าแบบจำลองนูนแบบโมโนโทนิกชุดนี้ ซึ่งนำเสนอตามลำดับชั้นบน “บันไดของฟังก์ชันนูนแบบโมโนโทนิก” (Shore, 2011 [ 3 ] ) นั้นไม่มีขีดจำกัดจากด้านบน อย่างไรก็ตาม แบบจำลองทั้งหมดเป็นเพียงจุดบนสเปกตรัมต่อเนื่องที่ครอบคลุมโดยพารามิเตอร์ RMM นอกจากนี้ โปรดทราบว่าแบบจำลองการเติบโตจำนวนมาก เช่นฟังก์ชัน Gompertzเป็นกรณีพิเศษที่แน่นอนของแบบจำลอง RMM
ช่วงเวลา
โมเมนต์ไม่ศูนย์กลางลำดับที่kของYคือ (โดยสมมติว่าL = 0; Shore, 2005a, [ 2 ] 2011 [ 3 ] ):
เมื่อขยายY kดังที่ระบุไว้ทางด้านขวามือ ออกเป็นอนุกรมเทย์เลอร์รอบศูนย์ ในรูปของกำลังของZ (ตัวแปรสุ่มปกติมาตรฐาน) แล้วหาค่าเฉลี่ยทั้งสองข้าง โดยสมมติว่าcZ ≪ ηดังนั้นη + cZ ≈ ηจะได้นิพจน์อย่างง่ายโดยประมาณสำหรับ โมเมนต์ที่ไม่เป็นศูนย์กลางลำดับที่ kโดยอิงจากหกพจน์แรกในการขยาย ดังนี้:
สามารถสร้างนิพจน์ที่คล้ายคลึงกันได้โดยไม่ต้องสมมติว่าcZ ≪ ηซึ่งจะทำให้ได้นิพจน์ที่แม่นยำกว่า (แม้ว่าจะยาวและยุ่งยากกว่าก็ตาม) เมื่อ ละเลย cZในนิพจน์ข้างต้นYจะกลายเป็นตัวแปรสุ่มแบบลอการิทมิกปกติ (โดยมีพารามิเตอร์ที่ขึ้นอยู่กับ η )
การปรับและการประมาณค่า
แบบจำลอง RMM อาจใช้เพื่อจำลอง ความแปรผัน แบบสุ่ม (เป็นแพลตฟอร์มทั่วไปสำหรับการปรับให้เข้ากับการกระจาย) หรือเพื่อจำลอง ความแปรผัน แบบเป็นระบบ (ในลักษณะเดียวกับแบบจำลองเชิงเส้นทั่วไป , GLM)
ในกรณีแรก (ไม่มีการเปลี่ยนแปลงอย่างเป็นระบบ กล่าวคือη = ค่าคงที่) ฟังก์ชันควอนไทล์ RMM จะถูกปรับให้เข้ากับการแจกแจงที่ทราบ หากไม่ทราบการแจกแจงพื้นฐาน ฟังก์ชันควอนไทล์ RMM จะถูกประมาณโดยใช้ข้อมูลตัวอย่างที่มีอยู่ การสร้างแบบจำลองความแปรผันแบบสุ่มด้วย RMM ได้รับการกล่าวถึงและสาธิตใน Shore (2011 [ 3 ]และเอกสารอ้างอิงในนั้น)
ในกรณีหลัง (การสร้างแบบจำลองความแปรผันอย่างเป็นระบบ) แบบจำลอง RMM จะถูกประมาณค่าโดยสมมติว่าความแปรผันในตัวทำนายเชิงเส้น (ที่สร้างขึ้นผ่านความแปรผันในตัวแปรถดถอย) มีส่วนทำให้เกิดความแปรผันโดยรวมของตัวแปรตอบสนองที่สร้างแบบจำลอง ( Y ) กรณีนี้ได้รับการกล่าวถึงและแสดงให้เห็นใน Shore (2005a, [ 2 ] 2012 [ 4 ]และเอกสารอ้างอิงที่เกี่ยวข้อง) การประมาณค่าดำเนินการในสองขั้นตอน ขั้นแรก ค่ามัธยฐานจะถูกประมาณค่าโดยการลดผลรวมของค่าเบี่ยงเบนสัมบูรณ์ (ของแบบจำลองที่เหมาะสมจากจุดข้อมูลตัวอย่าง) ให้เหลือน้อยที่สุด ในขั้นตอนที่สอง พารามิเตอร์ที่เหลืออีกสองตัว (ที่ไม่ได้ประมาณค่าในขั้นตอนแรก ได้แก่ { c , d }) จะถูกประมาณค่า วิธีการประมาณค่าสามวิธีนำเสนอใน Shore (2012 [ 4 ] ): ความน่าจะเป็นสูงสุดการจับคู่โมเมนต์ และการถดถอยควอนไทล์แบบไม่เชิง เส้น
การทบทวนวรรณกรรม
ณ ปี 2021 เอกสารทางวิชาการของ RMM ครอบคลุมสามด้านหลัก ได้แก่:
(1)การพัฒนา INT และต่อมาวิธีการ RMM พร้อมด้วยวิธีการประมาณค่าที่เกี่ยวข้อง
(2)การสำรวจคุณสมบัติของ RMM และเปรียบเทียบประสิทธิภาพของ RMM กับวิธีการสร้างแบบจำลองอื่นๆ ในปัจจุบัน (สำหรับการปรับการกระจายหรือสำหรับการสร้างแบบจำลองความแปรผันที่เป็นระบบ)
(3)การใช้งาน
Shore (2003a [ 5 ] ) ได้พัฒนาการแปลงแบบปกติผกผัน (INTs) ในช่วงต้นศตวรรษที่ 21 และได้นำไปประยุกต์ใช้กับสาขาวิศวกรรมต่างๆ เช่นการควบคุมกระบวนการทางสถิติ (Shore, 2000a, [ 1 ] b, [ 6 ] 2001a, [ 7 ] b, [ 8 ] 2002a [ 9 ] ) และวิศวกรรมเคมี (Shore et al. , 2002 [ 10 ] ) ต่อมา เมื่อวิธีการสร้างแบบจำลองการตอบสนองใหม่ (RMM) ได้เกิดขึ้นและพัฒนาเป็นแพลตฟอร์มเต็มรูปแบบสำหรับการสร้างแบบจำลองความสัมพันธ์นูนแบบโมโนโทน (ในที่สุดก็ได้รับการนำเสนอในหนังสือ Shore, 2005a [ 2 ] ) คุณสมบัติของ RMM ได้รับการสำรวจ (Shore, 2002b, [ 11 ] 2004a, [ 12 ] b, [ 13 ] 2008a, [ 14 ] 2011 [ 3 ] ) ขั้นตอนการประมาณค่าได้รับการพัฒนา (Shore, 2005a, [ 2 ] b, [ 15 ] 2012 [ 4 ] ) และวิธีการสร้างแบบจำลองใหม่นี้ได้รับการเปรียบเทียบกับแนวทางอื่นๆ สำหรับการสร้างแบบจำลองความแปรผันแบบสุ่ม (Shore 2005c, [ 16 ] 2007, [ 17 ] 2010; [ 18 ] Shore และ A'wad 2010 [ ] 19 ] ) และสำหรับการสร้างแบบจำลองความแปรผันอย่างเป็นระบบ (Shore, 2008b [ 20 ] )
ในขณะเดียวกัน RMM ก็ได้ถูกนำไปประยุกต์ใช้ในสาขาวิทยาศาสตร์และวิศวกรรมต่างๆ และเปรียบเทียบกับแบบจำลองและวิธีการสร้างแบบจำลองที่ใช้กันอยู่ในปัจจุบัน ตัวอย่างเช่น วิศวกรรมเคมี (Shore, 2003b; [ 21 ] Benson-Karhi et al. , 2007; [ 22 ] Shacham et al. , 2008; [ 23 ] Shore and Benson-Karhi, 2010 [ 24 ] ), การควบคุมกระบวนการทางสถิติ (Shore, 2014; [ 25 ] Shore et al. , 2014; [ 26 ] Danoch and Shore, 2016 [ 27 ] ), วิศวกรรมความน่าเชื่อถือ (Shore, 2004c; [ 28 ] Ladany and Shore, 2007 [ 29 ] ), การพยากรณ์ (Shore and Benson-Karhi, 2007 [ 30 ] ), นิเวศวิทยา (Shore, 2014 [ 25 ] ) และวิชาชีพทางการแพทย์ (Shore et al. , 2014 [ 25 ] ) อัล., 2014; [ 26 ]เบนสัน-คาร์ฮีและคณะ , 2560 [ 31 ] ).