แบบจำลองหลายระดับ

แบบจำลองหลายระดับเป็นแบบจำลองทางสถิติของพารามิเตอร์ที่แปรผันได้มากกว่าหนึ่งระดับ^{[ 1 ]}ตัวอย่างเช่น แบบจำลองประสิทธิภาพของนักเรียนที่มีการวัดผลสำหรับนักเรียนแต่ละคน รวมถึงการวัดผลสำหรับห้องเรียนที่นักเรียนถูกจัดกลุ่มไว้ แบบจำลองเหล่านี้ยังเป็นที่รู้จักในชื่อแบบจำลองเชิงเส้นแบบลำดับชั้น แบบจำลองเชิงเส้นแบบผสม แบบจำลองแบบผสม แบบจำลองข้อมูลซ้อน แบบจำลองสัมประสิทธิ์สุ่ม แบบจำลองผลกระทบสุ่ม แบบจำลองพารามิเตอร์สุ่ม หรือการออกแบบแบบแบ่งแปลง แบบจำลองเหล่านี้สามารถมองได้ว่าเป็นการวางนัยทั่วไปของแบบจำลองเชิงเส้น (โดยเฉพาะอย่างยิ่งการถดถอยเชิงเส้น ) แม้ว่าจะสามารถขยายไปสู่แบบจำลองที่ไม่ใช่เชิงเส้นได้เช่นกัน แบบจำลองเหล่านี้ได้รับความนิยมมากขึ้นหลังจากมีกำลังการคำนวณและซอฟต์แวร์ที่เพียงพอ^{[ 1 ]}

แบบจำลองหลายระดับมีความเหมาะสมเป็นพิเศษสำหรับการออกแบบการวิจัยที่ข้อมูลของผู้เข้าร่วมถูกจัดระเบียบไว้มากกว่าหนึ่งระดับ (เช่นข้อมูลซ้อนกัน ) ^{[ 2 ]}หน่วยการวิเคราะห์มักจะเป็นบุคคล (ในระดับที่ต่ำกว่า) ซึ่งซ้อนอยู่ภายในหน่วยบริบท/รวม (ในระดับที่สูงกว่า) ^{[ 3 ]}ในขณะที่ระดับข้อมูลต่ำสุดในแบบจำลองหลายระดับมักจะเป็นบุคคล การวัดซ้ำของบุคคลก็อาจได้รับการตรวจสอบเช่นกัน^{[ 2 ]}^{[ 4 ]}ด้วยเหตุนี้ แบบจำลองหลายระดับจึงเป็นอีกทางเลือกหนึ่งของการวิเคราะห์สำหรับการวิเคราะห์ตัวแปรเดียวหรือหลายตัวแปรของ การวัด ซ้ำความแตกต่างระหว่างบุคคลในเส้นโค้งการเติบโตอาจได้รับการตรวจสอบ^{[ 2 ]}นอกจากนี้ แบบจำลองหลายระดับยังสามารถใช้เป็นทางเลือกแทนANCOVAซึ่งคะแนนของตัวแปรตามจะถูกปรับสำหรับตัวแปรควบคุม (เช่น ความแตกต่างระหว่างบุคคล) ก่อนที่จะทดสอบความแตกต่างของการรักษา^{[ 5 ]}แบบจำลองหลายระดับสามารถวิเคราะห์การทดลองเหล่านี้ได้โดยไม่ต้องมีข้อสมมติฐานเรื่องความสม่ำเสมอของความชันของการถดถอยซึ่งจำเป็นสำหรับ ANCOVA ^{[ 2 ]}

แบบจำลองหลายระดับสามารถใช้กับข้อมูลที่มีหลายระดับได้ แม้ว่าแบบจำลอง 2 ระดับจะเป็นแบบที่ใช้กันทั่วไป และส่วนที่เหลือของบทความนี้จะกล่าวถึงเฉพาะแบบจำลอง 2 ระดับเท่านั้น ตัวแปรตามจะต้องได้รับการตรวจสอบที่ระดับการวิเคราะห์ที่ต่ำที่สุด^{[ 1 ]}

สมการการถดถอยระดับ 1

เมื่อมีตัวแปรอิสระระดับ 1 เพียงตัวเดียว โมเดลระดับ 1 คือ

$Y_{ij}=\beta _{0j}+\beta _{1j}X_{ij}+e_{ij}$ .

$Y_{ij}$ หมายถึงคะแนนของตัวแปรตามสำหรับการสังเกตแต่ละครั้งที่ระดับ j (ตัวห้อย i หมายถึงกรณีแต่ละบุคคล ตัวห้อย j หมายถึงกลุ่ม)
$X_{ij}$ หมายถึงตัวทำนายระดับ 1
$\beta _{0j}$ หมายถึงค่าจุดตัดแกน y ของตัวแปรตามสำหรับกลุ่ม j
$\beta _{1j}$ หมายถึงค่าความชันของความสัมพันธ์ในกลุ่ม j (ระดับ 2) ระหว่างตัวทำนายระดับ 1 และตัวแปรตาม
$e_{ij}$ หมายถึงข้อผิดพลาดแบบสุ่มของการทำนายสำหรับสมการระดับ 1 (บางครั้งก็เรียกว่า) $r_{ij}$

$e_{ij}\sim {\mathcal {N}}(0,\sigma _{1}^{2})$

ที่ระดับ 1 ทั้งค่าจุดตัดและค่าความชันในกลุ่มต่างๆ อาจเป็นค่าคงที่ (หมายความว่าทุกกลุ่มมีค่าเท่ากัน แม้ว่าในโลกแห่งความเป็นจริงจะเป็นเหตุการณ์ที่เกิดขึ้นได้ยาก) เปลี่ยนแปลงแบบไม่สุ่ม (หมายความว่าค่าจุดตัดและ/หรือค่าความชันสามารถคาดการณ์ได้จากตัวแปรอิสระที่ระดับ 2) หรือเปลี่ยนแปลงแบบสุ่ม (หมายความว่าค่าจุดตัดและ/หรือค่าความชันแตกต่างกันในแต่ละกลุ่ม และแต่ละกลุ่มมีค่าเฉลี่ยและความแปรปรวนโดยรวมของตนเอง) ^{[ 2 ]}^{[ 4 ]}

เมื่อมีตัวแปรอิสระระดับ 1 หลายตัว โมเดลสามารถขยายได้โดยการแทนที่เวกเตอร์และเมทริกซ์ลงในสมการ

เมื่อความสัมพันธ์ระหว่างการตอบสนองและตัวทำนายไม่สามารถอธิบายได้ด้วยความสัมพันธ์เชิงเส้นตรง เราสามารถหาความสัมพันธ์เชิงฟังก์ชันที่ไม่เป็นเชิงเส้นระหว่างการตอบสนองและตัวทำนาย และขยายแบบจำลองไปสู่แบบจำลองผลกระทบแบบผสมที่ไม่เป็นเชิงเส้นได้ตัวอย่างเช่น เมื่อการตอบสนองคือวิถีการติดเชื้อสะสมของประเทศที่ -th และแสดงถึงจุดเวลาที่ -th คู่ลำดับสำหรับแต่ละประเทศอาจแสดงรูปร่างที่คล้ายกับฟังก์ชันโลจิสติก^[⁶^]^[⁷^] $Y_{ij}$ $X_{ij}$ $Y_{ij}$ $i$ $X_{ij}$ $j$ $(X_{ij},Y_{ij})$

สมการการถดถอยระดับ 2

ตัวแปรตามคือค่าจุดตัดแกน y และค่าความชันของตัวแปรอิสระที่ระดับ 1 ในกลุ่มของระดับ 2

$u_{0j}\sim {\mathcal {N}}(0,\sigma _{2}^{2})$

$u_{1j}\sim {\mathcal {N}}(0,\sigma _{3}^{2})$

$\beta _{0j}=\gamma _{00}+\gamma _{01}w_{j}+u_{0j}$

$\beta _{1j}=\gamma _{10}+\gamma _{11}w_{j}+u_{1j}$

$\gamma _{00}$ หมายถึงค่าจุดตัดโดยรวม ซึ่งเป็นค่าเฉลี่ยทั้งหมดของคะแนนตัวแปรตามในทุกกลุ่ม เมื่อตัวแปรทำนายทั้งหมดมีค่าเท่ากับ 0
$\gamma _{10}$ หมายถึงค่าความชันเฉลี่ยระหว่างตัวแปรตามและตัวแปรทำนายระดับ 1
$w_{j}$ หมายถึงตัวทำนายระดับ 2
$\gamma _{01}$ และอ้างอิงถึงผลกระทบของตัวทำนายระดับ 2 ต่อค่าจุดตัดแกน y และค่าความชันของระดับ 1 ตามลำดับ $\gamma _{11}$
$u_{0j}$ หมายถึงค่าเบี่ยงเบนของกลุ่ม j จากค่าจุดตัดโดยรวม
$u_{1j}$ หมายถึงค่าเบี่ยงเบนในกลุ่ม j จากค่าความชันเฉลี่ยระหว่างตัวแปรตามและตัวทำนายระดับ 1

ประเภทของโมเดล

ก่อนทำการวิเคราะห์แบบจำลองหลายระดับ นักวิจัยต้องตัดสินใจในหลายแง่มุม รวมถึงตัวทำนายที่จะรวมอยู่ในการวิเคราะห์ หากมี ประการที่สอง นักวิจัยต้องตัดสินใจว่าค่าพารามิเตอร์ (เช่น องค์ประกอบที่จะประมาณค่า) จะเป็นค่าคงที่หรือค่าสุ่ม^{[ 2 ]}^{[ 5 ]}^{[ 4 ]}พารามิเตอร์คงที่ประกอบด้วยค่าคงที่ในทุกกลุ่ม ในขณะที่พารามิเตอร์สุ่มจะมีค่าที่แตกต่างกันสำหรับแต่ละกลุ่ม^{[ 4 ]}นอกจากนี้ นักวิจัยต้องตัดสินใจว่าจะใช้การประมาณค่าความน่าจะเป็นสูงสุดหรือการประมาณค่าความน่าจะเป็นสูงสุดแบบจำกัด^{[ 2 ]}

แบบจำลองจุดตัดแบบสุ่ม

แบบจำลองจุดตัดแบบสุ่มเป็นแบบจำลองที่อนุญาตให้จุดตัดแปรผันได้ ดังนั้น คะแนนของตัวแปรตามสำหรับการสังเกตแต่ละครั้งจึงถูกทำนายโดยจุดตัดที่แปรผันไปตามกลุ่ม^{[ 5 ]}^{[ 8 ]}^{[ 4 ]}แบบจำลองนี้ถือว่าความชันคงที่ (เหมือนกันในบริบทต่างๆ) นอกจากนี้ แบบจำลองนี้ยังให้ข้อมูลเกี่ยวกับความสัมพันธ์ภายในกลุ่มซึ่งเป็นประโยชน์ในการพิจารณาว่าจำเป็นต้องใช้แบบจำลองหลายระดับตั้งแต่แรกหรือไม่^{[ 2 ]}

แบบจำลองความลาดชันแบบสุ่ม

แบบจำลองความชันแบบสุ่มเป็นแบบจำลองที่อนุญาตให้ความชันเปลี่ยนแปลงไปตามเมทริกซ์สหสัมพันธ์ ดังนั้นความชันจึงแตกต่างกันไปตามตัวแปรการจัดกลุ่ม เช่น เวลาหรือบุคคล แบบจำลองนี้ถือว่าจุดตัดคงที่ (เหมือนกันในบริบทต่างๆ) ^{[ 5 ]}

แบบจำลองจุดตัดและค่าความชันแบบสุ่ม

แบบจำลองที่รวมทั้งค่าจุดตัดแบบสุ่มและค่าความชันแบบสุ่มน่าจะเป็นแบบจำลองที่สมจริงที่สุด แม้ว่าจะเป็นแบบจำลองที่ซับซ้อนที่สุดก็ตาม ในแบบจำลองนี้ ทั้งค่าจุดตัดและค่าความชันสามารถเปลี่ยนแปลงได้ในแต่ละกลุ่ม ซึ่งหมายความว่าค่าเหล่านี้จะแตกต่างกันในบริบทต่างๆ^{[ 5 ]}

การพัฒนารูปแบบหลายระดับ

ในการวิเคราะห์แบบจำลองหลายระดับ จะต้องเริ่มต้นด้วยค่าสัมประสิทธิ์คงที่ (ความชันและจุดตัดแกน) อนุญาตให้มีการเปลี่ยนแปลงเพียงด้านเดียวในแต่ละครั้ง (กล่าวคือ จะถูกเปลี่ยนแปลง) และเปรียบเทียบกับแบบจำลองก่อนหน้าเพื่อประเมินความเหมาะสมของแบบจำลองที่ดีขึ้น^{[ 1 ]}นักวิจัยจะถามคำถามที่แตกต่างกันสามข้อในการประเมินแบบจำลอง ข้อแรก แบบจำลองนี้ดีหรือไม่? ข้อที่สอง แบบจำลองที่ซับซ้อนกว่าดีกว่าหรือไม่? ข้อที่สาม ตัวทำนายแต่ละตัวมีส่วนช่วยต่อแบบจำลองอย่างไร?

เพื่อประเมินแบบจำลอง จะมีการตรวจสอบสถิติความเหมาะสมของแบบจำลองที่แตกต่างกัน^{[ 2 ]}สถิติดังกล่าวอย่างหนึ่งคือการทดสอบอัตราส่วนความน่า จะเป็นไคสแควร์ ซึ่งประเมินความแตกต่างระหว่างแบบจำลอง การทดสอบอัตราส่วนความน่าจะเป็นสามารถใช้สำหรับการสร้างแบบจำลองโดยทั่วไป สำหรับการตรวจสอบสิ่งที่เกิดขึ้นเมื่ออนุญาตให้ผลกระทบในแบบจำลองเปลี่ยนแปลง และเมื่อทดสอบตัวแปรเชิงหมวดหมู่ที่เข้ารหัสแบบดัมมี่เป็นผลกระทบเดียว^{[ 2 ]}อย่างไรก็ตาม การทดสอบนี้สามารถใช้ได้เฉพาะเมื่อแบบจำลองซ้อนกัน (หมายความว่าแบบจำลองที่ซับซ้อนกว่าจะรวมผลกระทบทั้งหมดของแบบจำลองที่ง่ายกว่า) เมื่อทดสอบแบบจำลองที่ไม่ซ้อนกัน การเปรียบเทียบระหว่างแบบจำลองสามารถทำได้โดยใช้เกณฑ์ข้อมูล Akaike (AIC) หรือเกณฑ์ข้อมูล Bayesian (BIC) เป็นต้น^{[ 1 ]}^{[ 2 ]}^{[ 5 ]} ดูเพิ่มเติมการ เลือกแบบจำลอง

ข้อสมมติฐาน

แบบจำลองหลายระดับมีข้อสมมติฐานเช่นเดียวกับแบบจำลองเชิงเส้นทั่วไปหลักอื่นๆ (เช่นANOVA , การถดถอย ) แต่ข้อสมมติฐานบางประการจะถูกปรับเปลี่ยนให้เข้ากับลักษณะลำดับชั้นของการออกแบบ (เช่น ข้อมูลแบบซ้อนกัน)

ความเป็นเส้นตรง

ข้อสมมติฐานเรื่องความเป็นเส้นตรงระบุว่ามีความสัมพันธ์เชิงเส้นตรง (เส้นตรง ตรงข้ามกับความสัมพันธ์ที่ไม่เป็นเส้นตรงหรือรูปตัวยู) ระหว่างตัวแปร^{[ 9 ]}อย่างไรก็ตาม โมเดลสามารถขยายไปสู่ความสัมพันธ์ที่ไม่เป็นเส้นตรงได้^{[ 10 ]}โดยเฉพาะอย่างยิ่ง เมื่อส่วนค่าเฉลี่ยของสมการการถดถอยระดับ 1 ถูกแทนที่ด้วยฟังก์ชันพาราเมตริกที่ไม่เป็นเส้นตรง กรอบโมเดลดังกล่าวจึงถูกเรียกว่าโมเดลผลกระทบแบบผสมที่ไม่เป็นเส้นตรงอย่างกว้างขวาง^{[ 7 ]}

ความปกติ

ข้อสมมติฐานเรื่องความปกติระบุว่าค่าความคลาดเคลื่อนในแต่ละระดับของแบบจำลองมีการกระจายแบบปกติ^{[ 9 ]}อย่างไรก็ตาม ซอฟต์แวร์ทางสถิติส่วนใหญ่อนุญาตให้ระบุการกระจายที่แตกต่างกันสำหรับค่าความแปรปรวน เช่น การกระจายแบบปัวซง การกระจายแบบทวินาม การกระจายแบบโลจิสติก แนวทางการสร้างแบบจำลองหลายระดับสามารถใช้ได้กับแบบจำลองเชิงเส้นทั่วไปทุกรูปแบบ

ความแปรปรวนคงที่

ข้อสมมติฐานเรื่องความแปรปรวนคงที่หรือที่รู้จักกันในชื่อความแปรปรวนที่เป็นเนื้อเดียวกัน ถือว่าความแปรปรวนของประชากรเท่ากัน^{[ 9 ]}อย่างไรก็ตาม สามารถระบุเมทริกซ์ความสัมพันธ์ความแปรปรวนที่แตกต่างกันเพื่ออธิบายเรื่องนี้ได้ และความไม่เป็นเนื้อเดียวกันของความแปรปรวนเองก็สามารถสร้างแบบจำลองได้

ความเป็นอิสระของการสังเกต (ไม่มีความสัมพันธ์อัตโนมัติของค่าความคลาดเคลื่อนของแบบจำลอง)

ความเป็นอิสระเป็นสมมติฐานของแบบจำลองเชิงเส้นทั่วไป ซึ่งระบุว่ากรณีต่างๆ เป็นตัวอย่างสุ่มจากประชากร และคะแนนของตัวแปรตามเป็นอิสระต่อกัน^{[ 9 ]} วัตถุประสงค์หลักประการหนึ่งของแบบจำลองหลายระดับคือการจัดการกับกรณีที่สมมติฐานเรื่องความเป็นอิสระถูกละเมิด อย่างไรก็ตาม แบบจำลองหลายระดับจะถือว่า 1) ค่าตกค้างระดับ 1 และระดับ 2 ไม่มีความสัมพันธ์กัน และ 2) ข้อผิดพลาด (ตามที่วัดโดยค่าตกค้าง) ในระดับสูงสุดไม่มีความสัมพันธ์กัน^{[ 11 ]}

ความตั้งฉากของตัวแปรอิสระกับผลกระทบแบบสุ่ม

ตัวแปรอิสระต้องไม่มีความสัมพันธ์กับผลกระทบแบบสุ่มสมมติฐานนี้สามารถทดสอบได้ แต่ส่วนใหญ่มักถูกละเลย ทำให้ตัวประมาณค่าไม่สอดคล้องกัน^[¹²^]หากสมมติฐานนี้ถูกละเมิด ผลกระทบแบบสุ่มจะต้องถูกจำลองอย่างชัดเจนในส่วนคงที่ของแบบจำลอง ไม่ว่าจะโดยการใช้ตัวแปรดัมมี่หรือการรวมค่าเฉลี่ยคลัสเตอร์ของตัวแปรอิสระ ทั้งหมด ^[¹²^]^[¹³^]^[¹⁴^]^[¹⁵^]สมมติฐานนี้อาจเป็นสมมติฐานที่สำคัญที่สุดที่ตัวประมาณค่าใช้ แต่เป็นสมมติฐานที่นักวิจัยประยุกต์ส่วนใหญ่ที่ใช้แบบจำลองประเภทนี้เข้าใจผิด^[¹²^] $u_{0j}$ $X_{ij}$

การทดสอบทางสถิติ

ประเภทของการทดสอบทางสถิติที่ใช้ในแบบจำลองหลายระดับขึ้นอยู่กับว่ากำลังตรวจสอบผลกระทบแบบคงที่หรือส่วนประกอบความแปรปรวน เมื่อตรวจสอบผลกระทบแบบคงที่ การทดสอบจะถูกเปรียบเทียบกับข้อผิดพลาดมาตรฐานของผลกระทบแบบคงที่ ซึ่งส่งผลให้ได้ การ ทดสอบZ ^{[ 5 ]} นอกจากนี้ยังสามารถคำนวณ การทดสอบ tได้อีกด้วย เมื่อคำนวณการทดสอบ t สิ่งสำคัญคือต้องคำนึงถึงระดับความเป็นอิสระ ซึ่งจะขึ้นอยู่กับระดับของตัวทำนาย (เช่น ตัวทำนายระดับ 1 หรือตัวทำนายระดับ 2) ^{[ 5 ]}สำหรับตัวทำนายระดับ 1 ระดับความเป็นอิสระจะขึ้นอยู่กับจำนวนตัวทำนายระดับ 1 จำนวนกลุ่ม และจำนวนการสังเกตแต่ละรายการ สำหรับตัวทำนายระดับ 2 ระดับความเป็นอิสระจะขึ้นอยู่กับจำนวนตัวทำนายระดับ 2 และจำนวนกลุ่ม^{[ 5 ]}

พลังทางสถิติ

กำลังทางสถิติสำหรับแบบจำลองหลายระดับจะแตกต่างกันไป ขึ้นอยู่กับว่ากำลังตรวจสอบผลกระทบระดับ 1 หรือระดับ 2 กำลังสำหรับผลกระทบระดับ 1 ขึ้นอยู่กับจำนวนการสังเกตแต่ละรายการ ในขณะที่กำลังสำหรับผลกระทบระดับ 2 ขึ้นอยู่กับจำนวนกลุ่ม^{[ 16 ]}ในการทำวิจัยด้วยกำลังที่เพียงพอ จำเป็นต้องใช้ขนาดตัวอย่างขนาดใหญ่ในแบบจำลองหลายระดับ อย่างไรก็ตาม จำนวนการสังเกตแต่ละรายการในกลุ่มนั้นไม่สำคัญเท่ากับจำนวนกลุ่มในการศึกษา เพื่อตรวจจับปฏิสัมพันธ์ข้ามระดับ โดยที่ขนาดกลุ่มไม่เล็กเกินไป มีคำแนะนำว่าจำเป็นต้องมีกลุ่มอย่างน้อย 20 กลุ่ม^{[ 16 ]}แม้ว่าจะสามารถใช้กลุ่มน้อยกว่านั้นได้มาก หากสนใจเฉพาะการอนุมานเกี่ยวกับผลกระทบแบบคงที่ และผลกระทบแบบสุ่มเป็นตัวแปรควบคุม หรือตัวแปร "รบกวน" ^{[ 4 ]}ปัญหาของพลังทางสถิติในแบบจำลองหลายระดับมีความซับซ้อนเนื่องจากพลังจะแปรผันตามขนาดของผลกระทบและความสัมพันธ์ภายในกลุ่ม แตกต่างกันระหว่างผลกระทบแบบคงที่กับผลกระทบแบบสุ่ม และเปลี่ยนแปลงไปตามจำนวนกลุ่มและจำนวนการสังเกตแต่ละรายการต่อกลุ่ม^{[ 16 ]}

แอปพลิเคชัน

ระดับ

แนวคิดเรื่องระดับเป็นหัวใจสำคัญของแนวทางนี้ ใน ตัวอย่าง การวิจัยทางการศึกษาระดับสำหรับแบบจำลอง 2 ระดับอาจเป็นดังนี้

นักเรียน
ระดับ

อย่างไรก็ตาม หากศึกษาหลายโรงเรียนและหลายเขตการศึกษา รูปแบบ 4 ระดับอาจรวมถึง...

นักเรียน
ระดับ
โรงเรียน
เขต

นักวิจัยต้องระบุระดับที่วัด ตัวแปร แต่ละตัว ในตัวอย่างนี้ "คะแนนสอบ" อาจวัดในระดับนักเรียน "ประสบการณ์ครู" ในระดับห้องเรียน "งบประมาณโรงเรียน" ในระดับโรงเรียน และ "เขตเมือง" ในระดับเขตการศึกษา

ตัวอย่าง

ยกตัวอย่างง่ายๆ ลองพิจารณาแบบจำลองการถดถอยเชิงเส้นพื้นฐานที่ทำนายรายได้โดยขึ้นอยู่กับอายุ ชั้นทางสังคม เพศ และเชื้อชาติ อาจสังเกตได้ว่าระดับรายได้แตกต่างกันไปตามเมืองและรัฐที่อยู่อาศัย วิธีง่ายๆ ในการรวมสิ่งนี้เข้ากับแบบจำลองการถดถอยคือการเพิ่มตัวแปรอิสระเชิงหมวด หมู่ เพิ่มเติม เพื่ออธิบายถึงสถานที่ตั้ง (เช่น ชุดตัวทำนายแบบไบนารีเพิ่มเติมและสัมประสิทธิ์การถดถอยที่เกี่ยวข้อง หนึ่งตัวต่อสถานที่ตั้ง) ซึ่งจะมีผลทำให้รายได้เฉลี่ยเพิ่มขึ้นหรือลดลง—แต่ก็ยังคงสมมติว่าผลกระทบของเชื้อชาติและเพศต่อรายได้นั้นเหมือนกันทุกที่ ในความเป็นจริงแล้ว สิ่งนี้ไม่น่าจะเป็นไปได้—กฎหมายท้องถิ่นที่แตกต่างกัน นโยบายการเกษียณอายุที่แตกต่างกัน ความแตกต่างในระดับอคติทางเชื้อชาติ ฯลฯ มีแนวโน้มที่จะทำให้ตัวทำนายทั้งหมดมีผลกระทบที่แตกต่างกันในสถานที่ต่างๆ

กล่าวอีกนัยหนึ่ง แบบจำลองการถดถอยเชิงเส้นอย่างง่ายอาจทำนายได้ว่า ตัวอย่างเช่น บุคคลที่สุ่มเลือกมาในซีแอตเติลจะมีรายได้เฉลี่ยต่อปีสูงกว่าบุคคลที่คล้ายคลึงกันในโมบายล์ รัฐอลาบามา ถึง 10,000 ดอลลาร์ อย่างไรก็ตาม แบบจำลองนี้ก็อาจทำนายได้เช่นกันว่า ตัวอย่างเช่น คนผิวขาวอาจมีรายได้เฉลี่ยสูงกว่าคนผิวดำ 7,000 ดอลลาร์ และคนอายุ 65 ปีอาจมีรายได้ต่ำกว่าคนอายุ 45 ปี 3,000 ดอลลาร์ ในทั้งสองกรณีโดยไม่คำนึงถึงสถานที่ตั้ง แต่แบบจำลองหลายระดับจะอนุญาตให้ใช้ค่าสัมประสิทธิ์การถดถอยที่แตกต่างกันสำหรับตัวแปรทำนายแต่ละตัวในแต่ละสถานที่ โดยพื้นฐานแล้ว แบบจำลองนี้จะสมมติว่าผู้คนในสถานที่หนึ่งมีรายได้ที่สัมพันธ์กันซึ่งเกิดจากชุดค่าสัมประสิทธิ์การถดถอยชุดเดียว ในขณะที่ผู้คนในอีกสถานที่หนึ่งมีรายได้ที่เกิดจากชุดค่าสัมประสิทธิ์ที่แตกต่างกัน ในขณะเดียวกัน ค่าสัมประสิทธิ์เหล่านั้นก็ถือว่ามีความสัมพันธ์กันและเกิดจากชุดพารามิเตอร์ไฮเปอร์ชุด เดียว นอกจากนี้ยังสามารถเพิ่มระดับได้อีก เช่น อาจจัดกลุ่มผู้คนตามเมือง และจัดกลุ่มสัมประสิทธิ์การถดถอยระดับเมืองตามรัฐ จากนั้นสร้างสัมประสิทธิ์ระดับรัฐจากไฮเปอร์ไฮเปอร์พารามิเตอร์ตัวเดียว

แบบจำลองหลายระดับเป็นแบบจำลองย่อยของแบบจำลองเบย์เซียนแบบลำดับชั้นซึ่งเป็นแบบจำลองทั่วไปที่มีตัวแปรสุ่ม หลายระดับ และความสัมพันธ์ที่กำหนดขึ้นเองระหว่างตัวแปรต่างๆ การวิเคราะห์หลายระดับได้รับการขยายขอบเขตไปรวมถึงการสร้างแบบจำลองสมการโครงสร้าง หลายระดับ การสร้างแบบจำลองชั้นแฝงหลายระดับและแบบจำลองทั่วไปอื่นๆ

การใช้งาน

แบบจำลองหลายระดับถูกนำมาใช้ในการวิจัยทางการศึกษาหรือการวิจัยทางภูมิศาสตร์ เพื่อประมาณค่าความแปรปรวนระหว่างนักเรียนภายในโรงเรียนเดียวกัน และความแปรปรวนระหว่างโรงเรียนแยกกัน ในการประยุกต์ใช้ทางจิตวิทยา ระดับต่างๆ ได้แก่ รายการในเครื่องมือ บุคคล และครอบครัว ในการประยุกต์ใช้ทางสังคมวิทยา แบบจำลองหลายระดับถูกนำมาใช้เพื่อตรวจสอบบุคคลที่ฝังตัวอยู่ในภูมิภาคหรือประเทศ ใน การวิจัย จิตวิทยาองค์กรข้อมูลจากบุคคลมักจะต้องถูกจัดกลุ่มไว้ภายในทีมหรือหน่วยงานอื่นๆ แบบจำลองเหล่านี้มักถูกนำมาใช้ในการวิจัยเชิงนิเวศวิทยาเช่นกัน ภายใต้คำทั่วไปว่า แบบ จำลองผสม^{[ 4 ]}

ตัวแปรเสริมที่แตกต่างกันอาจมีความเกี่ยวข้องในระดับที่แตกต่างกัน สามารถนำมาใช้ในการศึกษาแบบระยะยาว เช่นเดียวกับการศึกษาเกี่ยวกับการเจริญเติบโต เพื่อแยกแยะการเปลี่ยนแปลงภายในบุคคลเดียวกันและความแตกต่างระหว่างบุคคล

ปฏิสัมพันธ์ข้ามระดับอาจมีความสำคัญอย่างยิ่งเช่นกัน ตัวอย่างเช่น เมื่ออนุญาตให้ความชันเปลี่ยนแปลงแบบสุ่ม ตัวแปรทำนายระดับ 2 อาจถูกรวมอยู่ในสูตรความชันสำหรับตัวแปรอธิบายระดับ 1 ตัวอย่างเช่น อาจประมาณค่าปฏิสัมพันธ์ระหว่างเชื้อชาติและพื้นที่อยู่อาศัยเพื่อประมาณค่าปฏิสัมพันธ์ระหว่างลักษณะเฉพาะของแต่ละบุคคลกับบริบททางสังคม

การประยุกต์ใช้กับข้อมูลระยะยาว (การวัดซ้ำ)

วิธีการวิเคราะห์ข้อมูลแบบลำดับชั้นแบบอื่น

มีวิธีการวิเคราะห์ข้อมูลแบบลำดับชั้นหลายวิธี แม้ว่าส่วนใหญ่จะมีปัญหาอยู่บ้าง ประการแรก สามารถใช้เทคนิคทางสถิติแบบดั้งเดิมได้ โดยการแยกตัวแปรลำดับสูงกว่าลงมาที่ระดับบุคคล และทำการวิเคราะห์ในระดับบุคคลนี้ (เช่น กำหนดตัวแปรชั้นเรียนให้กับระดับบุคคล) ปัญหาของวิธีนี้คือมันจะละเมิดข้อสมมติฐานเรื่องความเป็นอิสระ และอาจทำให้ผลลัพธ์เกิดความลำเอียงได้ นี่คือสิ่งที่เรียกว่าความผิดพลาดแบบอะตอมิก^{[ 17 ]} อีกวิธีหนึ่งในการวิเคราะห์ข้อมูลโดยใช้แนวทางทางสถิติแบบดั้งเดิมคือการรวมตัวแปรระดับบุคคลเข้ากับตัวแปรลำดับสูงกว่า แล้วทำการวิเคราะห์ในระดับที่สูงกว่า ปัญหาของวิธีนี้คือมันจะทิ้งข้อมูลภายในกลุ่มทั้งหมด (เพราะมันใช้ค่าเฉลี่ยของตัวแปรระดับบุคคล) ความแปรปรวนอาจสูญเปล่าได้มากถึง 80–90% และความสัมพันธ์ระหว่างตัวแปรที่รวมกันจะสูงเกินจริงและบิดเบือนไป^{[ 18 ]}สิ่งนี้เรียกว่าความผิดพลาดทางนิเวศวิทยาและในทางสถิติ การวิเคราะห์ประเภทนี้ส่งผลให้พลังลดลง นอกเหนือจากการสูญเสียข้อมูล^{[ 2 ]}

อีกวิธีหนึ่งในการวิเคราะห์ข้อมูลแบบลำดับชั้นคือการใช้แบบจำลองสัมประสิทธิ์แบบสุ่ม แบบจำลองนี้ถือว่าแต่ละกลุ่มมีแบบจำลองการถดถอยที่แตกต่างกัน โดยมีค่าจุดตัดและค่าความชันเป็นของตัวเอง^{[ 5 ]}เนื่องจากมีการสุ่มตัวอย่างกลุ่ม แบบจำลองจึงถือว่าค่าจุดตัดและค่าความชันก็ถูกสุ่มตัวอย่างแบบสุ่มจากประชากรของค่าจุดตัดและค่าความชันของกลุ่มเช่นกัน ซึ่งทำให้สามารถวิเคราะห์ได้ในกรณีที่ค่าความชันคงที่ แต่ค่าจุดตัดสามารถเปลี่ยนแปลงได้^{[ 5 ]}อย่างไรก็ตาม นี่เป็นปัญหา เนื่องจากส่วนประกอบแต่ละส่วนเป็นอิสระต่อกัน แต่ส่วนประกอบของกลุ่มเป็นอิสระต่อกันระหว่างกลุ่ม แต่ขึ้นอยู่กันภายในกลุ่ม นอกจากนี้ยังทำให้สามารถวิเคราะห์ได้ในกรณีที่ค่าความชันเป็นแบบสุ่ม อย่างไรก็ตาม ความสัมพันธ์ของพจน์ความคลาดเคลื่อน (การรบกวน) ขึ้นอยู่กับค่าของตัวแปรระดับบุคคล^{[ 5 ]}ดังนั้น ปัญหาของการใช้แบบจำลองสัมประสิทธิ์แบบสุ่มเพื่อวิเคราะห์ข้อมูลแบบลำดับชั้นคือ ยังไม่สามารถรวมตัวแปรลำดับที่สูงกว่าได้

เงื่อนไขข้อผิดพลาด

แบบจำลองหลายระดับมีพจน์ข้อผิดพลาดสองพจน์ ซึ่งเรียกอีกอย่างว่าการรบกวน ส่วนประกอบแต่ละส่วนเป็นอิสระต่อกัน แต่ยังมีส่วนประกอบกลุ่มซึ่งเป็นอิสระระหว่างกลุ่มแต่มีความสัมพันธ์กันภายในกลุ่ม อย่างไรก็ตาม ส่วนประกอบความแปรปรวนอาจแตกต่างกันได้ เนื่องจากบางกลุ่มมีความเป็นเนื้อเดียวกันมากกว่ากลุ่มอื่น^{[ 18 ]}

แบบจำลองผลกระทบผสมแบบไม่เชิงเส้นของเบย์เซียน

การสร้างแบบจำลองหลายระดับถูกนำมาใช้บ่อยในแอปพลิเคชันที่หลากหลาย และสามารถกำหนดสูตรได้โดยใช้กรอบงานแบบเบย์เซียน โดยเฉพาะอย่างยิ่ง แบบจำลองผสมแบบไม่เชิงเส้นแบบเบย์เซียนได้รับความสนใจอย่างมากในปัจจุบัน แบบจำลองผสมแบบไม่เชิงเส้นแบบเบย์เซียนเวอร์ชันพื้นฐานแสดงได้ในรูปแบบสามขั้นตอนดังต่อไปนี้:

ขั้นตอนที่ 1: แบบจำลองระดับบุคคล

${\begin{aligned}&{y}_{ij}=f(t_{ij};\theta _{1i},\theta _{2i},\ldots ,\theta _{li},\ldots ,\theta _{Ki})+\epsilon _{ij},\\{\phantom {spacer}}\\&\epsilon _{ij}\sim N(0,\sigma ^{2}),\\{\phantom {spacer}}\\&i=1,\ldots ,N,\,j=1,\ldots ,M_{i}.\end{aligned}}$

ขั้นตอนที่ 2: แบบจำลองประชากร

${\begin{aligned}&\theta _{li}=\alpha _{l}+\sum _{b=1}^{P}\beta _{lb}x_{ib}+\eta _{li},\\{\phantom {spacer}}\\&\eta _{li}\sim N(0,\omega _{l}^{2}),\\{\phantom {spacer}}\\&i=1,\ldots ,N,\,l=1,\ldots ,K.\end{aligned}}$

ขั้นตอนที่ 3: ก่อนหน้า

${\begin{aligned}&\sigma ^{2}\sim \pi (\sigma ^{2}),\\{\phantom {spacer}}\\&\alpha _{l}\sim \pi (\alpha _{l}),\\{\phantom {spacer}}\\&(\beta _{l1},\ldots ,\beta _{lb},\ldots ,\beta _{lP})\sim \pi (\beta _{l1},\ldots ,\beta _{lb},\ldots ,\beta _{lP}),\\{\phantom {spacer}}\\&\omega _{l}^{2}\sim \pi (\omega _{l}^{2}),\\{\phantom {spacer}}\\&l=1,\ldots ,K.\end{aligned}}$

ในที่นี้แสดงถึงการตอบสนองอย่างต่อเนื่องของบุคคลที่ ณ จุดเวลาและคือตัวแปรเสริมที่ ของบุคคลที่ พารามิเตอร์ที่เกี่ยวข้องในแบบจำลองเขียนด้วยอักษรกรีกคือฟังก์ชันที่ทราบค่าซึ่งมีพารามิเตอร์เป็นเวกเตอร์มิติโดยทั่วไปคือฟังก์ชัน `ไม่เชิงเส้น' และอธิบายวิถีการเปลี่ยนแปลงตามเวลาของแต่ละบุคคล ในแบบจำลองและ อธิบายความแปรปรวนภายในบุคคลและความแปรปรวนระหว่างบุคคลตามลำดับ หาก ไม่พิจารณา ขั้นตอนที่ 3: ก่อนหน้า แบบจำลองจะลดลงเหลือแบบจำลองผลกระทบแบบผสมไม่เชิงเส้นแบบความถี่ $y_{ij}$ $i$ $t_{ij}$ $x_{ib}$ $b$ $i$ $f(t;\theta _{1},\ldots ,\theta _{K})$ $K$ $(\theta _{1},\ldots ,\theta _{K})$ $f$ $\epsilon _{ij}$ $\eta _{li}$

ภารกิจหลักในการประยุกต์ใช้แบบจำลองผสมแบบไม่เชิงเส้นของเบย์เซียนคือการประเมินความหนาแน่นของความน่าจะเป็นภายหลัง:

$\pi (\{\theta _{li}\}_{i=1,l=1}^{N,K},\sigma ^{2},\{\alpha _{l}\}_{l=1}^{K},\{\beta _{lb}\}_{l=1,b=1}^{K,P},\{\omega _{l}\}_{l=1}^{K}|\{y_{ij}\}_{i=1,j=1}^{N,M_{i}})$

$\propto \pi (\{y_{ij}\}_{i=1,j=1}^{N,M_{i}},\{\theta _{li}\}_{i=1,l=1}^{N,K},\sigma ^{2},\{\alpha _{l}\}_{l=1}^{K},\{\beta _{lb}\}_{l=1,b=1}^{K,P},\{\omega _{l}\}_{l=1}^{K})$

${\begin{aligned}=&~\left.{\pi (\{y_{ij}\}_{i=1,j=1}^{N,M_{i}}|\{\theta _{li}\}_{i=1,l=1}^{N,K},\sigma ^{2})}\right\}{\text{Stage 1: Individual-Level Model}}\\{\phantom {spacer}}\\\times &~\left.{\pi (\{\theta _{li}\}_{i=1,l=1}^{N,K}|\{\alpha _{l}\}_{l=1}^{K},\{\beta _{lb}\}_{l=1,b=1}^{K,P},\{\omega _{l}\}_{l=1}^{K})}\right\}{\text{Stage 2: Population Model}}\\{\phantom {spacer}}\\\times &~\left.{p(\sigma ^{2},\{\alpha _{l}\}_{l=1}^{K},\{\beta _{lb}\}_{l=1,b=1}^{K,P},\{\omega _{l}\}_{l=1}^{K})}\right\}{\text{Stage 3: Prior}}\end{aligned}}$

แผงด้านขวาแสดงวงจรการวิจัยแบบเบย์เซียนโดยใช้แบบจำลองผลกระทบผสมแบบไม่เชิงเส้นของเบย์เซียน^{[ 19 ]}วงจรการวิจัยโดยใช้แบบจำลองผลกระทบผสมแบบไม่เชิงเส้นของเบย์เซียนประกอบด้วยสองขั้นตอน: (ก) วงจรการวิจัยมาตรฐาน และ (ข) ขั้นตอนการทำงานเฉพาะของเบย์เซียน วงจรการวิจัยมาตรฐานประกอบด้วยการทบทวนวรรณกรรม การกำหนดปัญหา และการระบุคำถามวิจัยและสมมติฐาน ขั้นตอนการทำงานเฉพาะของเบย์เซียนประกอบด้วยสามขั้นตอนย่อย: (ข)–(i) การกำหนดรูปแบบการแจกแจงก่อนหน้าโดยอาศัยความรู้พื้นฐานและการดึงข้อมูลก่อนหน้า (ข)–(ii) การกำหนดฟังก์ชันความน่าจะเป็นโดยอาศัยฟังก์ชันไม่เชิงเส้นและ (ข)–(iii) การอนุมานภายหลัง การอนุมานภายหลังที่ได้สามารถนำมาใช้เพื่อเริ่มต้นวงจรการวิจัยใหม่ได้ $f$

ดูเพิ่มเติม

หมายเหตุ

อ่านเพิ่มเติม

Gelman, A. ; Hill, J. ( 2007). การวิเคราะห์ข้อมูลโดยใช้การถดถอยและแบบจำลองหลายระดับ/ลำดับชั้นนิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ หน้า 235–299 ISBN 978-0-521-68689-1.
โกลด์สไตน์, เอช. (2011). แบบจำลองทางสถิติหลายระดับ (ฉบับที่ 4). ลอนดอน: ไวลีย์. ISBN 978-0-470-74865-7.
Hedeker, D.; Gibbons, RD (2012). การวิเคราะห์ข้อมูลระยะยาว (ฉบับที่ 2). นิวยอร์ก: Wiley. ISBN 978-0-470-88918-3.
Hox, JJ (2010). การวิเคราะห์หลายระดับ: เทคนิคและการประยุกต์ใช้ (ฉบับที่ 2). นิวยอร์ก: Routledge. ISBN 978-1-84872-845-5.
Raudenbush, SW; Bryk, AS (2002). แบบจำลองเชิงเส้นลำดับชั้น: การประยุกต์ใช้และวิธีการวิเคราะห์ข้อมูล (ฉบับที่ 2). Thousand Oaks, CA: Sage. เรื่องนี้มุ่งเน้นไปที่ด้านการศึกษาเป็นหลัก
Snijders, TAB; Bosker, RJ (2011). การวิเคราะห์หลายระดับ: บทนำสู่การสร้างแบบจำลองหลายระดับขั้นพื้นฐานและขั้นสูง (ฉบับที่ 2). ลอนดอน: Sage. ISBN 978-1-4462-5433-2.
Swamy, PAVB ; Tavlas, George S. (2001). "แบบจำลองสัมประสิทธิ์สุ่ม". ใน Baltagi, Badi H. (บรรณาธิการ). คู่มือประกอบทฤษฎีเศรษฐศาสตร์ . อ็อกซ์ฟอร์ด: Blackwell. หน้า 410–429 . ISBN 978-0-631-21254-6.
Verbeke, G.; Molenberghs, G. (2013). แบบจำลองผสมเชิงเส้นสำหรับข้อมูลระยะยาว . Springer.รวมถึงโค้ดSAS
Gomes, Dylan GE (20 มกราคม 2022). "ฉันควรใช้ fixed effects หรือ random effects เมื่อปัจจัยการจัดกลุ่มมีน้อยกว่าห้าระดับในแบบจำลอง mixed-effects?" . PeerJ . 10 e12794. doi : 10.7717/peerj.12794 . PMC 8784019 . PMID 35116198 .
Hajjem, Ahlem; Bellavance, François; Larocque, Denis (2011). "ต้นไม้การถดถอยแบบผลกระทบผสมสำหรับข้อมูลแบบคลัสเตอร์" . จดหมายสถิติและความน่าจะเป็น . 81 (4): 451– 459. doi : 10.1016/j.spl.2010.12.003 . ISSN 0167-7152 .
Hajjem, Ahlem; Larocque, Denis; Bellavance, François (2017). "ต้นไม้การถดถอยแบบผสมทั่วไป" . จดหมายสถิติและความน่าจะเป็น . 126 : 114– 118. doi : 10.1016/j.spl.2017.02.033 . ISSN 0167-7152 .
Hajjem, Ahlem; Bellavance, François; Larocque, Denis (3 มิถุนายน 2014). "ป่าสุ่มแบบผสมสำหรับข้อมูลแบบคลัสเตอร์"วารสารการคำนวณทางสถิติและการจำลอง 84 ( 6): 1313– 1328. doi : 10.1080/00949655.2012.741599 . ISSN 0094-9655 .

ลิงก์ภายนอก

ศูนย์การสร้างแบบจำลองหลายระดับ

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[

[

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[

[

[

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]