สัมประสิทธิ์สหสัมพันธ์แบบจุด-ไบซีเรียล

Q: การคำนวณ

ในการคำนวณ r pb ให้สมมติว่าตัวแปรทวิภาค Y มีค่าสองค่าคือ 0 และ 1 ถ้าเราแบ่ง ชุดข้อมูล ออกเป็นสองกลุ่ม กลุ่มที่ 1 ได้รับค่า "1" บน Y และกลุ่มที่ 2 ได้รับค่า "0" บน Y สัมประสิทธิ์สหสัมพันธ์แบบจุด-ไบซีเรียลจะคำนวณได้ดังนี้:

Q: ลิงก์ภายนอก

สัมประสิทธิ์จุดไบซีเรียล (คีธ คาลกินส์, 2005) ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Point-biserial_correlation_coefficient&oldid=1289424476 "

สัมประสิทธิ์สหสัมพันธ์แบบจุดไบซีเรียล ( r pb ₎เป็นสัมประสิทธิ์สหสัมพันธ์ที่ใช้เมื่อตัวแปรหนึ่ง (เช่นY ) เป็นตัวแปรแบบสองค่าโดยYอาจเป็นตัวแปรแบบสองค่าโดย "ธรรมชาติ" เช่น การที่เหรียญออกหัวหรือก้อย หรือเป็นตัวแปรแบบสองค่าที่สร้างขึ้นมา ในสถานการณ์ส่วนใหญ่ ไม่ควรสร้างตัวแปรแบบสองค่าขึ้นมา^{[ 1 ]}เมื่อตัวแปรใหม่ถูกสร้างให้เป็นตัวแปรแบบสองค่าขึ้นมา ตัวแปรแบบสองค่าใหม่นี้อาจถูกมองว่ามีความต่อเนื่องอยู่เบื้องหลัง หากเป็นเช่นนั้น การคำนวณ สหสัมพันธ์แบบไบซีเรียลจะเหมาะสมกว่า

ค่าสัมประสิทธิ์สหสัมพันธ์แบบจุด-ไบซีเรียลนั้นเทียบเท่าทางคณิตศาสตร์กับค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน (ผลคูณโมเมนต์)กล่าวคือ ถ้าเรามีตัวแปรที่วัดได้ต่อเนื่องหนึ่งตัวXและตัวแปรแบบสองค่าY ค่า r _XY = r _pbซึ่งสามารถแสดงได้โดยการกำหนดค่าตัวเลขสองค่าที่แตกต่างกันให้กับตัวแปรแบบสองค่า

การคำนวณ

ในการคำนวณr _pbให้สมมติว่าตัวแปรทวิภาคYมีค่าสองค่าคือ 0 และ 1 ถ้าเราแบ่งชุดข้อมูลออกเป็นสองกลุ่ม กลุ่มที่ 1 ได้รับค่า "1" บนYและกลุ่มที่ 2 ได้รับค่า "0" บนYสัมประสิทธิ์สหสัมพันธ์แบบจุด-ไบซีเรียลจะคำนวณได้ดังนี้:

r_{pb}={\frac {M_{1}-M_{0}}{s_{n}}}{\sqrt {\frac {n_{1}n_{0}}{n^{2}}}},

โดยที่s _nคือค่าเบี่ยงเบนมาตรฐานที่ใช้เมื่อมีข้อมูลสำหรับสมาชิกทุกคนในประชากร:

s_{n}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}\,,

โดยที่ M ₁คือค่าเฉลี่ยของตัวแปรต่อเนื่องXสำหรับจุดข้อมูลทั้งหมดในกลุ่มที่ 1 และM ₀คือค่าเฉลี่ยของตัวแปรต่อเนื่องXสำหรับจุดข้อมูลทั้งหมดในกลุ่มที่ 2 นอกจากนี้n ₁คือจำนวนจุดข้อมูลในกลุ่มที่ 1, n ₀คือจำนวนจุดข้อมูลในกลุ่มที่ 2 และnคือขนาดตัวอย่างทั้งหมด สูตรนี้เป็นสูตรคำนวณที่ได้มาจากสูตรสำหรับr _XYเพื่อลดขั้นตอนในการคำนวณ ทำให้คำนวณได้ง่ายกว่า r _XY

มีสูตรเทียบเท่าที่ใช้s _{n −1} :

r_{pb}={\frac {M_{1}-M_{0}}{s_{n-1}}}{\sqrt {\frac {n_{1}n_{0}}{n(n-1)}}},

โดยที่s _{n −1}คือค่าเบี่ยงเบนมาตรฐานที่ใช้เมื่อมีข้อมูลเฉพาะสำหรับกลุ่มตัวอย่างของประชากรเท่านั้น:

s_{n-1}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}.

สูตรเวอร์ชันที่ใช้s _{n −1}มีประโยชน์หากกำลังคำนวณสัมประสิทธิ์สหสัมพันธ์แบบจุดสองอนุกรมในภาษาโปรแกรมหรือสภาพแวดล้อมการพัฒนาอื่นๆ ที่มีฟังก์ชันสำหรับการคำนวณ^s n _{−1แต่}ไม่มีฟังก์ชันสำหรับการคำนวณs _n^[² ]

นอกจากนี้ ค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์แบบจุดสองกลุ่มสามารถเขียนได้ดังนี้:

{\frac {(M_{1}-M_{0})^{2}}{\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}\left({\frac {n_{1}n_{0}}{n}}\right)\,.

เราสามารถทดสอบสมมติฐานว่างที่ว่าค่าสัมประสิทธิ์สหสัมพันธ์เป็นศูนย์ในประชากรได้ การคำนวณทางพีชคณิตเล็กน้อยแสดงให้เห็นว่าสูตรปกติสำหรับการประเมินความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์ เมื่อนำไปใช้กับr _pbจะเหมือนกับสูตรสำหรับการทดสอบ t แบบไม่จับคู่ ดังนั้น

r_{pb}{\sqrt {\frac {n_{1}+n_{0}-2}{1-r_{pb}^{2}}}}

เป็นไปตามการแจกแจงแบบ t ของนักเรียนโดยมีองศาอิสระ ( n ₁ + n ₀ − 2) เมื่อสมมติฐานว่างเป็นจริง

ข้อเสียอย่างหนึ่งของสัมประสิทธิ์ไบซีเรียลแบบจุดคือ ยิ่งการกระจายของYอยู่ห่างจาก 50/50 มากเท่าไร ช่วงค่าที่สัมประสิทธิ์สามารถรับได้ก็จะยิ่งถูกจำกัดมากขึ้นเท่านั้น หากสามารถสันนิษฐานได้ว่าตัวแปรสองค่าYมีการกระจายแบบปกติ ดัชนีเชิงพรรณนาที่ดีกว่าจะได้รับจากสัมประสิทธิ์ไบซีเรียล: ^{[ 3 ]}

r_{b}={\frac {M_{1}-M_{0}}{s_{n-1}}}{\frac {n_{1}n_{0}}{n^{2}\phi \left(\Phi ^{-1}\left(n_{1}/n\right)\right)}}{\sqrt {\frac {n}{n-1}}},

โดยที่คือความหนาแน่นของการแจกแจงปกติที่มีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนเป็นหนึ่ง และคือฟังก์ชันการแจกแจงสะสมผกผัน ของมัน การคำนวณค่านี้ไม่ใช่เรื่องง่าย และสัมประสิทธิ์ไบซีเรียลก็ไม่ได้ถูกนำมาใช้กันอย่างแพร่หลายในทางปฏิบัติ $\phi$ $\Phi ^{-1}$

กรณีเฉพาะของการสหสัมพันธ์แบบไบซีเรียลเกิดขึ้นเมื่อXเป็นผลรวมของตัวแปรทวิภาคจำนวนหนึ่งซึ่งYเป็นหนึ่งในนั้น ตัวอย่างเช่น เมื่อX เป็นคะแนนรวมของบุคคลในการทดสอบที่ประกอบด้วยข้อสอบ แบบทวิภาคจำนวน nข้อ สถิติที่น่าสนใจ (ซึ่งเป็นดัชนีการจำแนก) คือสหสัมพันธ์ระหว่างการตอบสนองต่อข้อสอบแต่ละข้อกับคะแนนรวมของการทดสอบที่สอดคล้องกัน มีการคำนวณสามแบบที่ใช้กันอย่างแพร่หลาย^{[ 4 ]}ซึ่งทั้งหมดเรียกว่าสหสัมพันธ์แบบจุดไบซีเรียล : (i) สหสัมพันธ์เพียร์สันระหว่างคะแนนข้อสอบแต่ละข้อกับคะแนนรวมของการทดสอบโดยรวมคะแนนข้อสอบแต่ละข้อ (ii) สหสัมพันธ์เพียร์สันระหว่างคะแนนข้อสอบแต่ละข้อกับคะแนนรวมของการทดสอบโดยไม่รวมคะแนนข้อสอบแต่ละข้อ และ (iii) สหสัมพันธ์ที่ปรับแก้สำหรับอคติที่เกิดจากการรวมคะแนนข้อสอบแต่ละข้อในคะแนนการทดสอบ สหสัมพันธ์ (iii) คือ

r_{upb}={\frac {M_{1}-M_{0}-1}{\sqrt {{\frac {n^{2}s_{n}^{2}}{n_{1}n_{0}}}-2(M_{1}-M_{0})+1}}}.

สัมประสิทธิ์ไบซีเรียลแบบจุดมีรูปแบบที่แตกต่างออกไปเล็กน้อย คือ สัมประสิทธิ์ไบซีเรียลแบบอันดับ ซึ่งเกิดขึ้นเมื่อตัวแปรXประกอบด้วยอันดับ ในขณะที่Yเป็นตัวแปรทวิภาค เราสามารถคำนวณสัมประสิทธิ์ในลักษณะเดียวกับกรณีที่Xเป็นตัวแปรต่อเนื่องได้ แต่จะมีข้อเสียเช่นเดียวกันคือ ช่วงของค่าที่สัมประสิทธิ์สามารถรับได้จะแคบลงเมื่อการกระจายของYไม่เท่ากันมากขึ้น เพื่อแก้ไขปัญหานี้ เราสังเกตว่าสัมประสิทธิ์จะมีค่ามากที่สุดเมื่ออันดับที่เล็กที่สุดอยู่ตรงข้ามกับ 0 และอันดับที่ใหญ่ที่สุดอยู่ตรงข้ามกับ 1 ค่าที่น้อยที่สุดจะเกิดขึ้นเมื่อเป็นกรณีตรงกันข้าม ค่าเหล่านี้คือบวกและลบ ( _n1+ n0 ) /2 ตามลำดับ ดังนั้นเราจึงสามารถใช้ส่วนกลับของค่านี้เพื่อปรับขนาดความแตกต่างระหว่างค่าเฉลี่ยอันดับที่สังเกตได้ _ให้อยู่ในช่วงตั้งแต่บวกหนึ่งถึงลบหนึ่ง ผลลัพธ์คือ

r_{rb}=2{\frac {M_{1}-M_{0}}{n_{1}+n_{0}}},

โดยที่M ₁และM ₀คือค่าเฉลี่ยของอันดับที่สอดคล้องกับคะแนน 1 และ 0 ของตัวแปรทวิภาค ตามลำดับ สูตรนี้ซึ่งช่วยลดความซับซ้อนของการคำนวณจากการนับความสอดคล้องและการผกผัน เป็นผลงานของ Gene V Glass (1966)

สามารถใช้สิ่งนี้เพื่อทดสอบสมมติฐานว่างของการไม่มีความสัมพันธ์ในประชากรที่สุ่มตัวอย่างมาได้ หากคำนวณ r _{rb ตามข้างต้นแล้ว ค่าที่น้อยกว่าของ}

(1+r_{rb}){\frac {n_{1}n_{0}}{2}}

และ

(1-r_{rb}){\frac {n_{1}n_{0}}{2}}

มีการแจกแจงแบบMann–Whitney Uโดยมีขนาดตัวอย่างn ₁และn ₀เมื่อสมมติฐานว่างเป็นจริง

ลิงก์ภายนอก

สัมประสิทธิ์จุดไบซีเรียล (คีธ คาลกินส์, 2005)

[ 1 ]

s

[ 3 ]

[ 4 ]

สัมประสิทธิ์สหสัมพันธ์แบบจุด-ไบซีเรียล

การคำนวณ

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ