กลับไปหน้าบทความ

อ่าน 15 นาที

ความสัมพันธ์

ใน ทางสถิติ ความสัมพันธ์เชิงสถิติ เป็นความสัมพันธ์ทางสถิติระหว่าง ตัวแปรสุ่ม สองตัว หรือ ข้อมูลสองตัวแปร โดยทั่วไปหมายถึงขอบเขตที่ปริมาณสองอย่างมี ความสัมพันธ์เชิงเส้นตรง...

ความสัมพันธ์

แผนภาพ แสดงชุดจุด ( xy ) หลายชุด พร้อมด้วยค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันของxและyสำหรับแต่ละชุด ค่าสหสัมพันธ์สะท้อนถึงความผันผวนและทิศทางของความสัมพันธ์เชิงเส้น (แถวบนสุด) แต่ไม่ได้สะท้อนถึงความชันของความสัมพันธ์นั้น (แถวกลาง) หรือลักษณะหลายประการของความสัมพันธ์ที่ไม่เป็นเชิงเส้น (แถวล่างสุด) หมายเหตุ: รูปตรงกลางมีความชันเป็น 0 แต่ในกรณีนั้น ค่าสัมประสิทธิ์สหสัมพันธ์จะไม่สามารถหาค่าได้ เนื่องจากความแปรปรวนของYเป็นศูนย์

ในทางสถิติความสัมพันธ์เชิงสถิติเป็นความสัมพันธ์ทางสถิติระหว่างตัวแปรสุ่ม สองตัว หรือข้อมูลสองตัวแปรโดยทั่วไปหมายถึงขอบเขตที่ปริมาณสองอย่างมีความสัมพันธ์เชิงเส้นตรงโดยทั่วไปแล้ว ความสัมพันธ์ใดๆ ระหว่างตัวแปรเรียกว่าความสัมพันธ์ เชิงสถิติ ซึ่งหมายถึงระดับที่ความแปรปรวนในตัวแปรหนึ่งสามารถอธิบายได้ด้วยตัวแปรอื่น[ 1 ] [ 2 ]

การมีความสัมพันธ์กันเพียงอย่างเดียวไม่เพียงพอที่จะสรุปได้ว่ามี ความสัมพันธ์ เชิงสาเหตุ (กล่าวคือความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ ) ยิ่งไปกว่านั้น แนวคิดเรื่องความสัมพันธ์ไม่เหมือนกับการพึ่งพาซึ่งกันและกัน กล่าวคือ ถ้าตัวแปรสองตัวเป็นอิสระต่อกัน ตัวแปรทั้งสองจะไม่มีความสัมพันธ์กัน แต่ในทางกลับกันนั้นไม่จำเป็นเสมอไป แม้ว่าตัวแปรสองตัวจะไม่มีความสัมพันธ์กัน แต่ก็อาจพึ่งพาซึ่งกันและกันได้

ความสัมพันธ์เชิงสถิติมีประโยชน์เพราะสามารถบ่งชี้ความสัมพันธ์เชิงทำนายที่สามารถนำไปใช้ประโยชน์ได้จริง ตัวอย่างเช่น บริษัทผลิตไฟฟ้าอาจผลิตไฟฟ้าน้อยลงในวันที่อากาศไม่ร้อนจัด โดยอาศัยความสัมพันธ์ระหว่างความต้องการใช้ไฟฟ้าและสภาพอากาศ ในตัวอย่างนี้มีความสัมพันธ์เชิงสาเหตุ เพราะสภาพอากาศที่รุนแรงทำให้ผู้คนใช้ไฟฟ้ามากขึ้นสำหรับการทำความร้อนหรือความเย็น

มีสัมประสิทธิ์สหสัมพันธ์ หลายตัว ที่สามารถใช้ในการวัดความสัมพันธ์ ซึ่งมักจะใช้สัญลักษณ์หรือ สัมประสิทธิ์สหสัมพันธ์ ที่พบได้บ่อยที่สุดคือสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันซึ่งมีความไวต่อความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวเท่านั้น (ซึ่งอาจมีอยู่แม้ว่าตัวแปรหนึ่งจะเป็นฟังก์ชันที่ไม่เป็นเชิงเส้นของอีกตัวแปรหนึ่งก็ตาม) สัมประสิทธิ์สหสัมพันธ์อื่นๆ เช่นสัมประสิทธิ์สหสัมพันธ์ลำดับของสเปียร์แมนได้รับการพัฒนาขึ้นเพื่อให้มีความแข็งแกร่ง กว่า ของเพียร์สันและสามารถตรวจจับความสัมพันธ์ที่มีโครงสร้างน้อยกว่าระหว่างตัวแปรได้[ 3 ] [ 4 ] [ 5 ]

แนวคิดนี้ได้รับการขยายไปสู่รูปแบบความสัมพันธ์อื่นๆ ระหว่างตัวแปรสองตัว เช่นข้อมูลร่วมกันและความแปรปรวนตามระยะทาง

สัมประสิทธิ์

สัมประสิทธิ์ผลคูณโมเมนต์ของเพียร์สัน

ตัวอย่างแผนภาพกระจายของชุดข้อมูลต่างๆ ที่มีค่าสัมประสิทธิ์สหสัมพันธ์ต่างกัน

มาตรวัดความสัมพันธ์ที่คุ้นเคยที่สุดระหว่างปริมาณสองอย่างคือสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน ซึ่งโดยทั่วไปเรียกว่า 'สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน' หรือเรียกง่ายๆ ว่า 'สัมประสิทธิ์สหสัมพันธ์' (เนื่องจากเป็นรูปแบบที่ใช้กันทั่วไปมากที่สุด) ได้มาจากการหาอัตราส่วนของความแปรปรวนร่วมระหว่างตัวแปรสองตัวในชุดข้อมูลเชิงตัวเลขที่ปรับให้เป็นมาตรฐานตามรากที่สองของความแปรปรวนของตัวแปรเหล่านั้น หรืออีกนัยหนึ่ง สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสามารถคำนวณได้โดยการหารความแปรปรวนร่วมของตัวแปรทั้งสองด้วยผลคูณของส่วนเบี่ยงเบนมาตรฐานของตัวแปรเหล่านั้นคาร์ล เพียร์สันพัฒนาสัมประสิทธิ์นี้จากแนวคิดที่คล้ายคลึงกันของฟรานซิส กัลตัน[ 6 ]

สัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน (Pearson product-moment correlation coefficient) พยายามสร้างเส้นที่เหมาะสมที่สุดผ่านชุดข้อมูลของตัวแปรสองตัว โดยพื้นฐานแล้วคือการแสดงค่าที่คาดหวัง และสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันที่ได้จะบ่งชี้ว่าชุดข้อมูลจริงอยู่ห่างจากค่าที่คาดหวังมากน้อยเพียงใด ขึ้นอยู่กับเครื่องหมายของสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน ผลลัพธ์อาจเป็นสหสัมพันธ์เชิงลบหรือเชิงบวก หากมีความสัมพันธ์ใดๆ ระหว่างตัวแปรในชุดข้อมูล

สัมประสิทธิ์สหสัมพันธ์ประชากรระหว่างตัวแปรสุ่ม สองตัว ที่มีค่าเฉลี่ยและ ค่าเบี่ยง เบนมาตรฐานคือ:

โดยที่คือตัวดำเนินการค่าคาดหวังหมายถึงความแปรปรวนร่วมและคือสัญลักษณ์ทางเลือกที่ใช้กันอย่างแพร่หลายสำหรับสัมประสิทธิ์สหสัมพันธ์ สหสัมพันธ์เพียร์สันจะนิยามได้ก็ต่อเมื่อค่าเบี่ยงเบนมาตรฐานทั้งสองมีค่าจำกัดและเป็นบวกเท่านั้น สูตรทางเลือกที่ใช้เฉพาะโมเมนต์คือ:

ความสัมพันธ์และความเป็นอิสระ

เป็นผลลัพธ์จากอสมการโคชี-ชวาร์ซที่ว่าค่าสัมบูรณ์ของสัมประสิทธิ์สหสัมพันธ์เพียร์สันต้องไม่เกิน 1 ดังนั้น ค่าของสัมประสิทธิ์สหสัมพันธ์จึงอยู่ในช่วงระหว่าง -1 ถึง +1 สัมประสิทธิ์สหสัมพันธ์จะเป็น +1 ในกรณีที่มีความสัมพันธ์เชิงเส้นตรงแบบสมบูรณ์ (เพิ่มขึ้น) (สหสัมพันธ์) และจะเป็น -1 ในกรณีที่มีความสัมพันธ์เชิงเส้นตรงแบบผกผัน (ลดลง) ( สหสัมพันธ์ผกผัน ) [ 7 ]และจะมีค่าอยู่ในช่วงเปิด ในกรณีอื่นๆ ทั้งหมด ซึ่งบ่งชี้ถึงระดับการพึ่งพาเชิงเส้นระหว่างตัวแปร ยิ่งค่าเข้าใกล้ศูนย์มากเท่าใด ความสัมพันธ์ก็จะยิ่งน้อยลง (ใกล้เคียงกับไม่มีสหสัมพันธ์) ยิ่งค่าสัมประสิทธิ์เข้าใกล้ -1 หรือ 1 มากเท่าใด สหสัมพันธ์ระหว่างตัวแปรก็จะยิ่งแข็งแกร่งมากขึ้นเท่านั้น

ถ้าตัวแปรเป็นอิสระต่อกันค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันจะเป็น 0 อย่างไรก็ตาม เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์ตรวจจับได้เฉพาะความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวเท่านั้น ดังนั้นในทางกลับกันจึงไม่จำเป็นต้องเป็นจริงเสมอไป ค่าสัมประสิทธิ์สหสัมพันธ์เป็น 0 ไม่ได้หมายความว่าตัวแปรเป็นอิสระต่อกันเสมอไป

ตัวอย่างเช่น สมมติว่าตัวแปรสุ่มมีการแจกแจงแบบสมมาตรเกี่ยวกับศูนย์ และ. แล้วจะถูกกำหนดโดย อย่างสมบูรณ์ดังนั้นและจึงขึ้นต่อกันอย่างสมบูรณ์ แต่ค่าสหสัมพันธ์เป็นศูนย์ พวกมันจึงไม่มีความสัมพันธ์กันอย่างไรก็ตาม ในกรณีพิเศษเมื่อและมีการแจกแจงแบบปกติร่วมกันความไม่มีความสัมพันธ์กันจะเทียบเท่ากับความเป็นอิสระต่อกัน

แม้ว่าข้อมูลที่ไม่สัมพันธ์กันไม่ได้หมายความว่าข้อมูลเหล่านั้นจะเป็นอิสระต่อกันเสมอไป แต่เราสามารถตรวจสอบได้ว่าตัวแปรสุ่มเป็นอิสระต่อกันหรือไม่ หากค่าข้อมูลร่วม (mutual information) ของตัวแปร เหล่านั้น เป็น 0

สัมประสิทธิ์สหสัมพันธ์ตัวอย่าง

เมื่อทราบค่าการวัดคู่ข้อมูลที่ระบุด้วยดัชนีแล้วสัมประสิทธิ์สหสัมพันธ์ตัวอย่างสามารถใช้ประมาณค่าสหสัมพันธ์เพียร์สันของประชากรระหว่างและได้ โดยสัมประสิทธิ์สหสัมพันธ์ตัวอย่างนิยามได้ดังนี้

โดยที่และ คือ ค่าเฉลี่ยตัวอย่างของและและและคือ ค่า เบี่ยง เบนมาตรฐานตัวอย่างที่แก้ไขแล้วของและ

นิพจน์ที่เทียบเท่าสำหรับคือ

โดยที่และคือ ค่าเบี่ยงเบนมาตรฐาน ของ ตัวอย่างที่ยังไม่ได้แก้ไขของและ

ถ้าและเป็นผลจากการวัดที่มีข้อผิดพลาดในการวัด ขีดจำกัดที่สมจริงของสัมประสิทธิ์สหสัมพันธ์จะไม่ใช่ −1 ถึง +1 แต่เป็นช่วงที่เล็กกว่า[ 8 ]สำหรับกรณีของแบบจำลองเชิงเส้นที่มีตัวแปรอิสระตัวเดียวสัมประสิทธิ์การกำหนด (R กำลังสอง)คือกำลังสองของสัมประสิทธิ์ผลคูณโมเมนต์ของเพียร์สัน

ตัวอย่าง

พิจารณาการแจกแจงความน่าจะเป็นร่วมของXและYที่แสดงในตารางด้านล่าง

y
x
−1 0 1
0 0 1/30
1 1/30 1/3

สำหรับการแจกแจงร่วมนี้การแจกแจงแบบมาร์จินัลมีดังนี้:

ซึ่งจะได้ค่าคาดการณ์และค่าความคลาดเคลื่อนดังต่อไปนี้:

ดังนั้น:

สัมประสิทธิ์สหสัมพันธ์ลำดับ

สัมประสิทธิ์ สหสัมพันธ์ลำดับเช่นสัมประสิทธิ์สหสัมพันธ์ลำดับของสเปียร์แมนและสัมประสิทธิ์สหสัมพันธ์ลำดับของเคนดัล (τ)วัดขอบเขตที่เมื่อตัวแปรหนึ่งเพิ่มขึ้น ตัวแปรอีกตัวหนึ่งมีแนวโน้มที่จะเพิ่มขึ้น โดยไม่จำเป็นต้องแสดงการเพิ่มขึ้นนั้นด้วยความสัมพันธ์เชิงเส้น หากเมื่อตัวแปรหนึ่งเพิ่มขึ้น ตัวแปรอีกตัวหนึ่งลดลงสัมประสิทธิ์สหสัมพันธ์ลำดับจะเป็นค่าลบ โดยทั่วไปมักมองว่าสัมประสิทธิ์สหสัมพันธ์ลำดับเหล่านี้เป็นทางเลือกแทนสัมประสิทธิ์ของเพียร์สัน ซึ่งใช้เพื่อลดปริมาณการคำนวณหรือเพื่อให้สัมประสิทธิ์มีความไวต่อความไม่ปกติของการกระจายตัวน้อยลง อย่างไรก็ตาม มุมมองนี้มีพื้นฐานทางคณิตศาสตร์น้อย เนื่องจากสัมประสิทธิ์สหสัมพันธ์ลำดับวัดความสัมพันธ์ประเภทที่แตกต่างจากสัมประสิทธิ์สหสัมพันธ์ผลคูณโมเมนต์ของเพียร์สันและควรพิจารณาว่าเป็นมาตรวัดความสัมพันธ์ประเภทที่แตกต่างกัน มากกว่าที่จะเป็นมาตรวัดทางเลือกของสัมประสิทธิ์สหสัมพันธ์ของประชากร[ 9 ] [ 10 ]

เพื่ออธิบายลักษณะของความสัมพันธ์เชิงลำดับ และความแตกต่างจากความสัมพันธ์เชิงเส้น ลองพิจารณาตัวเลขสี่คู่ต่อไปนี้:

(0, 1), (10, 100), (101, 500), (102, 2000).

เมื่อเราพิจารณาแต่ละคู่ ค่าจะเพิ่มขึ้น และค่า ก็จะเพิ่มขึ้นเช่นกันความสัมพันธ์นี้สมบูรณ์แบบในแง่ที่ว่า การเพิ่มขึ้นของจะมาพร้อมกับการเพิ่มขึ้นของเสมอซึ่งหมายความว่าเรามีความสัมพันธ์เชิงอันดับที่สมบูรณ์แบบ และค่าสัมประสิทธิ์สหสัมพันธ์ของ Spearman และ Kendall มีค่าเท่ากับ 1 ในขณะที่ในตัวอย่างนี้ ค่าสัมประสิทธิ์สหสัมพันธ์แบบ Pearson product-moment มีค่าเท่ากับ 0.7544 ซึ่งบ่งชี้ว่าจุดต่างๆ อยู่ห่างจากเส้นตรงมาก ในทำนองเดียวกัน ถ้าลดลงเสมอเมื่อเพิ่มขึ้นค่าสัมประสิทธิ์สหสัมพันธ์เชิงอันดับจะมีค่าเท่ากับ -1 ในขณะที่ค่าสัมประสิทธิ์สหสัมพันธ์แบบ Pearson product-moment อาจจะใกล้เคียงหรือไม่ใกล้เคียงกับ -1 ก็ได้ ขึ้นอยู่กับว่าจุดต่างๆ อยู่ใกล้เส้นตรงมากแค่ไหน แม้ว่าในกรณีสุดขั้วของความสัมพันธ์เชิงอันดับที่สมบูรณ์แบบ ค่าสัมประสิทธิ์ทั้งสองจะมีค่าเท่ากัน (เป็น +1 หรือ -1 ทั้งคู่) แต่โดยทั่วไปแล้วจะไม่เป็นเช่นนั้น ดังนั้นจึงไม่สามารถเปรียบเทียบค่าของค่าสัมประสิทธิ์ทั้งสองได้อย่างมีความหมาย[ 9 ]ตัวอย่างเช่น สำหรับคู่สามคู่ (1, 1) (2, 3) (3, 2) ค่าสัมประสิทธิ์ของ Spearman คือ 1/2 ในขณะที่ค่าสัมประสิทธิ์ของ Kendall คือ 1/3

ความเข้าใจผิดทั่วไป

ความสัมพันธ์และความเป็นเหตุเป็นผล

คำกล่าวทั่วไปที่ว่า " ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ " หมายความว่าไม่สามารถใช้ความสัมพันธ์เพียงอย่างเดียวเพื่ออนุมานความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรได้[ 11 ]คำกล่าวนี้ไม่ควรตีความว่าความสัมพันธ์ไม่สามารถบ่งชี้ถึงความเป็นไปได้ของการมีอยู่ของความสัมพันธ์เชิงสาเหตุได้ อย่างไรก็ตาม สาเหตุที่อยู่เบื้องหลังความสัมพันธ์ หากมี อาจเป็นทางอ้อมและไม่ทราบ และความสัมพันธ์ที่สูงยังทับซ้อนกับ ความสัมพันธ์ แบบเอกลักษณ์ ( สัจพจน์ ) ซึ่งไม่มีกระบวนการเชิงสาเหตุอยู่ (เช่น ระหว่างตัวแปรสองตัวที่วัดโครงสร้างเดียวกัน) ดังนั้น ความสัมพันธ์ระหว่างตัวแปรสองตัวจึงไม่ใช่เงื่อนไขที่เพียงพอในการสร้างความสัมพันธ์เชิงสาเหตุ (ในทิศทางใดทิศทางหนึ่ง)

ความสัมพันธ์ระหว่างอายุและความสูงในเด็กนั้นค่อนข้างชัดเจนในเชิงสาเหตุ แต่ความสัมพันธ์ระหว่างอารมณ์และสุขภาพในคนนั้นซับซ้อนกว่า อารมณ์ที่ดีขึ้นนำไปสู่สุขภาพที่ดีขึ้น หรือสุขภาพที่ดีนำไปสู่อารมณ์ที่ดี หรือทั้งสองอย่าง? หรือมีปัจจัยอื่นอยู่เบื้องหลังทั้งสองอย่าง? กล่าวอีกนัยหนึ่ง ความสัมพันธ์สามารถใช้เป็นหลักฐานสำหรับความสัมพันธ์เชิงสาเหตุที่เป็นไปได้ แต่ไม่สามารถระบุได้ว่าความสัมพันธ์เชิงสาเหตุนั้นจะเป็นอย่างไร (ถ้ามี)

ความสัมพันธ์เชิงเส้นอย่างง่าย

กลุ่มข้อมูลสี่ชุดของแอนสคอมบ์: ข้อมูลสี่ชุดที่มีความสัมพันธ์กันที่ 0.816 เท่ากัน

สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันบ่งชี้ถึงความแข็งแกร่งของ ความสัมพันธ์ เชิงเส้นระหว่างตัวแปรสองตัว แต่โดยทั่วไปแล้วค่าของมันไม่สามารถอธิบายความสัมพันธ์นั้นได้อย่างสมบูรณ์ โดยเฉพาะอย่างยิ่ง หากค่าเฉลี่ยแบบมีเงื่อนไขของที่กำหนดให้ซึ่งแทนด้วยไม่เป็นเชิงเส้นกับสัมประสิทธิ์สหสัมพันธ์จะไม่สามารถกำหนดรูปแบบของ ได้อย่างสมบูรณ์

ภาพที่อยู่ติดกันแสดงแผนภาพกระจายของควอเต็ตของแอนสคอมบ์ซึ่งเป็นชุดตัวแปรสี่คู่ที่แตกต่างกันที่สร้างขึ้นโดยฟรานซิส แอนสคอมบ์ [ 12 ] ตัวแปรทั้งสี่มีค่าเฉลี่ย (7.5) ความแปรปรวน (4.12) ความสัมพันธ์ (0.816) และเส้นถดถอย ( ) เหมือนกัน อย่างไรก็ตาม ดังที่เห็นได้จากแผนภาพ การกระจายของตัวแปรนั้นแตกต่างกันมาก ตัวแปรแรก (บนซ้าย) ดูเหมือนจะมีการกระจายแบบปกติ และสอดคล้องกับสิ่งที่คาดหวังเมื่อพิจารณาตัวแปรสองตัวที่มีความสัมพันธ์กันและปฏิบัติตามสมมติฐานของความปกติ ตัวแปรที่สอง (บนขวา) ไม่มีการกระจายแบบปกติ แม้ว่าจะสามารถสังเกตความสัมพันธ์ที่ชัดเจนระหว่างตัวแปรทั้งสองได้ แต่ก็ไม่ใช่ความสัมพันธ์เชิงเส้น ในกรณีนี้ ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันไม่ได้บ่งชี้ว่ามีความสัมพันธ์เชิงฟังก์ชันที่แน่นอน เพียงแต่บ่งชี้ถึงขอบเขตที่ความสัมพันธ์นั้นสามารถประมาณได้ด้วยความสัมพันธ์เชิงเส้น ในกรณีที่สาม (ล่างซ้าย) ความสัมพันธ์เชิงเส้นนั้นสมบูรณ์แบบ ยกเว้นค่าผิดปกติ หนึ่งค่า ที่มีอิทธิพลมากพอที่จะทำให้ค่าสัมประสิทธิ์สหสัมพันธ์ลดลงจาก 1 เหลือ 0.816 สุดท้าย ตัวอย่างที่สี่ (ล่างขวา) แสดงให้เห็นอีกตัวอย่างหนึ่งที่ค่าผิดปกติเพียงค่าเดียวก็เพียงพอที่จะทำให้ค่าสัมประสิทธิ์สหสัมพันธ์สูง แม้ว่าความสัมพันธ์ระหว่างตัวแปรทั้งสองจะไม่เป็นเชิงเส้นก็ตาม

ตัวอย่างเหล่านี้แสดงให้เห็นว่าสัมประสิทธิ์สหสัมพันธ์ ซึ่งเป็นสถิติสรุปไม่สามารถแทนที่การตรวจสอบข้อมูลด้วยสายตาได้ บางครั้งมีการกล่าวว่าตัวอย่างเหล่านี้แสดงให้เห็นว่าสหสัมพันธ์เพียร์สันถือว่าข้อมูลเป็นไปตามการแจกแจงแบบปกติแต่สิ่งนี้ถูกต้องเพียงบางส่วนเท่านั้น[ 6 ]สหสัมพันธ์เพียร์สันสามารถคำนวณได้อย่างแม่นยำสำหรับการแจกแจงใดๆ ที่มีเมทริกซ์ความแปรปรวน ร่วมจำกัด ซึ่งรวมถึงการแจกแจงส่วนใหญ่ที่พบในทางปฏิบัติ อย่างไรก็ตาม สัมประสิทธิ์สหสัมพันธ์เพียร์สัน (เมื่อรวมกับค่าเฉลี่ยและความแปรปรวนของตัวอย่าง) จะเป็นสถิติที่เพียงพอต่อเมื่อข้อมูลถูกดึงมาจากการแจกแจงแบบปกติหลายตัวแปรเท่านั้น ดังนั้น สัมประสิทธิ์สหสัมพันธ์เพียร์สันจึงสามารถอธิบายความสัมพันธ์ระหว่างตัวแปรได้อย่างสมบูรณ์ก็ต่อเมื่อข้อมูลถูกดึงมาจากการแจกแจงแบบปกติหลายตัวแปรเท่านั้น

ความสัมพันธ์ระหว่างตัวแปร 4 ตัว แสดงให้เห็นด้วยวงรีความเชื่อมั่น 50% และ 95%

คุณสมบัติ

ความไม่สัมพันธ์กันและความเป็นอิสระของกระบวนการสุ่ม

ในทำนองเดียวกันสำหรับกระบวนการสุ่มสองกระบวนการและ: ถ้าพวกมันเป็นอิสระต่อกัน พวกมันก็จะไม่มีความสัมพันธ์กัน[ 13 ] : หน้า 151 ข้อความตรงกันข้ามกับข้อความนี้อาจไม่เป็นจริง แม้ว่าตัวแปรสองตัวจะไม่มีความสัมพันธ์กัน แต่พวกมันก็อาจจะไม่เป็นอิสระต่อกัน

ความไวต่อการกระจายข้อมูล

ระดับความสัมพันธ์ระหว่างตัวแปรXและYไม่ขึ้นอยู่กับมาตราส่วนที่ใช้ในการแสดงตัวแปรเหล่านั้น กล่าวคือ หากเราวิเคราะห์ความสัมพันธ์ระหว่างXและYมาตรวัดความสัมพันธ์ส่วนใหญ่จะไม่ได้รับผลกระทบจากการแปลงXเป็นa + bXและYเป็นc + dYโดยที่a , b , cและdเป็นค่าคงที่ ( bและdเป็นค่าบวก) นี่เป็นจริงสำหรับสถิติ ความสัมพันธ์บางอย่าง รวมถึง ค่าที่เทียบเคียงได้ ในประชากรด้วย สถิติความสัมพันธ์บางอย่าง เช่น สัมประสิทธิ์ความสัมพันธ์อันดับ ก็ไม่เปลี่ยนแปลงไปตามการแปลงแบบโมโนโทนของการกระจายแบบมาร์จินัลของXและ/หรือY เช่น กัน

ค่าสัมประสิทธิ์สหสัมพันธ์ เพียร์สัน / สเปียร์แมนระหว่างXและYแสดงไว้เมื่อช่วงของตัวแปรทั้งสองไม่จำกัด และเมื่อช่วงของXถูกจำกัดให้อยู่ในช่วง (0,1)

การวัดความสัมพันธ์ส่วนใหญ่มีความอ่อนไหวต่อวิธี การสุ่มตัวอย่าง XและYความสัมพันธ์มักจะแข็งแกร่งขึ้นหากพิจารณาในช่วงค่าที่กว้างขึ้น ดังนั้น หากเราพิจารณาค่าสัมประสิทธิ์ความสัมพันธ์ระหว่างความสูงของพ่อและลูกชายในกลุ่มผู้ชายที่เป็นผู้ใหญ่ทั้งหมด และเปรียบเทียบกับค่าสัมประสิทธิ์ความสัมพันธ์เดียวกันที่คำนวณเมื่อเลือกพ่อที่มีความสูงระหว่าง 165 ซม. ถึง 170 ซม. ความสัมพันธ์จะอ่อนกว่าในกรณีหลัง มีการพัฒนาเทคนิคหลายอย่างที่พยายามแก้ไขข้อจำกัดช่วงในตัวแปรหนึ่งหรือทั้งสองตัว และมักใช้ในการวิเคราะห์เมตา เทคนิคที่ใช้กันมากที่สุดคือสมการกรณีที่ II และกรณีที่ III ของ Thorndike [ 14 ]

มาตรวัดความสัมพันธ์ต่างๆ ที่ใช้กันอยู่อาจไม่สามารถหาค่าได้สำหรับบางการแจกแจงร่วมของXและYตัวอย่างเช่น สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันถูกกำหนดโดยใช้โมเมนต์ดังนั้นจึงไม่สามารถหาค่าได้หากโมเมนต์เหล่านั้นไม่สามารถหาค่าได้ มาตรวัดความสัมพันธ์ที่อิงตามควอนไทล์นั้นสามารถหาค่าได้เสมอ สถิติที่ได้จากตัวอย่างซึ่งมีจุดประสงค์เพื่อประมาณค่ามาตรวัดความสัมพันธ์ของประชากร อาจมีหรือไม่มีคุณสมบัติทางสถิติที่พึงประสงค์ เช่น การไม่เอนเอียงหรือความสอดคล้องเชิงอะซิมโทติกขึ้นอยู่กับโครงสร้างเชิงพื้นที่ของประชากรที่สุ่มตัวอย่างข้อมูลมา

ความไวต่อการกระจายข้อมูลสามารถนำมาใช้ให้เกิดประโยชน์ได้ ตัวอย่างเช่นความสัมพันธ์แบบปรับขนาดถูกออกแบบมาเพื่อใช้ความไวต่อช่วงเพื่อเลือกความสัมพันธ์ระหว่างส่วนประกอบที่รวดเร็วของอนุกรมเวลา [ 15 ] โดยการลดช่วงของค่าในลักษณะที่ควบคุมได้ ความสัมพันธ์ในช่วงเวลาที่ยาวนานจะถูกกรองออกไป และจะเหลือเพียงความสัมพันธ์ในช่วงเวลาสั้นๆ เท่านั้น

เมทริกซ์สหสัมพันธ์

เมทริกซ์สหสัมพันธ์ของตัวแปรสุ่มคือเมทริกซ์ที่มีค่าดังนี้

ดังนั้น ค่าในแนวทแยงมุมทั้งหมดจึงมีค่าเท่ากับ1 เหมือนกันทุก ประการ หากใช้สัมประสิทธิ์ผลคูณโมเมนต์ในการวัดความสัมพันธ์ เมทริกซ์ความสัมพันธ์จะเหมือนกับเมทริกซ์ความแปรปรวนร่วมของตัวแปรสุ่มมาตรฐาน สำหรับซึ่งใช้ได้ทั้งกับเมทริกซ์ความสัมพันธ์ของประชากร (ในกรณีนี้คือค่าเบี่ยงเบนมาตรฐานของประชากร) และเมทริกซ์ความสัมพันธ์ของตัวอย่าง (ในกรณีนี้หมายถึงค่าเบี่ยงเบนมาตรฐานของตัวอย่าง) ดังนั้น แต่ละเมทริกซ์จึงเป็นเมทริกซ์บวกกึ่งกำหนด (positive-semidefinite matrix ) อย่างแน่นอน ยิ่งไปกว่านั้น เมทริกซ์ความสัมพันธ์จะเป็นบวกกำหนดอย่างเคร่งครัด (strictly positive definite matrix ) หากไม่มีตัวแปรใดสามารถสร้างค่าทั้งหมดของมันได้อย่างแม่นยำโดยใช้ฟังก์ชันเชิงเส้นของค่าของตัวแปรอื่น ๆ

เมทริกซ์สหสัมพันธ์เป็นเมทริกซ์สมมาตร เนื่องจากค่าสหสัมพันธ์ระหว่างและ มีค่าเท่ากับค่าสหสัมพันธ์ระหว่างและ

ตัวอย่างเช่น เมทริกซ์สหสัมพันธ์ปรากฏอยู่ในสูตรหนึ่งสำหรับค่าสัมประสิทธิ์การกำหนดค่าหลายตัวแปรซึ่งเป็นมาตรวัดความเหมาะสมของแบบจำลองใน การ วิเคราะห์ การถดถอยหลายตัวแปร

ในการสร้างแบบจำลองทางสถิติเมทริกซ์สหสัมพันธ์ที่แสดงถึงความสัมพันธ์ระหว่างตัวแปรจะถูกจัดประเภทเป็นโครงสร้างสหสัมพันธ์ที่แตกต่างกัน ซึ่งจำแนกตามปัจจัยต่างๆ เช่น จำนวนพารามิเตอร์ที่จำเป็นในการประมาณค่า ตัวอย่างเช่น ใน เมทริกซ์สหสัมพันธ์ แบบแลกเปลี่ยนได้ตัวแปรทุกคู่จะถูกจำลองว่ามีสหสัมพันธ์เดียวกัน ดังนั้นองค์ประกอบที่ไม่ใช่แนวทแยงทั้งหมดของเมทริกซ์จึงเท่ากัน ในทางกลับกัน เมทริกซ์ อัตถารีเกรสซีฟมักใช้เมื่อตัวแปรแสดงถึงอนุกรมเวลา เนื่องจากสหสัมพันธ์มีแนวโน้มที่จะมากขึ้นเมื่อการวัดอยู่ใกล้กันมากขึ้นในเวลา ตัวอย่างอื่นๆ ได้แก่ แบบอิสระ แบบไม่มีโครงสร้าง แบบขึ้นอยู่กับ M และแบบโทปลิตซ์

ในการวิเคราะห์ข้อมูลเชิงสำรวจรูปแบบการแสดงความสัมพันธ์จะแทนที่เมทริกซ์ความสัมพันธ์ด้วยแผนภาพ โดยความสัมพันธ์ที่ "โดดเด่น" จะแสดงด้วยเส้นทึบ (ความสัมพันธ์เชิงบวก) หรือเส้นประ (ความสัมพันธ์เชิงลบ)

เมทริกซ์สหสัมพันธ์ที่ถูกต้องที่ใกล้ที่สุด

ในบางแอปพลิเคชัน (เช่น การสร้างแบบจำลองข้อมูลจากข้อมูลที่สังเกตได้เพียงบางส่วน) เราต้องการหาเมทริกซ์สหสัมพันธ์ที่ "ใกล้เคียงที่สุด" กับเมทริกซ์สหสัมพันธ์ "โดยประมาณ" (เช่น เมทริกซ์ที่โดยทั่วไปแล้วขาดคุณสมบัติบวกกึ่งกำหนดเนื่องจากวิธีการคำนวณ)

ในปี พ.ศ. 2545 Higham [ 16 ]ได้กำหนดแนวคิดเรื่องความใกล้เคียงอย่างเป็นทางการโดยใช้บรรทัดฐาน Frobeniusและได้จัดเตรียมวิธีการคำนวณเมทริกซ์สหสัมพันธ์ที่ใกล้ที่สุดโดยใช้อัลกอริทึมการฉายภาพของ Dykstra

สิ่งนี้จุดประกายความสนใจในหัวข้อดังกล่าว โดยมีผลลัพธ์ทางทฤษฎีใหม่ (เช่น การคำนวณเมทริกซ์สหสัมพันธ์ที่ใกล้ที่สุดด้วยโครงสร้างปัจจัย[ 17 ] ) และเชิงตัวเลข (เช่น การใช้วิธีของนิวตันในการคำนวณเมทริกซ์สหสัมพันธ์ที่ใกล้ที่สุด[ 18 ] ) ที่ได้รับในอีกหลายปีต่อมา

การกระจายแบบปกติสองตัวแปร

ถ้าตัวแปรสุ่มสองตัวเป็นไปตามการแจกแจงปกติแบบทวิภาคค่าเฉลี่ยแบบมีเงื่อนไขจะเป็นฟังก์ชันเชิงเส้นของและค่าเฉลี่ยแบบมีเงื่อนไขจะเป็นฟังก์ชันเชิงเส้นของค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างและและ ค่าเฉลี่ยและความแปรปรวน ส่วนขอบของและจะกำหนดความสัมพันธ์เชิงเส้นนี้

โดยที่และคือค่าที่คาดหวังของและตามลำดับ และและคือค่าเบี่ยงเบนมาตรฐานของและตามลำดับ

ความสัมพันธ์เชิงประจักษ์เป็นการประมาณค่าสัมประสิทธิ์สหสัมพันธ์ การประมาณค่าการกระจายสำหรับกำหนดโดย

ฟังก์ชันไฮเปอร์จีโอเมตริกแบบเกาส์เซียน อยู่ที่ไหน

ความหนาแน่นนี้เป็นทั้งความหนาแน่นแบบเบย์เซียนภายหลัง และ ความหนาแน่นของการกระจายความเชื่อมั่นที่เหมาะสมที่สุด[ 19 ] [ 20 ]

มาตรการอื่นๆ ในการวัดความสัมพันธ์ระหว่างตัวแปรสุ่ม

ข้อมูลที่ได้จากสัมประสิทธิ์สหสัมพันธ์นั้นไม่เพียงพอที่จะกำหนดโครงสร้างความสัมพันธ์ระหว่างตัวแปรสุ่มได้อย่างสมบูรณ์ สัมประสิทธิ์สหสัมพันธ์จะกำหนดโครงสร้างความสัมพันธ์ได้อย่างสมบูรณ์เฉพาะในกรณีพิเศษบางกรณีเท่านั้น เช่น เมื่อการแจกแจงเป็นการแจกแจงปกติแบบหลายตัวแปร (ดูแผนภาพด้านบน) ในกรณีของการแจกแจงแบบวงรี สัมประสิทธิ์ สหสัมพันธ์ จะบ่งบอกลักษณะของวงรี (หรือวงรีที่มีความหนาแน่นเท่ากัน) แต่ก็ไม่ได้บ่งบอกโครงสร้างความสัมพันธ์ได้อย่างสมบูรณ์ (ตัวอย่างเช่น ระดับความเป็นอิสระของ การแจกแจง t แบบหลายตัวแปรจะเป็นตัวกำหนดระดับความสัมพันธ์ที่ส่วนหาง)

สำหรับตัวแปรต่อเนื่อง มีการนำมาตรวัดความสัมพันธ์ทางเลือกหลายแบบมาใช้เพื่อแก้ไขข้อบกพร่องของค่าสัมประสิทธิ์สหสัมพันธ์ของ Pearson ที่อาจมีค่าเป็นศูนย์สำหรับตัวแปรสุ่มที่มีความสัมพันธ์กัน (ดู[ 21 ]และเอกสารอ้างอิงในนั้นสำหรับภาพรวม) มาตรวัดเหล่านี้มีคุณสมบัติสำคัญร่วมกันคือ ค่าศูนย์หมายถึงความเป็นอิสระ ซึ่งทำให้ผู้เขียนบางคน[ 21 ] [ 22 ]แนะนำให้ใช้มาตรวัดเหล่านี้เป็นประจำ โดยเฉพาะอย่างยิ่งค่าสัมประสิทธิ์สหสัมพันธ์ระยะทาง [ 23 ] [ 24 ] มาตรวัดทางเลือกอีกแบบหนึ่งคือค่าสัมประสิทธิ์ความสัมพันธ์แบบสุ่ม (Randomized Dependence Coefficient) [ 25 ] RDC เป็นมาตรวัดความสัมพันธ์ระหว่างตัวแปรสุ่มหลายตัวแปรที่มีประสิทธิภาพในการคำนวณโดยใช้ copulaและไม่เปลี่ยนแปลงเมื่อเทียบกับการปรับขนาดแบบไม่เชิงเส้นของตัวแปรสุ่ม

ข้อเสียเปรียบที่สำคัญอย่างหนึ่งของมาตรการทางเลือกทั่วไปคือ เมื่อใช้เพื่อทดสอบว่าตัวแปรสองตัวมีความสัมพันธ์กันหรือไม่ มาตรการเหล่านี้มักจะมีประสิทธิภาพต่ำกว่าเมื่อเทียบกับค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเมื่อข้อมูลเป็นไปตามการแจกแจงปกติแบบหลายตัวแปร[ 21 ]นี่เป็นผลพวงจากทฤษฎีบทไม่มีอาหารกลางวันฟรีเพื่อตรวจจับความสัมพันธ์ทุกประเภท มาตรการเหล่านี้ต้องเสียสละประสิทธิภาพในความสัมพันธ์อื่นๆ โดยเฉพาะอย่างยิ่งในกรณีพิเศษที่สำคัญของความสัมพันธ์เชิงเส้นที่มีขอบเขตแบบเกาส์เซียน ซึ่งค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเหมาะสมที่สุด ปัญหาอีกประการหนึ่งเกี่ยวข้องกับการตีความ ในขณะที่ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสามารถตีความได้สำหรับทุกค่า มาตรการทางเลือกโดยทั่วไปสามารถตีความได้อย่างมีความหมายเฉพาะที่ค่าสุดขั้วเท่านั้น[ 26 ]

สำหรับตัวแปรไบนารี สองตัว อัตราส่วนความน่าจะเป็นจะวัดความสัมพันธ์ระหว่างกัน และมีค่าอยู่ในช่วงของจำนวนที่ไม่เป็นลบ อาจเป็นอนันต์ก็ได้สถิติที่เกี่ยวข้อง เช่นYule's YและYule's Qจะปรับค่านี้ให้อยู่ในช่วงที่คล้ายกับค่าสหสัมพันธ์ แบบจำลองโลจิ สติก ได้ขยายอัตราส่วนความน่าจะเป็นเพื่อจำลองกรณีที่ตัวแปรตามเป็นตัวแปรไม่ต่อเนื่อง และอาจมีตัวแปรอิสระหนึ่งตัวหรือมากกว่านั้น

อัตราส่วนสหสัมพันธ์ข้อมูลร่วมตามเอนโทรปีสหสัมพันธ์รวมสหสัมพันธ์รวมคู่และสหสัมพันธ์พหุคอริก ล้วนสามารถตรวจจับความสัมพันธ์ทั่วไปได้มากขึ้น เช่นเดียวกับการพิจารณาโคพูล่าระหว่างตัวแปรเหล่านั้น ในขณะที่สัมประสิทธิ์การกำหนดจะขยายสัมประสิทธิ์สหสัมพันธ์ไปสู่การถดถอยพหุตัวแปร

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • John Nicholas Zorich (2024). ประวัติศาสตร์ของความสัมพันธ์ . Taylor & Francis. doi : 10.1201/9781003527893 . ISBN 9781003527893.
  • "ความสัมพันธ์ (ในสถิติ)" , สารานุกรมคณิตศาสตร์ , EMS Press , 2001 [1994]
  • Oestreicher, J. & DR (26 กุมภาพันธ์ 2015). โรคระบาดแห่งความเท่าเทียม: นิยายวิทยาศาสตร์ระทึกขวัญเกี่ยวกับโรคระบาดระหว่างประเทศ การเมือง และการค้นพบยา . แคลิฟอร์เนีย: สำนักพิมพ์ Omega Cat Press. หน้า 408. ISBN 978-0963175540.
  • หน้า MathWorld เกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์ (ไขว้) ของตัวอย่าง
  • คำนวณค่าความสำคัญระหว่างค่าสหสัมพันธ์สองค่าเพื่อเปรียบเทียบค่าสหสัมพันธ์สองค่า
  • "ชุดเครื่องมือ MATLAB สำหรับคำนวณสัมประสิทธิ์สหสัมพันธ์แบบถ่วงน้ำหนัก"เก็บถาวรจากต้นฉบับเมื่อวันที่ 24 เมษายน 2564
  • พิสูจน์ว่าค่าสัมประสิทธิ์สหสัมพันธ์ทวิภาคของตัวอย่างมีขีดจำกัดบวกหรือลบ 1
  • การจำลองแบบโต้ตอบด้วย Flash เกี่ยวกับความสัมพันธ์ของตัวแปรสองตัวที่มีการแจกแจงแบบปกติโดย Juha Puranen
  • การวิเคราะห์ความสัมพันธ์ สถิติชีวการแพทย์
  • R-Psychologist การแสดง ภาพความสัมพันธ์ระหว่างตัวแปรเชิงตัวเลขสองตัว
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Correlation&oldid=1360131275 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ความสัมพันธ์

ใน ทางสถิติ ความสัมพันธ์เชิงสถิติ เป็นความสัมพันธ์ทางสถิติระหว่าง ตัวแปรสุ่ม สองตัว หรือ ข้อมูลสองตัวแปร โดยทั่วไปหมายถึงขอบเขตที่ปริมาณสองอย่างมี ความสัมพันธ์เชิงเส้นตรง...

สัมประสิทธิ์ผลคูณโมเมนต์ของเพียร์สัน

มาตรวัดความสัมพันธ์ที่คุ้นเคยที่สุดระหว่างปริมาณสองอย่างคือสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน ซึ่งโดยทั่วไปเรียกว่า 'สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน' หรือเรียกง่ายๆ ว่า 'สัมประสิทธิ์สหสัมพันธ์' (เนื่องจากเป็นรูปแบบที่ใช้กันทั่วไปมากที่สุด)...

สัมประสิทธิ์สหสัมพันธ์ลำดับ

สัมประสิทธิ์ สหสัมพันธ์ลำดับ เช่น สัมประสิทธิ์สหสัมพันธ์ลำดับของสเปียร์แมน และ สัมประสิทธิ์สหสัมพันธ์ลำดับของเคนดัล (τ) วัดขอบเขตที่เมื่อตัวแปรหนึ่งเพิ่มขึ้น ตัวแปรอีกตัวหนึ่งมีแนวโน้มที่จะเพิ่มขึ้น โดยไม่จำเป็นต้องแสดงการเพิ่มขึ้นนั้นด้วยความสัมพันธ์เชิงเส้น...

ความสัมพันธ์และความเป็นเหตุเป็นผล

คำกล่าวทั่วไปที่ว่า " ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ " หมายความว่าไม่สามารถใช้ความสัมพันธ์เพียงอย่างเดียวเพื่ออนุมานความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรได้ [ 11 ]...