อ่าน 15 นาที
ความสัมพันธ์
ใน ทางสถิติ ความสัมพันธ์เชิงสถิติ เป็นความสัมพันธ์ทางสถิติระหว่าง ตัวแปรสุ่ม สองตัว หรือ ข้อมูลสองตัวแปร โดยทั่วไปหมายถึงขอบเขตที่ปริมาณสองอย่างมี ความสัมพันธ์เชิงเส้นตรง...
ความสัมพันธ์

ในทางสถิติความสัมพันธ์เชิงสถิติเป็นความสัมพันธ์ทางสถิติระหว่างตัวแปรสุ่ม สองตัว หรือข้อมูลสองตัวแปรโดยทั่วไปหมายถึงขอบเขตที่ปริมาณสองอย่างมีความสัมพันธ์เชิงเส้นตรงโดยทั่วไปแล้ว ความสัมพันธ์ใดๆ ระหว่างตัวแปรเรียกว่าความสัมพันธ์ เชิงสถิติ ซึ่งหมายถึงระดับที่ความแปรปรวนในตัวแปรหนึ่งสามารถอธิบายได้ด้วยตัวแปรอื่น[ 1 ] [ 2 ]
การมีความสัมพันธ์กันเพียงอย่างเดียวไม่เพียงพอที่จะสรุปได้ว่ามี ความสัมพันธ์ เชิงสาเหตุ (กล่าวคือความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ ) ยิ่งไปกว่านั้น แนวคิดเรื่องความสัมพันธ์ไม่เหมือนกับการพึ่งพาซึ่งกันและกัน กล่าวคือ ถ้าตัวแปรสองตัวเป็นอิสระต่อกัน ตัวแปรทั้งสองจะไม่มีความสัมพันธ์กัน แต่ในทางกลับกันนั้นไม่จำเป็นเสมอไป แม้ว่าตัวแปรสองตัวจะไม่มีความสัมพันธ์กัน แต่ก็อาจพึ่งพาซึ่งกันและกันได้
ความสัมพันธ์เชิงสถิติมีประโยชน์เพราะสามารถบ่งชี้ความสัมพันธ์เชิงทำนายที่สามารถนำไปใช้ประโยชน์ได้จริง ตัวอย่างเช่น บริษัทผลิตไฟฟ้าอาจผลิตไฟฟ้าน้อยลงในวันที่อากาศไม่ร้อนจัด โดยอาศัยความสัมพันธ์ระหว่างความต้องการใช้ไฟฟ้าและสภาพอากาศ ในตัวอย่างนี้มีความสัมพันธ์เชิงสาเหตุ เพราะสภาพอากาศที่รุนแรงทำให้ผู้คนใช้ไฟฟ้ามากขึ้นสำหรับการทำความร้อนหรือความเย็น
มีสัมประสิทธิ์สหสัมพันธ์ หลายตัว ที่สามารถใช้ในการวัดความสัมพันธ์ ซึ่งมักจะใช้สัญลักษณ์หรือ สัมประสิทธิ์สหสัมพันธ์ ที่พบได้บ่อยที่สุดคือสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันซึ่งมีความไวต่อความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวเท่านั้น (ซึ่งอาจมีอยู่แม้ว่าตัวแปรหนึ่งจะเป็นฟังก์ชันที่ไม่เป็นเชิงเส้นของอีกตัวแปรหนึ่งก็ตาม) สัมประสิทธิ์สหสัมพันธ์อื่นๆ เช่นสัมประสิทธิ์สหสัมพันธ์ลำดับของสเปียร์แมนได้รับการพัฒนาขึ้นเพื่อให้มีความแข็งแกร่ง กว่า ของเพียร์สันและสามารถตรวจจับความสัมพันธ์ที่มีโครงสร้างน้อยกว่าระหว่างตัวแปรได้[ 3 ] [ 4 ] [ 5 ]
แนวคิดนี้ได้รับการขยายไปสู่รูปแบบความสัมพันธ์อื่นๆ ระหว่างตัวแปรสองตัว เช่นข้อมูลร่วมกันและความแปรปรวนตามระยะทาง
สัมประสิทธิ์
สัมประสิทธิ์ผลคูณโมเมนต์ของเพียร์สัน

มาตรวัดความสัมพันธ์ที่คุ้นเคยที่สุดระหว่างปริมาณสองอย่างคือสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน ซึ่งโดยทั่วไปเรียกว่า 'สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน' หรือเรียกง่ายๆ ว่า 'สัมประสิทธิ์สหสัมพันธ์' (เนื่องจากเป็นรูปแบบที่ใช้กันทั่วไปมากที่สุด) ได้มาจากการหาอัตราส่วนของความแปรปรวนร่วมระหว่างตัวแปรสองตัวในชุดข้อมูลเชิงตัวเลขที่ปรับให้เป็นมาตรฐานตามรากที่สองของความแปรปรวนของตัวแปรเหล่านั้น หรืออีกนัยหนึ่ง สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสามารถคำนวณได้โดยการหารความแปรปรวนร่วมของตัวแปรทั้งสองด้วยผลคูณของส่วนเบี่ยงเบนมาตรฐานของตัวแปรเหล่านั้นคาร์ล เพียร์สันพัฒนาสัมประสิทธิ์นี้จากแนวคิดที่คล้ายคลึงกันของฟรานซิส กัลตัน[ 6 ]
สัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน (Pearson product-moment correlation coefficient) พยายามสร้างเส้นที่เหมาะสมที่สุดผ่านชุดข้อมูลของตัวแปรสองตัว โดยพื้นฐานแล้วคือการแสดงค่าที่คาดหวัง และสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันที่ได้จะบ่งชี้ว่าชุดข้อมูลจริงอยู่ห่างจากค่าที่คาดหวังมากน้อยเพียงใด ขึ้นอยู่กับเครื่องหมายของสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน ผลลัพธ์อาจเป็นสหสัมพันธ์เชิงลบหรือเชิงบวก หากมีความสัมพันธ์ใดๆ ระหว่างตัวแปรในชุดข้อมูล
สัมประสิทธิ์สหสัมพันธ์ประชากรระหว่างตัวแปรสุ่ม สองตัว ที่มีค่าเฉลี่ยและ ค่าเบี่ยง เบนมาตรฐานคือ:
โดยที่คือตัวดำเนินการค่าคาดหวังหมายถึงความแปรปรวนร่วมและคือสัญลักษณ์ทางเลือกที่ใช้กันอย่างแพร่หลายสำหรับสัมประสิทธิ์สหสัมพันธ์ สหสัมพันธ์เพียร์สันจะนิยามได้ก็ต่อเมื่อค่าเบี่ยงเบนมาตรฐานทั้งสองมีค่าจำกัดและเป็นบวกเท่านั้น สูตรทางเลือกที่ใช้เฉพาะโมเมนต์คือ:
ความสัมพันธ์และความเป็นอิสระ
เป็นผลลัพธ์จากอสมการโคชี-ชวาร์ซที่ว่าค่าสัมบูรณ์ของสัมประสิทธิ์สหสัมพันธ์เพียร์สันต้องไม่เกิน 1 ดังนั้น ค่าของสัมประสิทธิ์สหสัมพันธ์จึงอยู่ในช่วงระหว่าง -1 ถึง +1 สัมประสิทธิ์สหสัมพันธ์จะเป็น +1 ในกรณีที่มีความสัมพันธ์เชิงเส้นตรงแบบสมบูรณ์ (เพิ่มขึ้น) (สหสัมพันธ์) และจะเป็น -1 ในกรณีที่มีความสัมพันธ์เชิงเส้นตรงแบบผกผัน (ลดลง) ( สหสัมพันธ์ผกผัน ) [ 7 ]และจะมีค่าอยู่ในช่วงเปิด ในกรณีอื่นๆ ทั้งหมด ซึ่งบ่งชี้ถึงระดับการพึ่งพาเชิงเส้นระหว่างตัวแปร ยิ่งค่าเข้าใกล้ศูนย์มากเท่าใด ความสัมพันธ์ก็จะยิ่งน้อยลง (ใกล้เคียงกับไม่มีสหสัมพันธ์) ยิ่งค่าสัมประสิทธิ์เข้าใกล้ -1 หรือ 1 มากเท่าใด สหสัมพันธ์ระหว่างตัวแปรก็จะยิ่งแข็งแกร่งมากขึ้นเท่านั้น
ถ้าตัวแปรเป็นอิสระต่อกันค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันจะเป็น 0 อย่างไรก็ตาม เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์ตรวจจับได้เฉพาะความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวเท่านั้น ดังนั้นในทางกลับกันจึงไม่จำเป็นต้องเป็นจริงเสมอไป ค่าสัมประสิทธิ์สหสัมพันธ์เป็น 0 ไม่ได้หมายความว่าตัวแปรเป็นอิสระต่อกันเสมอไป
ตัวอย่างเช่น สมมติว่าตัวแปรสุ่มมีการแจกแจงแบบสมมาตรเกี่ยวกับศูนย์ และ. แล้วจะถูกกำหนดโดย อย่างสมบูรณ์ดังนั้นและจึงขึ้นต่อกันอย่างสมบูรณ์ แต่ค่าสหสัมพันธ์เป็นศูนย์ พวกมันจึงไม่มีความสัมพันธ์กันอย่างไรก็ตาม ในกรณีพิเศษเมื่อและมีการแจกแจงแบบปกติร่วมกันความไม่มีความสัมพันธ์กันจะเทียบเท่ากับความเป็นอิสระต่อกัน
แม้ว่าข้อมูลที่ไม่สัมพันธ์กันไม่ได้หมายความว่าข้อมูลเหล่านั้นจะเป็นอิสระต่อกันเสมอไป แต่เราสามารถตรวจสอบได้ว่าตัวแปรสุ่มเป็นอิสระต่อกันหรือไม่ หากค่าข้อมูลร่วม (mutual information) ของตัวแปร เหล่านั้น เป็น 0
สัมประสิทธิ์สหสัมพันธ์ตัวอย่าง
เมื่อทราบค่าการวัดคู่ข้อมูลที่ระบุด้วยดัชนีแล้วสัมประสิทธิ์สหสัมพันธ์ตัวอย่างสามารถใช้ประมาณค่าสหสัมพันธ์เพียร์สันของประชากรระหว่างและได้ โดยสัมประสิทธิ์สหสัมพันธ์ตัวอย่างนิยามได้ดังนี้
โดยที่และ คือ ค่าเฉลี่ยตัวอย่างของและและและคือ ค่า เบี่ยง เบนมาตรฐานตัวอย่างที่แก้ไขแล้วของและ
นิพจน์ที่เทียบเท่าสำหรับคือ
โดยที่และคือ ค่าเบี่ยงเบนมาตรฐาน ของ ตัวอย่างที่ยังไม่ได้แก้ไขของและ
ถ้าและเป็นผลจากการวัดที่มีข้อผิดพลาดในการวัด ขีดจำกัดที่สมจริงของสัมประสิทธิ์สหสัมพันธ์จะไม่ใช่ −1 ถึง +1 แต่เป็นช่วงที่เล็กกว่า[ 8 ]สำหรับกรณีของแบบจำลองเชิงเส้นที่มีตัวแปรอิสระตัวเดียวสัมประสิทธิ์การกำหนด (R กำลังสอง)คือกำลังสองของสัมประสิทธิ์ผลคูณโมเมนต์ของเพียร์สัน
ตัวอย่าง
พิจารณาการแจกแจงความน่าจะเป็นร่วมของXและYที่แสดงในตารางด้านล่าง
- yx
−1 0 1 0 0 1/3 0 1 1/3 0 1/3
สำหรับการแจกแจงร่วมนี้การแจกแจงแบบมาร์จินัลมีดังนี้:
ซึ่งจะได้ค่าคาดการณ์และค่าความคลาดเคลื่อนดังต่อไปนี้:
ดังนั้น:
สัมประสิทธิ์สหสัมพันธ์ลำดับ
สัมประสิทธิ์ สหสัมพันธ์ลำดับเช่นสัมประสิทธิ์สหสัมพันธ์ลำดับของสเปียร์แมนและสัมประสิทธิ์สหสัมพันธ์ลำดับของเคนดัล (τ)วัดขอบเขตที่เมื่อตัวแปรหนึ่งเพิ่มขึ้น ตัวแปรอีกตัวหนึ่งมีแนวโน้มที่จะเพิ่มขึ้น โดยไม่จำเป็นต้องแสดงการเพิ่มขึ้นนั้นด้วยความสัมพันธ์เชิงเส้น หากเมื่อตัวแปรหนึ่งเพิ่มขึ้น ตัวแปรอีกตัวหนึ่งลดลงสัมประสิทธิ์สหสัมพันธ์ลำดับจะเป็นค่าลบ โดยทั่วไปมักมองว่าสัมประสิทธิ์สหสัมพันธ์ลำดับเหล่านี้เป็นทางเลือกแทนสัมประสิทธิ์ของเพียร์สัน ซึ่งใช้เพื่อลดปริมาณการคำนวณหรือเพื่อให้สัมประสิทธิ์มีความไวต่อความไม่ปกติของการกระจายตัวน้อยลง อย่างไรก็ตาม มุมมองนี้มีพื้นฐานทางคณิตศาสตร์น้อย เนื่องจากสัมประสิทธิ์สหสัมพันธ์ลำดับวัดความสัมพันธ์ประเภทที่แตกต่างจากสัมประสิทธิ์สหสัมพันธ์ผลคูณโมเมนต์ของเพียร์สันและควรพิจารณาว่าเป็นมาตรวัดความสัมพันธ์ประเภทที่แตกต่างกัน มากกว่าที่จะเป็นมาตรวัดทางเลือกของสัมประสิทธิ์สหสัมพันธ์ของประชากร[ 9 ] [ 10 ]
เพื่ออธิบายลักษณะของความสัมพันธ์เชิงลำดับ และความแตกต่างจากความสัมพันธ์เชิงเส้น ลองพิจารณาตัวเลขสี่คู่ต่อไปนี้:
- (0, 1), (10, 100), (101, 500), (102, 2000).
เมื่อเราพิจารณาแต่ละคู่ ค่าจะเพิ่มขึ้น และค่า ก็จะเพิ่มขึ้นเช่นกันความสัมพันธ์นี้สมบูรณ์แบบในแง่ที่ว่า การเพิ่มขึ้นของจะมาพร้อมกับการเพิ่มขึ้นของเสมอซึ่งหมายความว่าเรามีความสัมพันธ์เชิงอันดับที่สมบูรณ์แบบ และค่าสัมประสิทธิ์สหสัมพันธ์ของ Spearman และ Kendall มีค่าเท่ากับ 1 ในขณะที่ในตัวอย่างนี้ ค่าสัมประสิทธิ์สหสัมพันธ์แบบ Pearson product-moment มีค่าเท่ากับ 0.7544 ซึ่งบ่งชี้ว่าจุดต่างๆ อยู่ห่างจากเส้นตรงมาก ในทำนองเดียวกัน ถ้าลดลงเสมอเมื่อเพิ่มขึ้นค่าสัมประสิทธิ์สหสัมพันธ์เชิงอันดับจะมีค่าเท่ากับ -1 ในขณะที่ค่าสัมประสิทธิ์สหสัมพันธ์แบบ Pearson product-moment อาจจะใกล้เคียงหรือไม่ใกล้เคียงกับ -1 ก็ได้ ขึ้นอยู่กับว่าจุดต่างๆ อยู่ใกล้เส้นตรงมากแค่ไหน แม้ว่าในกรณีสุดขั้วของความสัมพันธ์เชิงอันดับที่สมบูรณ์แบบ ค่าสัมประสิทธิ์ทั้งสองจะมีค่าเท่ากัน (เป็น +1 หรือ -1 ทั้งคู่) แต่โดยทั่วไปแล้วจะไม่เป็นเช่นนั้น ดังนั้นจึงไม่สามารถเปรียบเทียบค่าของค่าสัมประสิทธิ์ทั้งสองได้อย่างมีความหมาย[ 9 ]ตัวอย่างเช่น สำหรับคู่สามคู่ (1, 1) (2, 3) (3, 2) ค่าสัมประสิทธิ์ของ Spearman คือ 1/2 ในขณะที่ค่าสัมประสิทธิ์ของ Kendall คือ 1/3
ความเข้าใจผิดทั่วไป
ความสัมพันธ์และความเป็นเหตุเป็นผล
คำกล่าวทั่วไปที่ว่า " ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ " หมายความว่าไม่สามารถใช้ความสัมพันธ์เพียงอย่างเดียวเพื่ออนุมานความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรได้[ 11 ]คำกล่าวนี้ไม่ควรตีความว่าความสัมพันธ์ไม่สามารถบ่งชี้ถึงความเป็นไปได้ของการมีอยู่ของความสัมพันธ์เชิงสาเหตุได้ อย่างไรก็ตาม สาเหตุที่อยู่เบื้องหลังความสัมพันธ์ หากมี อาจเป็นทางอ้อมและไม่ทราบ และความสัมพันธ์ที่สูงยังทับซ้อนกับ ความสัมพันธ์ แบบเอกลักษณ์ ( สัจพจน์ ) ซึ่งไม่มีกระบวนการเชิงสาเหตุอยู่ (เช่น ระหว่างตัวแปรสองตัวที่วัดโครงสร้างเดียวกัน) ดังนั้น ความสัมพันธ์ระหว่างตัวแปรสองตัวจึงไม่ใช่เงื่อนไขที่เพียงพอในการสร้างความสัมพันธ์เชิงสาเหตุ (ในทิศทางใดทิศทางหนึ่ง)
ความสัมพันธ์ระหว่างอายุและความสูงในเด็กนั้นค่อนข้างชัดเจนในเชิงสาเหตุ แต่ความสัมพันธ์ระหว่างอารมณ์และสุขภาพในคนนั้นซับซ้อนกว่า อารมณ์ที่ดีขึ้นนำไปสู่สุขภาพที่ดีขึ้น หรือสุขภาพที่ดีนำไปสู่อารมณ์ที่ดี หรือทั้งสองอย่าง? หรือมีปัจจัยอื่นอยู่เบื้องหลังทั้งสองอย่าง? กล่าวอีกนัยหนึ่ง ความสัมพันธ์สามารถใช้เป็นหลักฐานสำหรับความสัมพันธ์เชิงสาเหตุที่เป็นไปได้ แต่ไม่สามารถระบุได้ว่าความสัมพันธ์เชิงสาเหตุนั้นจะเป็นอย่างไร (ถ้ามี)
ความสัมพันธ์เชิงเส้นอย่างง่าย

สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันบ่งชี้ถึงความแข็งแกร่งของ ความสัมพันธ์ เชิงเส้นระหว่างตัวแปรสองตัว แต่โดยทั่วไปแล้วค่าของมันไม่สามารถอธิบายความสัมพันธ์นั้นได้อย่างสมบูรณ์ โดยเฉพาะอย่างยิ่ง หากค่าเฉลี่ยแบบมีเงื่อนไขของที่กำหนดให้ซึ่งแทนด้วยไม่เป็นเชิงเส้นกับสัมประสิทธิ์สหสัมพันธ์จะไม่สามารถกำหนดรูปแบบของ ได้อย่างสมบูรณ์
ภาพที่อยู่ติดกันแสดงแผนภาพกระจายของควอเต็ตของแอนสคอมบ์ซึ่งเป็นชุดตัวแปรสี่คู่ที่แตกต่างกันที่สร้างขึ้นโดยฟรานซิส แอนสคอมบ์ [ 12 ] ตัวแปรทั้งสี่มีค่าเฉลี่ย (7.5) ความแปรปรวน (4.12) ความสัมพันธ์ (0.816) และเส้นถดถอย ( ) เหมือนกัน อย่างไรก็ตาม ดังที่เห็นได้จากแผนภาพ การกระจายของตัวแปรนั้นแตกต่างกันมาก ตัวแปรแรก (บนซ้าย) ดูเหมือนจะมีการกระจายแบบปกติ และสอดคล้องกับสิ่งที่คาดหวังเมื่อพิจารณาตัวแปรสองตัวที่มีความสัมพันธ์กันและปฏิบัติตามสมมติฐานของความปกติ ตัวแปรที่สอง (บนขวา) ไม่มีการกระจายแบบปกติ แม้ว่าจะสามารถสังเกตความสัมพันธ์ที่ชัดเจนระหว่างตัวแปรทั้งสองได้ แต่ก็ไม่ใช่ความสัมพันธ์เชิงเส้น ในกรณีนี้ ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันไม่ได้บ่งชี้ว่ามีความสัมพันธ์เชิงฟังก์ชันที่แน่นอน เพียงแต่บ่งชี้ถึงขอบเขตที่ความสัมพันธ์นั้นสามารถประมาณได้ด้วยความสัมพันธ์เชิงเส้น ในกรณีที่สาม (ล่างซ้าย) ความสัมพันธ์เชิงเส้นนั้นสมบูรณ์แบบ ยกเว้นค่าผิดปกติ หนึ่งค่า ที่มีอิทธิพลมากพอที่จะทำให้ค่าสัมประสิทธิ์สหสัมพันธ์ลดลงจาก 1 เหลือ 0.816 สุดท้าย ตัวอย่างที่สี่ (ล่างขวา) แสดงให้เห็นอีกตัวอย่างหนึ่งที่ค่าผิดปกติเพียงค่าเดียวก็เพียงพอที่จะทำให้ค่าสัมประสิทธิ์สหสัมพันธ์สูง แม้ว่าความสัมพันธ์ระหว่างตัวแปรทั้งสองจะไม่เป็นเชิงเส้นก็ตาม
ตัวอย่างเหล่านี้แสดงให้เห็นว่าสัมประสิทธิ์สหสัมพันธ์ ซึ่งเป็นสถิติสรุปไม่สามารถแทนที่การตรวจสอบข้อมูลด้วยสายตาได้ บางครั้งมีการกล่าวว่าตัวอย่างเหล่านี้แสดงให้เห็นว่าสหสัมพันธ์เพียร์สันถือว่าข้อมูลเป็นไปตามการแจกแจงแบบปกติแต่สิ่งนี้ถูกต้องเพียงบางส่วนเท่านั้น[ 6 ]สหสัมพันธ์เพียร์สันสามารถคำนวณได้อย่างแม่นยำสำหรับการแจกแจงใดๆ ที่มีเมทริกซ์ความแปรปรวน ร่วมจำกัด ซึ่งรวมถึงการแจกแจงส่วนใหญ่ที่พบในทางปฏิบัติ อย่างไรก็ตาม สัมประสิทธิ์สหสัมพันธ์เพียร์สัน (เมื่อรวมกับค่าเฉลี่ยและความแปรปรวนของตัวอย่าง) จะเป็นสถิติที่เพียงพอต่อเมื่อข้อมูลถูกดึงมาจากการแจกแจงแบบปกติหลายตัวแปรเท่านั้น ดังนั้น สัมประสิทธิ์สหสัมพันธ์เพียร์สันจึงสามารถอธิบายความสัมพันธ์ระหว่างตัวแปรได้อย่างสมบูรณ์ก็ต่อเมื่อข้อมูลถูกดึงมาจากการแจกแจงแบบปกติหลายตัวแปรเท่านั้น

คุณสมบัติ
ความไม่สัมพันธ์กันและความเป็นอิสระของกระบวนการสุ่ม
ในทำนองเดียวกันสำหรับกระบวนการสุ่มสองกระบวนการและ: ถ้าพวกมันเป็นอิสระต่อกัน พวกมันก็จะไม่มีความสัมพันธ์กัน[ 13 ] : หน้า 151 ข้อความตรงกันข้ามกับข้อความนี้อาจไม่เป็นจริง แม้ว่าตัวแปรสองตัวจะไม่มีความสัมพันธ์กัน แต่พวกมันก็อาจจะไม่เป็นอิสระต่อกัน
ความไวต่อการกระจายข้อมูล
ระดับความสัมพันธ์ระหว่างตัวแปรXและYไม่ขึ้นอยู่กับมาตราส่วนที่ใช้ในการแสดงตัวแปรเหล่านั้น กล่าวคือ หากเราวิเคราะห์ความสัมพันธ์ระหว่างXและYมาตรวัดความสัมพันธ์ส่วนใหญ่จะไม่ได้รับผลกระทบจากการแปลงXเป็นa + bXและYเป็นc + dYโดยที่a , b , cและdเป็นค่าคงที่ ( bและdเป็นค่าบวก) นี่เป็นจริงสำหรับสถิติ ความสัมพันธ์บางอย่าง รวมถึง ค่าที่เทียบเคียงได้ ในประชากรด้วย สถิติความสัมพันธ์บางอย่าง เช่น สัมประสิทธิ์ความสัมพันธ์อันดับ ก็ไม่เปลี่ยนแปลงไปตามการแปลงแบบโมโนโทนของการกระจายแบบมาร์จินัลของXและ/หรือY เช่น กัน

การวัดความสัมพันธ์ส่วนใหญ่มีความอ่อนไหวต่อวิธี การสุ่มตัวอย่าง XและYความสัมพันธ์มักจะแข็งแกร่งขึ้นหากพิจารณาในช่วงค่าที่กว้างขึ้น ดังนั้น หากเราพิจารณาค่าสัมประสิทธิ์ความสัมพันธ์ระหว่างความสูงของพ่อและลูกชายในกลุ่มผู้ชายที่เป็นผู้ใหญ่ทั้งหมด และเปรียบเทียบกับค่าสัมประสิทธิ์ความสัมพันธ์เดียวกันที่คำนวณเมื่อเลือกพ่อที่มีความสูงระหว่าง 165 ซม. ถึง 170 ซม. ความสัมพันธ์จะอ่อนกว่าในกรณีหลัง มีการพัฒนาเทคนิคหลายอย่างที่พยายามแก้ไขข้อจำกัดช่วงในตัวแปรหนึ่งหรือทั้งสองตัว และมักใช้ในการวิเคราะห์เมตา เทคนิคที่ใช้กันมากที่สุดคือสมการกรณีที่ II และกรณีที่ III ของ Thorndike [ 14 ]
มาตรวัดความสัมพันธ์ต่างๆ ที่ใช้กันอยู่อาจไม่สามารถหาค่าได้สำหรับบางการแจกแจงร่วมของXและYตัวอย่างเช่น สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันถูกกำหนดโดยใช้โมเมนต์ดังนั้นจึงไม่สามารถหาค่าได้หากโมเมนต์เหล่านั้นไม่สามารถหาค่าได้ มาตรวัดความสัมพันธ์ที่อิงตามควอนไทล์นั้นสามารถหาค่าได้เสมอ สถิติที่ได้จากตัวอย่างซึ่งมีจุดประสงค์เพื่อประมาณค่ามาตรวัดความสัมพันธ์ของประชากร อาจมีหรือไม่มีคุณสมบัติทางสถิติที่พึงประสงค์ เช่น การไม่เอนเอียงหรือความสอดคล้องเชิงอะซิมโทติกขึ้นอยู่กับโครงสร้างเชิงพื้นที่ของประชากรที่สุ่มตัวอย่างข้อมูลมา
ความไวต่อการกระจายข้อมูลสามารถนำมาใช้ให้เกิดประโยชน์ได้ ตัวอย่างเช่นความสัมพันธ์แบบปรับขนาดถูกออกแบบมาเพื่อใช้ความไวต่อช่วงเพื่อเลือกความสัมพันธ์ระหว่างส่วนประกอบที่รวดเร็วของอนุกรมเวลา [ 15 ] โดยการลดช่วงของค่าในลักษณะที่ควบคุมได้ ความสัมพันธ์ในช่วงเวลาที่ยาวนานจะถูกกรองออกไป และจะเหลือเพียงความสัมพันธ์ในช่วงเวลาสั้นๆ เท่านั้น
เมทริกซ์สหสัมพันธ์
เมทริกซ์สหสัมพันธ์ของตัวแปรสุ่มคือเมทริกซ์ที่มีค่าดังนี้
ดังนั้น ค่าในแนวทแยงมุมทั้งหมดจึงมีค่าเท่ากับ1 เหมือนกันทุก ประการ หากใช้สัมประสิทธิ์ผลคูณโมเมนต์ในการวัดความสัมพันธ์ เมทริกซ์ความสัมพันธ์จะเหมือนกับเมทริกซ์ความแปรปรวนร่วมของตัวแปรสุ่มมาตรฐาน สำหรับซึ่งใช้ได้ทั้งกับเมทริกซ์ความสัมพันธ์ของประชากร (ในกรณีนี้คือค่าเบี่ยงเบนมาตรฐานของประชากร) และเมทริกซ์ความสัมพันธ์ของตัวอย่าง (ในกรณีนี้หมายถึงค่าเบี่ยงเบนมาตรฐานของตัวอย่าง) ดังนั้น แต่ละเมทริกซ์จึงเป็นเมทริกซ์บวกกึ่งกำหนด (positive-semidefinite matrix ) อย่างแน่นอน ยิ่งไปกว่านั้น เมทริกซ์ความสัมพันธ์จะเป็นบวกกำหนดอย่างเคร่งครัด (strictly positive definite matrix ) หากไม่มีตัวแปรใดสามารถสร้างค่าทั้งหมดของมันได้อย่างแม่นยำโดยใช้ฟังก์ชันเชิงเส้นของค่าของตัวแปรอื่น ๆ
เมทริกซ์สหสัมพันธ์เป็นเมทริกซ์สมมาตร เนื่องจากค่าสหสัมพันธ์ระหว่างและ มีค่าเท่ากับค่าสหสัมพันธ์ระหว่างและ
ตัวอย่างเช่น เมทริกซ์สหสัมพันธ์ปรากฏอยู่ในสูตรหนึ่งสำหรับค่าสัมประสิทธิ์การกำหนดค่าหลายตัวแปรซึ่งเป็นมาตรวัดความเหมาะสมของแบบจำลองใน การ วิเคราะห์ การถดถอยหลายตัวแปร
ในการสร้างแบบจำลองทางสถิติเมทริกซ์สหสัมพันธ์ที่แสดงถึงความสัมพันธ์ระหว่างตัวแปรจะถูกจัดประเภทเป็นโครงสร้างสหสัมพันธ์ที่แตกต่างกัน ซึ่งจำแนกตามปัจจัยต่างๆ เช่น จำนวนพารามิเตอร์ที่จำเป็นในการประมาณค่า ตัวอย่างเช่น ใน เมทริกซ์สหสัมพันธ์ แบบแลกเปลี่ยนได้ตัวแปรทุกคู่จะถูกจำลองว่ามีสหสัมพันธ์เดียวกัน ดังนั้นองค์ประกอบที่ไม่ใช่แนวทแยงทั้งหมดของเมทริกซ์จึงเท่ากัน ในทางกลับกัน เมทริกซ์ อัตถารีเกรสซีฟมักใช้เมื่อตัวแปรแสดงถึงอนุกรมเวลา เนื่องจากสหสัมพันธ์มีแนวโน้มที่จะมากขึ้นเมื่อการวัดอยู่ใกล้กันมากขึ้นในเวลา ตัวอย่างอื่นๆ ได้แก่ แบบอิสระ แบบไม่มีโครงสร้าง แบบขึ้นอยู่กับ M และแบบโทปลิตซ์
ในการวิเคราะห์ข้อมูลเชิงสำรวจรูปแบบการแสดงความสัมพันธ์จะแทนที่เมทริกซ์ความสัมพันธ์ด้วยแผนภาพ โดยความสัมพันธ์ที่ "โดดเด่น" จะแสดงด้วยเส้นทึบ (ความสัมพันธ์เชิงบวก) หรือเส้นประ (ความสัมพันธ์เชิงลบ)
เมทริกซ์สหสัมพันธ์ที่ถูกต้องที่ใกล้ที่สุด
ในบางแอปพลิเคชัน (เช่น การสร้างแบบจำลองข้อมูลจากข้อมูลที่สังเกตได้เพียงบางส่วน) เราต้องการหาเมทริกซ์สหสัมพันธ์ที่ "ใกล้เคียงที่สุด" กับเมทริกซ์สหสัมพันธ์ "โดยประมาณ" (เช่น เมทริกซ์ที่โดยทั่วไปแล้วขาดคุณสมบัติบวกกึ่งกำหนดเนื่องจากวิธีการคำนวณ)
ในปี พ.ศ. 2545 Higham [ 16 ]ได้กำหนดแนวคิดเรื่องความใกล้เคียงอย่างเป็นทางการโดยใช้บรรทัดฐาน Frobeniusและได้จัดเตรียมวิธีการคำนวณเมทริกซ์สหสัมพันธ์ที่ใกล้ที่สุดโดยใช้อัลกอริทึมการฉายภาพของ Dykstra
สิ่งนี้จุดประกายความสนใจในหัวข้อดังกล่าว โดยมีผลลัพธ์ทางทฤษฎีใหม่ (เช่น การคำนวณเมทริกซ์สหสัมพันธ์ที่ใกล้ที่สุดด้วยโครงสร้างปัจจัย[ 17 ] ) และเชิงตัวเลข (เช่น การใช้วิธีของนิวตันในการคำนวณเมทริกซ์สหสัมพันธ์ที่ใกล้ที่สุด[ 18 ] ) ที่ได้รับในอีกหลายปีต่อมา
การกระจายแบบปกติสองตัวแปร
ถ้าตัวแปรสุ่มสองตัวเป็นไปตามการแจกแจงปกติแบบทวิภาคค่าเฉลี่ยแบบมีเงื่อนไขจะเป็นฟังก์ชันเชิงเส้นของและค่าเฉลี่ยแบบมีเงื่อนไขจะเป็นฟังก์ชันเชิงเส้นของค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างและและ ค่าเฉลี่ยและความแปรปรวน ส่วนขอบของและจะกำหนดความสัมพันธ์เชิงเส้นนี้
โดยที่และคือค่าที่คาดหวังของและตามลำดับ และและคือค่าเบี่ยงเบนมาตรฐานของและตามลำดับ
ความสัมพันธ์เชิงประจักษ์เป็นการประมาณค่าสัมประสิทธิ์สหสัมพันธ์ การประมาณค่าการกระจายสำหรับกำหนดโดย
ฟังก์ชันไฮเปอร์จีโอเมตริกแบบเกาส์เซียน อยู่ที่ไหน
ความหนาแน่นนี้เป็นทั้งความหนาแน่นแบบเบย์เซียนภายหลัง และ ความหนาแน่นของการกระจายความเชื่อมั่นที่เหมาะสมที่สุด[ 19 ] [ 20 ]
มาตรการอื่นๆ ในการวัดความสัมพันธ์ระหว่างตัวแปรสุ่ม
ข้อมูลที่ได้จากสัมประสิทธิ์สหสัมพันธ์นั้นไม่เพียงพอที่จะกำหนดโครงสร้างความสัมพันธ์ระหว่างตัวแปรสุ่มได้อย่างสมบูรณ์ สัมประสิทธิ์สหสัมพันธ์จะกำหนดโครงสร้างความสัมพันธ์ได้อย่างสมบูรณ์เฉพาะในกรณีพิเศษบางกรณีเท่านั้น เช่น เมื่อการแจกแจงเป็นการแจกแจงปกติแบบหลายตัวแปร (ดูแผนภาพด้านบน) ในกรณีของการแจกแจงแบบวงรี สัมประสิทธิ์ สหสัมพันธ์ จะบ่งบอกลักษณะของวงรี (หรือวงรีที่มีความหนาแน่นเท่ากัน) แต่ก็ไม่ได้บ่งบอกโครงสร้างความสัมพันธ์ได้อย่างสมบูรณ์ (ตัวอย่างเช่น ระดับความเป็นอิสระของ การแจกแจง t แบบหลายตัวแปรจะเป็นตัวกำหนดระดับความสัมพันธ์ที่ส่วนหาง)
สำหรับตัวแปรต่อเนื่อง มีการนำมาตรวัดความสัมพันธ์ทางเลือกหลายแบบมาใช้เพื่อแก้ไขข้อบกพร่องของค่าสัมประสิทธิ์สหสัมพันธ์ของ Pearson ที่อาจมีค่าเป็นศูนย์สำหรับตัวแปรสุ่มที่มีความสัมพันธ์กัน (ดู[ 21 ]และเอกสารอ้างอิงในนั้นสำหรับภาพรวม) มาตรวัดเหล่านี้มีคุณสมบัติสำคัญร่วมกันคือ ค่าศูนย์หมายถึงความเป็นอิสระ ซึ่งทำให้ผู้เขียนบางคน[ 21 ] [ 22 ]แนะนำให้ใช้มาตรวัดเหล่านี้เป็นประจำ โดยเฉพาะอย่างยิ่งค่าสัมประสิทธิ์สหสัมพันธ์ระยะทาง [ 23 ] [ 24 ] มาตรวัดทางเลือกอีกแบบหนึ่งคือค่าสัมประสิทธิ์ความสัมพันธ์แบบสุ่ม (Randomized Dependence Coefficient) [ 25 ] RDC เป็นมาตรวัดความสัมพันธ์ระหว่างตัวแปรสุ่มหลายตัวแปรที่มีประสิทธิภาพในการคำนวณโดยใช้ copulaและไม่เปลี่ยนแปลงเมื่อเทียบกับการปรับขนาดแบบไม่เชิงเส้นของตัวแปรสุ่ม
ข้อเสียเปรียบที่สำคัญอย่างหนึ่งของมาตรการทางเลือกทั่วไปคือ เมื่อใช้เพื่อทดสอบว่าตัวแปรสองตัวมีความสัมพันธ์กันหรือไม่ มาตรการเหล่านี้มักจะมีประสิทธิภาพต่ำกว่าเมื่อเทียบกับค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเมื่อข้อมูลเป็นไปตามการแจกแจงปกติแบบหลายตัวแปร[ 21 ]นี่เป็นผลพวงจากทฤษฎีบทไม่มีอาหารกลางวันฟรีเพื่อตรวจจับความสัมพันธ์ทุกประเภท มาตรการเหล่านี้ต้องเสียสละประสิทธิภาพในความสัมพันธ์อื่นๆ โดยเฉพาะอย่างยิ่งในกรณีพิเศษที่สำคัญของความสัมพันธ์เชิงเส้นที่มีขอบเขตแบบเกาส์เซียน ซึ่งค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเหมาะสมที่สุด ปัญหาอีกประการหนึ่งเกี่ยวข้องกับการตีความ ในขณะที่ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสามารถตีความได้สำหรับทุกค่า มาตรการทางเลือกโดยทั่วไปสามารถตีความได้อย่างมีความหมายเฉพาะที่ค่าสุดขั้วเท่านั้น[ 26 ]
สำหรับตัวแปรไบนารี สองตัว อัตราส่วนความน่าจะเป็นจะวัดความสัมพันธ์ระหว่างกัน และมีค่าอยู่ในช่วงของจำนวนที่ไม่เป็นลบ อาจเป็นอนันต์ก็ได้สถิติที่เกี่ยวข้อง เช่นYule's YและYule's Qจะปรับค่านี้ให้อยู่ในช่วงที่คล้ายกับค่าสหสัมพันธ์ แบบจำลองโลจิ สติก ได้ขยายอัตราส่วนความน่าจะเป็นเพื่อจำลองกรณีที่ตัวแปรตามเป็นตัวแปรไม่ต่อเนื่อง และอาจมีตัวแปรอิสระหนึ่งตัวหรือมากกว่านั้น
อัตราส่วนสหสัมพันธ์ข้อมูลร่วมตามเอนโทรปีสหสัมพันธ์รวมสหสัมพันธ์รวมคู่และสหสัมพันธ์พหุคอริก ล้วนสามารถตรวจจับความสัมพันธ์ทั่วไปได้มากขึ้น เช่นเดียวกับการพิจารณาโคพูล่าระหว่างตัวแปรเหล่านั้น ในขณะที่สัมประสิทธิ์การกำหนดจะขยายสัมประสิทธิ์สหสัมพันธ์ไปสู่การถดถอยพหุตัวแปร
ดูเพิ่มเติม
- การหาค่าสหสัมพันธ์อัตโนมัติ
- ความสัมพันธ์เชิงแคนอนิก
- สัมประสิทธิ์การกำหนด
- การรวมตัวกัน
- สัมประสิทธิ์สหสัมพันธ์ความสอดคล้อง
- ความสัมพันธ์โคฟีเนติก
- การลดทอนความสัมพันธ์
- ฟังก์ชันสหสัมพันธ์
- ช่องว่างความสัมพันธ์
- ความแปรปรวนร่วม
- ความแปรปรวนร่วมและความสัมพันธ์
- ความสัมพันธ์ไขว้
- ความสัมพันธ์เชิงนิเวศวิทยา
- สัดส่วนของความแปรปรวนที่ไม่สามารถอธิบายได้
- ความสัมพันธ์ทางพันธุกรรม
- แลมบ์ดาของกูดแมนและครัสคาล
- สัญลักษณ์แสดงความสัมพันธ์
- ความสัมพันธ์ลวงตา
- ความสัมพันธ์ระหว่างชั้นเรียน
- สัมประสิทธิ์สหสัมพันธ์ภายในกลุ่ม
- ยก (การขุดข้อมูล)
- การพึ่งพาค่าเฉลี่ย
- ปัญหาหน่วยพื้นที่ที่ปรับเปลี่ยนได้
- ความสัมพันธ์หลายตัว
- สัมประสิทธิ์สหสัมพันธ์แบบจุด-ไบซีเรียล
- อัตราส่วนจำนวนควอดแรนต์
- ความสัมพันธ์ที่ไม่แท้จริง
- อัตราส่วนความสัมพันธ์ทางสถิติ
- เอกราชย่อย
อ่านเพิ่มเติม
- John Nicholas Zorich (2024). ประวัติศาสตร์ของความสัมพันธ์ . Taylor & Francis. doi : 10.1201/9781003527893 . ISBN 9781003527893.
- "ความสัมพันธ์ (ในสถิติ)" , สารานุกรมคณิตศาสตร์ , EMS Press , 2001 [1994]
- Oestreicher, J. & DR (26 กุมภาพันธ์ 2015). โรคระบาดแห่งความเท่าเทียม: นิยายวิทยาศาสตร์ระทึกขวัญเกี่ยวกับโรคระบาดระหว่างประเทศ การเมือง และการค้นพบยา . แคลิฟอร์เนีย: สำนักพิมพ์ Omega Cat Press. หน้า 408. ISBN 978-0963175540.
ลิงก์ภายนอก
- หน้า MathWorld เกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์ (ไขว้) ของตัวอย่าง
- คำนวณค่าความสำคัญระหว่างค่าสหสัมพันธ์สองค่าเพื่อเปรียบเทียบค่าสหสัมพันธ์สองค่า
- "ชุดเครื่องมือ MATLAB สำหรับคำนวณสัมประสิทธิ์สหสัมพันธ์แบบถ่วงน้ำหนัก"เก็บถาวรจากต้นฉบับเมื่อวันที่ 24 เมษายน 2564
- พิสูจน์ว่าค่าสัมประสิทธิ์สหสัมพันธ์ทวิภาคของตัวอย่างมีขีดจำกัดบวกหรือลบ 1
- การจำลองแบบโต้ตอบด้วย Flash เกี่ยวกับความสัมพันธ์ของตัวแปรสองตัวที่มีการแจกแจงแบบปกติโดย Juha Puranen
- การวิเคราะห์ความสัมพันธ์ สถิติชีวการแพทย์
- R-Psychologist การแสดง ภาพความสัมพันธ์ระหว่างตัวแปรเชิงตัวเลขสองตัว
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ความสัมพันธ์
ใน ทางสถิติ ความสัมพันธ์เชิงสถิติ เป็นความสัมพันธ์ทางสถิติระหว่าง ตัวแปรสุ่ม สองตัว หรือ ข้อมูลสองตัวแปร โดยทั่วไปหมายถึงขอบเขตที่ปริมาณสองอย่างมี ความสัมพันธ์เชิงเส้นตรง...
สัมประสิทธิ์ผลคูณโมเมนต์ของเพียร์สัน
มาตรวัดความสัมพันธ์ที่คุ้นเคยที่สุดระหว่างปริมาณสองอย่างคือสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน ซึ่งโดยทั่วไปเรียกว่า 'สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน' หรือเรียกง่ายๆ ว่า 'สัมประสิทธิ์สหสัมพันธ์' (เนื่องจากเป็นรูปแบบที่ใช้กันทั่วไปมากที่สุด)...
สัมประสิทธิ์สหสัมพันธ์ลำดับ
สัมประสิทธิ์ สหสัมพันธ์ลำดับ เช่น สัมประสิทธิ์สหสัมพันธ์ลำดับของสเปียร์แมน และ สัมประสิทธิ์สหสัมพันธ์ลำดับของเคนดัล (τ) วัดขอบเขตที่เมื่อตัวแปรหนึ่งเพิ่มขึ้น ตัวแปรอีกตัวหนึ่งมีแนวโน้มที่จะเพิ่มขึ้น โดยไม่จำเป็นต้องแสดงการเพิ่มขึ้นนั้นด้วยความสัมพันธ์เชิงเส้น...
ความสัมพันธ์และความเป็นเหตุเป็นผล
คำกล่าวทั่วไปที่ว่า " ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ " หมายความว่าไม่สามารถใช้ความสัมพันธ์เพียงอย่างเดียวเพื่ออนุมานความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรได้ [ 11 ]...