กลับไปหน้าบทความ

อ่าน 16 นาที

ความสัมพันธ์ระยะทาง

ในทางสถิติและทฤษฎีความน่าจะ เป็น สัมประสิทธิ์ สหสัมพันธ์ระยะทางเป็นการวัดความสัมพันธ์ ระหว่าง เวกเตอร์สุ่มสองคู่ ที่มี มิติใดๆ ก็ได้

ความสัมพันธ์ระยะทาง

ในทางสถิติและทฤษฎีความน่าจะ เป็น สัมประสิทธิ์ สหสัมพันธ์ระยะทางเป็นการวัดความสัมพันธ์ ระหว่าง เวกเตอร์สุ่มสองคู่ ที่มี มิติใดๆ ก็ได้ ไม่จำเป็นต้องเท่ากันสัมประสิทธิ์สหสัมพันธ์ระยะทางของประชากรจะเป็นศูนย์ก็ต่อเมื่อเวกเตอร์สุ่มทั้งสองเป็นอิสระต่อกันดังนั้น สัมประสิทธิ์สหสัมพันธ์ระยะทางจึงวัดความสัมพันธ์ ทั้งเชิงเส้นและไม่เชิงเส้น ระหว่างตัวแปรสุ่มหรือเวกเตอร์สุ่มสองตัว ซึ่งแตกต่างจากสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันที่สามารถตรวจจับได้เฉพาะความสัมพันธ์เชิงเส้นระหว่างตัวแปรสุ่ม สองตัว เท่านั้น

สามารถใช้ค่าสหสัมพันธ์ระยะทางในการทดสอบ ความสัมพันธ์ ทางสถิติด้วยการทดสอบการเรียงสับเปลี่ยนได้โดยขั้นตอนแรกคือการคำนวณค่าสหสัมพันธ์ระยะทาง (ซึ่งเกี่ยวข้องกับการปรับศูนย์กลางของเมทริกซ์ระยะทางแบบยุคลิด) ระหว่างเวกเตอร์สุ่มสองตัว จากนั้นเปรียบเทียบค่านี้กับค่าสหสัมพันธ์ระยะทางของการสลับข้อมูลหลายๆ ครั้ง

ชุดจุด ( xy ) หลายชุด พร้อมค่าสัมประสิทธิ์สหสัมพันธ์ระยะทางระหว่างxและyสำหรับแต่ละชุด เปรียบเทียบกับกราฟแสดงความสัมพันธ์

พื้นหลัง

การวัดความสัมพันธ์แบบคลาสสิกสัมประสิทธิ์สหสัมพันธ์เพียร์สัน [ 1 ] นั้นไวต่อความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวเป็นหลัก สหสัมพันธ์ระยะทางได้รับการแนะนำในปี 2548 โดยGábor J. Székely ในการบรรยายหลายครั้งเพื่อแก้ไขข้อบกพร่องของ สหสัมพันธ์เพียร์สันกล่าวคือ สหสัมพันธ์สามารถเป็นศูนย์ได้ง่ายสำหรับตัวแปรที่ขึ้นอยู่กันสหสัมพันธ์ = 0 (ไม่มีความสัมพันธ์กัน) ไม่ได้หมายความถึงความเป็นอิสระ ในขณะที่สหสัมพันธ์ระยะทาง = 0 หมายความถึงความเป็นอิสระ ผลลัพธ์แรกเกี่ยวกับสหสัมพันธ์ระยะทางได้รับการตีพิมพ์ในปี 2550 และ 2552 [ 2 ] [ 3 ]ได้รับการพิสูจน์แล้วว่าความแปรปรวนร่วมระยะทางนั้นเหมือนกับความแปรปรวนร่วมแบบบราวน์[ 3 ]การวัดเหล่านี้เป็นตัวอย่างของระยะทางพลังงาน

ค่าสัมประสิทธิ์สหสัมพันธ์ระยะทางได้มาจากการคำนวณจากปริมาณอื่นๆ ที่ใช้ในการกำหนดสูตร โดยเฉพาะอย่างยิ่ง ได้แก่ความแปรปรวนระยะทางค่าเบี่ยงเบนมาตรฐานระยะทางและความแปรปรวนร่วมระยะทาง ปริมาณเหล่านี้มีบทบาทเช่นเดียวกับ โมเมนต์ทั่วไปที่มีชื่อตรงกันในการกำหนดสูตรของค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน

คำจำกัดความ

ความแปรปรวนระยะทาง

เริ่มต้นด้วยนิยามของความแปรปรวนร่วมระยะทางของตัวอย่างให้ ( X kY k ), k  = 1, 2, ..., nเป็นตัวอย่างทางสถิติจากคู่ของตัวแปรสุ่มค่าจริงหรือเวกเตอร์ ( XY ) ขั้นแรก คำนวณเมทริกซ์ระยะทางขนาดn x n ( a j , k ) และ ( b j , k ) ที่ประกอบด้วย ระยะทางระหว่างคู่ทั้งหมด

โดยที่ ||⋅ || หมายถึงนอร์มแบบยุคลิดจากนั้นให้พิจารณาระยะทางที่มีจุดศูนย์กลางสองจุดทั้งหมด

โดยที่คือค่าเฉลี่ยของ แถวที่ j , คือค่าเฉลี่ยของ คอลัมน์ที่ kและคือค่าเฉลี่ยรวมของเมทริกซ์ระยะทางของ ตัวอย่าง Xสัญลักษณ์จะคล้ายกันสำหรับ ค่า b (ในเมทริกซ์ระยะทางแบบศูนย์กลาง ( A j , k ) และ ( B j , k ) ผลรวมของทุกแถวและทุกคอลัมน์เป็นศูนย์) ค่าความแปรปรวนร่วมของระยะทางตัวอย่าง ยกกำลังสอง (ค่าสเกลาร์) คือค่าเฉลี่ยเลขคณิตของผลคูณA j , k และ B j , k :

สถิติT n = n dCov 2 n ( X , Y ) กำหนดการทดสอบความเป็นอิสระแบบหลายตัวแปรที่สอดคล้องกัน ของเวกเตอร์สุ่มในมิติใดๆ สำหรับการใช้งาน โปรดดู ฟังก์ชัน dcov.testใน แพ็คเกจ energyสำหรับR [ 4 ]

ค่าประชากรของความแปรปรวนระยะทางสามารถกำหนดได้ในทำนองเดียวกัน ให้Xเป็นตัวแปรสุ่มที่รับค่าในปริภูมิยูคลิดp มิติด้วย การแจกแจงความน่าจะเป็นμและให้Yเป็นตัวแปรสุ่มที่รับค่าใน ปริภูมิยูคลิด qมิติด้วยการแจกแจงความน่าจะเป็นνและสมมติว่าXและYมีค่าคาดหวังจำกัด เขียน

สุดท้ายนี้ ให้กำหนดค่าประชากรของค่าความแปรปรวนร่วมระยะทางกำลังสองของXและYดังนี้

เราสามารถแสดงให้เห็นว่าสิ่งนี้เทียบเท่ากับคำจำกัดความต่อไปนี้:

โดยที่Eหมายถึงค่าที่คาดหวัง และและเป็นตัวแปรสุ่มอิสระและมีการกระจายเหมือนกัน ตัวแปรสุ่มไพรม์และหมายถึงสำเนาของตัวแปร และ ที่มีการกระจายเหมือนกันและเป็นอิสระ (iid) และ และ ก็เป็น iid ในทำนองเดียวกัน[ 5 ]ความแปรปรวนของระยะทางสามารถแสดงได้ในรูปของความแปรปรวน ของเพียร์สันแบบคลาสสิ ก covดังนี้:

เอกลักษณ์นี้แสดงให้เห็นว่าความแปรปรวนร่วมของระยะทางไม่เหมือนกับความแปรปรวนร่วมของระยะทางcov(‖ XX' ‖, ‖ YY' ) ซึ่งอาจเป็นศูนย์ได้แม้ว่าXและYจะไม่เป็นอิสระต่อกัน ก็ตาม [ 6 ]

อีกทางเลือกหนึ่ง ความแปรปรวนระยะทางสามารถกำหนดได้เป็น นอร์ม L 2แบบ ถ่วงน้ำหนัก ของระยะทางระหว่างฟังก์ชันลักษณะ ร่วม ของตัวแปรสุ่มและผลคูณของฟังก์ชันลักษณะขอบของตัวแปรสุ่มเหล่านั้น: [ 7 ]

โดยที่, , และเป็นฟังก์ชันลักษณะเฉพาะของ( X , Y ), XและYตามลำดับp , qแทนมิติยุคลิดของ XและYและดังนั้นของsและtและc p , c qเป็นค่าคงที่ฟังก์ชันน้ำหนักถูกเลือกเพื่อสร้างการวัดที่สมมาตรตามมาตราส่วนและไม่เปลี่ยนแปลงตาม การหมุน ซึ่งไม่เป็นศูนย์สำหรับตัวแปรตาม[ 7 ] [ 8 ]การตีความหนึ่งของคำจำกัดความของฟังก์ชันลักษณะเฉพาะคือตัวแปรe isXและe itYเป็นการแสดงแบบวัฏจักรของXและYที่มีคาบต่างกันซึ่งกำหนดโดยsและtและนิพจน์ϕ X , Y ( s , t ) − ϕ X ( s ) ϕ Y ( t ) ในตัวเศษของคำจำกัดความของฟังก์ชันลักษณะ เฉพาะของความแปรปรวนระยะทางคือความแปรปรวนแบบคลาสสิกของe isXและe itYนิยามของฟังก์ชันลักษณะเฉพาะแสดงให้เห็นอย่างชัดเจนว่า dCov 2 ( X , Y ) = 0 ก็ต่อเมื่อXและYเป็นอิสระต่อกัน

ความแปรปรวนของระยะทางและค่าเบี่ยงเบนมาตรฐานของระยะทาง

ความแปรปรวนตามระยะทางเป็นกรณีพิเศษของความแปรปรวนร่วมตามระยะทางเมื่อตัวแปรทั้งสองเหมือนกัน ค่าความแปรปรวนตามระยะทางในประชากรคือรากที่สองของ

โดยที่, , และเป็น ตัวแปรสุ่มอิสระที่มีการ แจกแจง เหมือนกัน , แทนค่าที่คาดหวังและสำหรับฟังก์ชันเช่น

ความแปรปรวน ของระยะทางตัวอย่างคือรากที่สองของ

ซึ่งเป็นญาติของความแตกต่างเฉลี่ยของCorrado Giniที่นำเสนอในปี พ.ศ. 2455 (แต่ Gini ไม่ได้ทำงานกับระยะทางศูนย์กลาง) [ 9 ]

ค่าเบี่ยงเบนมาตรฐานของระยะทางคือรากที่สองของ ค่าความ แปรปรวน ของระยะทาง

ความสัมพันธ์ระยะทาง

ความสัมพันธ์ระยะทาง[ 2 ] [ 3 ]ของตัวแปรสุ่มสองตัวได้มาจากการหารความแปรปรวนระยะทางด้วยผลคูณของค่าเบี่ยงเบนมาตรฐานระยะทางความสัมพันธ์ระยะทางคือรากที่สองของ

และค่าสหสัมพันธ์ระยะทางของตัวอย่างจะถูกกำหนดโดยการแทนที่ค่าความแปรปรวนร่วมระยะทางของตัวอย่างและค่าความแปรปรวนระยะทางด้วยค่าสัมประสิทธิ์ของประชากรข้างต้น

สำหรับการคำนวณความสัมพันธ์ระยะห่างของตัวอย่างอย่างง่าย โปรดดูฟังก์ชัน dcorใน แพ็คเกจ พลังงานสำหรับR [ 4 ]

คุณสมบัติ

ความสัมพันธ์ระยะทาง

  1. และนี่เป็นสิ่งที่ตรงกันข้ามกับค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน ซึ่งอาจมีค่าเป็นลบได้
  2. ก็ต่อเมื่อXและYเป็นอิสระต่อ กันเท่านั้น
  3. นั่นหมายความว่ามิติของปริภูมิย่อยเชิงเส้นที่เกิดจาก ตัวอย่าง XและYตามลำดับนั้นแทบจะเท่ากันอย่างแน่นอน และถ้าเราสมมติว่าปริภูมิย่อยเหล่านี้เท่ากันแล้ว ในปริภูมิย่อยนี้สำหรับเวกเตอร์A บางตัว สเกลาร์b บาง ตัว และเมทริกซ์ตั้งฉากปกติบางตัว

ความแปรปรวนระยะทาง

  1. และ;
  2. สำหรับเวกเตอร์ สเกลาร์และเมทริกซ์ตั้งฉาก ปกติทั้งหมดที่มีค่าคงที่
  3. ถ้าเวกเตอร์สุ่มและเป็นอิสระต่อกันแล้ว
    ความเท่าเทียมกันเกิดขึ้นก็ต่อเมื่อและเป็นค่าคงที่ทั้งคู่ หรือและเป็นค่าคงที่ทั้งคู่ หรือเป็นอิสระต่อกัน
  4. ก็ต่อเมื่อXและYเป็นอิสระต่อ กันเท่านั้น

คุณสมบัติข้อสุดท้ายนี้เป็นผลกระทบที่สำคัญที่สุดของการทำงานโดยใช้ระยะห่างแบบกึ่งกลาง

สถิตินี้เป็นตัวประมาณค่าที่มีอคติของภายใต้ความเป็นอิสระของ X และ Y [ 10 ]

ตัวประมาณค่าที่ไม่เอนเอียงของได้รับจาก Székely และ Rizzo [ 11 ]

ความแปรปรวนของระยะทาง

  1. ถ้าและก็ต่อเมื่อเกือบจะแน่นอนแล้ว
  2. ก็ต่อเมื่อข้อมูลตัวอย่างทุกตัวเหมือนกันทุกประการเท่านั้น
  3. สำหรับเวกเตอร์คงที่ A , สเกลาร์bและเมทริกซ์ตั้งฉากปกติทั้งหมด
  4. ถ้าXและYเป็นตัวแปรอิสระแล้ว.

ความเท่าเทียมกันใน (iv) เกิดขึ้นก็ต่อเมื่อตัวแปรสุ่มXหรือY ตัวใดตัวหนึ่ง เป็นค่าคงที่เท่านั้น

การสรุปทั่วไป

ความแปรปรวนตามระยะทางสามารถขยายให้ครอบคลุมถึงกำลังของระยะทางแบบยุคลิดได้ นิยาม

จากนั้นสำหรับทุก ๆและจะเป็นอิสระต่อกันก็ต่อเมื่อสิ่งสำคัญคือต้องสังเกตว่าลักษณะเฉพาะนี้ไม่เป็นจริงสำหรับเลขชี้กำลังในกรณีนี้สำหรับตัวแปรทวิภาคจะเป็นฟังก์ชันเชิงกำหนดของความสัมพันธ์แบบเพียร์สัน[ 2 ]ถ้าและเป็นกำลังของระยะทางที่สอดคล้องกันแล้วความแปรปรวนร่วมของระยะทางตัวอย่างสามารถกำหนดได้เป็นจำนวนที่ไม่เป็นลบซึ่ง

เราสามารถขยายไปสู่ตัวแปรสุ่มที่มีค่าในปริภูมิเมตริก ได้ และ: ถ้ามีกฎในปริภูมิเมตริกที่มีเมตริกแล้วกำหนด, , และ (โดยที่ มีค่าจำกัด กล่าวคือมีโมเมนต์แรกจำกัด) จากนั้นถ้ามีกฎ(ในปริภูมิเมตริกที่อาจแตกต่างกันซึ่งมีโมเมนต์แรกจำกัด) กำหนด

สิ่งนี้จะไม่เป็นลบสำหรับทั้งหมดดังกล่าวก็ต่อเมื่อปริภูมิเมตริกทั้งสองมีประเภทลบ[ 12 ]ในที่นี้ ปริภูมิเมตริกมีประเภทลบก็ต่อเมื่อสมมาตรกับเซตย่อยของปริภูมิฮิลเบิร์ต [ 13 ] ถ้าปริภูมิเมตริกทั้งสองมีประเภทลบที่แข็งแกร่ง ก็ต่อ เมื่อ เป็นอิสระ[ 12 ]

นิยามทางเลือกของความแปรปรวนระยะทาง

ค่าความแปรปรวนระยะทางดั้งเดิมถูกกำหนดให้เป็นรากที่สองของแทนที่จะเป็นค่าสัมประสิทธิ์ยกกำลังสอง มีคุณสมบัติที่ว่ามันคือระยะทางพลังงานระหว่างการแจกแจงร่วมของและผลคูณของการแจกแจงส่วนย่อย อย่างไรก็ตาม ภายใต้นิยามนี้ ค่าความแปรปรวนระยะทาง แทนที่จะเป็นค่าเบี่ยงเบนมาตรฐาน ระยะทาง จะถูกวัดในหน่วยเดียวกับระยะทาง

อีกทางเลือกหนึ่งคือ เราอาจกำหนดความแปรปรวนของระยะทางเป็นกำลังสองของระยะทางพลังงาน ในกรณีนี้ ค่าเบี่ยงเบนมาตรฐานของระยะทางจะถูกวัดในหน่วยเดียวกับระยะทาง และจะมีตัวประมาณค่าที่ไม่เอนเอียงสำหรับความแปรปรวนของระยะทางของประชากร[ 11 ]

ภายใต้นิยามทางเลือกเหล่านี้ ความสัมพันธ์เชิงระยะทางจะถูกกำหนดเป็นกำลังสองแทนที่จะเป็นรากที่สอง

สูตรทางเลือก: ความแปรปรวนร่วมแบบบราวน์

ความแปรปรวนร่วมแบบบราวน์ได้รับการส่งเสริมโดยการขยายแนวคิดเรื่องความแปรปรวนร่วมไปสู่กระบวนการสุ่ม กำลังสองของความแปรปรวนร่วมของตัวแปรสุ่ม X และ Y สามารถเขียนได้ในรูปแบบต่อไปนี้:

โดยที่ E แทนค่าที่คาดหวังและเครื่องหมายไพรม์แทนสำเนาที่เป็นอิสระและมีการแจกแจงเหมือนกัน เราต้องการการวางนัยทั่วไปของสูตรนี้ดังต่อไปนี้ ถ้า U(s), V(t) เป็นกระบวนการสุ่มใดๆ ที่กำหนดสำหรับ s และ t ที่เป็นจำนวนจริงทั้งหมด ให้กำหนดเวอร์ชันของ X ที่มีศูนย์กลางอยู่ที่ U โดย

เมื่อใดก็ตามที่ค่าคาดหวังแบบมีเงื่อนไขที่ถูกลบมีอยู่ และกำหนดให้ Y V เป็น เวอร์ชันศูนย์กลาง V ของ Y [ 3 ] [ 14 ] [ 15 ]ค่าความแปรปรวนร่วม (U,V) ของ (X,Y) ถูกกำหนดให้เป็นจำนวนที่ไม่เป็นลบซึ่งกำลังสองคือ

เมื่อใดก็ตามที่ด้านขวามือเป็นค่าที่ไม่เป็นลบและมีค่าจำกัด ตัวอย่างที่สำคัญที่สุดคือเมื่อ U และ V เป็นการเคลื่อนที่แบบบราวน์ / กระบวนการไวเนอร์ แบบอิสระสองด้าน ที่มีค่าเฉลี่ยเป็นศูนย์และค่าความแปรปรวนร่วม| s | + | t | − | st | = 2 min( s , t ) (เฉพาะกรณีที่ s และ t เป็นค่าที่ไม่เป็นลบเท่านั้น) (ค่านี้เป็นสองเท่าของค่าความแปรปรวนร่วมของกระบวนการไวเนอร์มาตรฐาน โดยที่ตัวประกอบ 2 ช่วยให้การคำนวณง่ายขึ้น) ในกรณีนี้ ค่าความแปรปรวนร่วม ( U , V ) เรียกว่าค่าความแปรปรวนร่วมแบบบราวน์และใช้สัญลักษณ์ แทนด้วย

มีเรื่องบังเอิญที่น่าประหลาดใจอย่างหนึ่งคือ ค่าความแปรปรวนร่วมแบบบราวน์นั้นเหมือนกับค่าความแปรปรวนร่วมตามระยะทาง:

ดังนั้นความสัมพันธ์แบบบราวน์จึงเหมือนกับความสัมพันธ์ตามระยะทาง

ในทางกลับกัน หากเราแทนที่การเคลื่อนที่แบบบราวน์ด้วยฟังก์ชันเอกลักษณ์เชิง กำหนด idแล้ว Cov id ( X , Y ) ก็จะเป็นเพียงค่าสัมบูรณ์ของความแปรปรวนร่วม แบบเพียร์สันแบบคลาสสิ ก

ตัวชี้วัดความสัมพันธ์อื่นๆ รวมถึงตัวชี้วัดความสัมพันธ์แบบเคอร์เนล (เช่น เกณฑ์ความเป็นอิสระของฮิลเบิร์ต-ชมิดต์ หรือ HSIC) ก็สามารถตรวจจับปฏิสัมพันธ์เชิงเส้นและไม่เชิงเส้นได้เช่นกัน ทั้งความสัมพันธ์ตามระยะทางและตัวชี้วัดแบบเคอร์เนลสามารถนำไปใช้ในวิธีการต่างๆ เช่นการวิเคราะห์ความสัมพันธ์แบบแคนอนิกและการวิเคราะห์องค์ประกอบอิสระเพื่อให้ได้พลังทางสถิติ ที่แข็งแกร่งยิ่ง ขึ้น

ดูเพิ่มเติม

หมายเหตุ

  1. ^เพียร์สัน  1895a , 1895b
  2. เอบีซีเซเกลี, ริซโซ และบากิรอฟ 2550
  3. a b c d Székely & Rizzo 2009a .
  4. ^ a b Rizzo & Székely 2021 .
  5. เซเคลีและริซโซ 2014 , หน้า 1. 11.
  6. ^ Raymaekers, Jakob; Rousseeuw, Peter J. (2 มกราคม 2025). "ความแปรปรวนของระยะทาง ความเป็นอิสระ และความแตกต่างระหว่างคู่" The American Statistician . 79 (1): 122– 128. arXiv : 2406.13052 . doi : 10.1080/00031305.2024.2374966 .
  7. อรรถ เป็นSzékely & Rizzo 2009a , p. 1249 ทฤษฎีบท 7 (3.7)
  8. ^ Székely & Rizzo 2012
  9. ^จินี 1912
  10. ^ Székely & Rizzo 2009b .
  11. ^ a b Székely & Rizzo 2014 .
  12. ^ a b Lyons 2014 .
  13. ^ Klebanov 2005 , หน้า .
  14. ^บิเกลและซู 2009
  15. ^ โคโซ รก 2009
  • สถิติพลังงาน (E-statistics) เก็บถาวรเมื่อวันที่ 13 กันยายน 2019 ที่Wayback Machine
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Distance_correlation&oldid=1358343983 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ความสัมพันธ์ระยะทาง

ในทางสถิติและทฤษฎีความน่าจะ เป็น สัมประสิทธิ์ สหสัมพันธ์ระยะทางเป็นการวัดความสัมพันธ์ ระหว่าง เวกเตอร์สุ่มสองคู่ ที่มี มิติใดๆ ก็ได้

พื้นหลัง

การวัดความสัมพันธ์แบบคลาสสิก สัมประสิทธิ์สหสัมพันธ์เพียร์สัน [ 1 ] นั้น ไวต่อความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวเป็นหลัก สหสัมพันธ์ระยะทางได้รับการแนะนำในปี 2548 โดย Gábor J.

ความแปรปรวนระยะทาง

เริ่มต้นด้วยนิยามของ ความแปรปรวนร่วมระยะทางของตัวอย่าง ให้ ( X k , Y k ), k = 1, 2, ...

ความแปรปรวนของระยะทางและค่าเบี่ยงเบนมาตรฐานของระยะทาง

ความ แปรปรวนตามระยะทาง เป็นกรณีพิเศษของความแปรปรวนร่วมตามระยะทางเมื่อตัวแปรทั้งสองเหมือนกัน ค่าความแปรปรวนตามระยะทางในประชากรคือ รากที่สอง ของ