กลับไปหน้าบทความ

อ่าน 12 นาที

ความสัมพันธ์เชิงแคนอนิก

ในทางสถิติการวิเคราะห์ความสัมพันธ์เชิงแคนอน ( CCA ) หรือที่เรียกว่าการวิเคราะห์ตัวแปรเชิงแคนอนเป็นวิธีการอนุมานข้อมูลจากเมทริกซ์ความแปรปรวนร่วมหากเรามีเวกเตอร์สองตัวX = ( X 1 , ...

ความสัมพันธ์เชิงแคนอนิก

ในทางสถิติการวิเคราะห์ความสัมพันธ์เชิงแคนอน ( CCA ) หรือที่เรียกว่าการวิเคราะห์ตัวแปรเชิงแคนอนเป็นวิธีการอนุมานข้อมูลจากเมทริกซ์ความแปรปรวนร่วมหากเรามีเวกเตอร์สองตัวX  = ( X 1 , ...,  X n ) และY  = ( Y 1 , ...,  Y m ) ของตัวแปรสุ่มและมีความสัมพันธ์กันระหว่างตัวแปร การวิเคราะห์ความสัมพันธ์เชิงแคนอนจะค้นหาการรวมเชิงเส้นของXและYที่มีความสัมพันธ์สูงสุดซึ่งกันและกัน[ 1 ] TR Knapp ตั้งข้อสังเกตว่า " การทดสอบความสำคัญเชิงพาราเมตริกที่พบได้ทั่วไปเกือบทั้งหมดสามารถถือได้ว่าเป็นกรณีพิเศษของการวิเคราะห์ความสัมพันธ์เชิงแคนอน ซึ่งเป็นขั้นตอนทั่วไปสำหรับการตรวจสอบความสัมพันธ์ระหว่างตัวแปรสองชุด" [ 2 ]วิธีการนี้ได้รับการแนะนำครั้งแรกโดยHarold Hotellingในปี พ.ศ. 2479 [ 3 ]แม้ว่าในบริบทของมุมระหว่างระนาบแนวคิดทางคณิตศาสตร์นี้ได้รับการตีพิมพ์โดยCamille Jordanในปี พ.ศ. 2418 [ 4 ]

ปัจจุบัน CCA เป็นรากฐานสำคัญของสถิติหลายตัวแปรและการเรียนรู้แบบหลายมุมมอง และมีการเสนอการตีความและการขยายมากมาย เช่น CCA แบบความน่าจะเป็น CCA แบบเบาบาง CCA แบบหลายมุมมอง CCA แบบลึก[ 5 ]และ DeepGeoCCA [ 6 ]น่าเสียดายที่อาจเป็นเพราะความนิยมของมัน วรรณกรรมจึงอาจไม่สอดคล้องกันในเรื่องสัญลักษณ์ เราพยายามเน้นความไม่สอดคล้องกันดังกล่าวในบทความนี้ เพื่อช่วยให้ผู้อ่านสามารถใช้ประโยชน์จากวรรณกรรมและเทคนิคที่มีอยู่ได้อย่างเต็มที่

เช่นเดียวกับวิธี PCAซึ่งเป็นวิธีพี่น้องCCA สามารถมองได้ใน รูปแบบ ประชากร (ซึ่งสอดคล้องกับเวกเตอร์สุ่มและเมทริกซ์ความแปรปรวนร่วม) หรือใน รูปแบบ ตัวอย่าง (ซึ่งสอดคล้องกับชุดข้อมูลและเมทริกซ์ความแปรปรวนร่วมของตัวอย่าง) ทั้งสองรูปแบบนี้แทบจะเหมือนกันทุกประการ ซึ่งเป็นเหตุผลว่าทำไมความแตกต่างของทั้งสองรูปแบบจึงมักถูกมองข้าม แต่ทั้งสองรูปแบบอาจมีพฤติกรรมที่แตกต่างกันมากในการตั้งค่าที่มีมิติสูง[ 7 ]ต่อไปเราจะให้คำจำกัดความทางคณิตศาสตร์ที่ชัดเจนสำหรับปัญหาประชากรและเน้นวัตถุที่แตกต่างกันในสิ่งที่เรียกว่าการแยกส่วนแบบแคนอนิก - การทำความเข้าใจความแตกต่างระหว่างวัตถุเหล่านี้มีความสำคัญต่อการตีความเทคนิค

นิยาม CCA ของประชากรผ่านความสัมพันธ์

เมื่อกำหนด เวกเตอร์คอลัมน์ สองตัวคือ และซึ่งประกอบด้วยตัวแปรสุ่มที่มีโมเมนต์อันดับสองจำกัดเราอาจกำหนดเมทริกซ์ความแปรปรวนร่วมไขว้เป็นเมทริกซ์ที่มีค่าความแปรปรวนร่วมเท่ากับ ในทางปฏิบัติ เราจะประมาณเมทริกซ์ความแปรปรวนร่วมโดยอาศัยข้อมูลที่สุ่มมาจากและ(กล่าวคือ จากเมทริกซ์ข้อมูลสองเมทริกซ์)

การวิเคราะห์ความสัมพันธ์เชิงแคนอนิกมุ่งหาลำดับของเวกเตอร์ ( ) และ( ) โดยที่ตัวแปรสุ่มและ ทำให้ ความสัมพันธ์มีค่าสูงสุดตัวแปรสุ่ม (สเกลาร์) และคือตัวแปรเชิงแคนอนิกคู่แรกจากนั้นจึงหาเวกเตอร์ที่ทำให้ความสัมพันธ์เดียวกันมีค่าสูงสุด ภายใต้เงื่อนไขที่ว่าเวกเตอร์เหล่านั้นต้องไม่มีความสัมพันธ์กับตัวแปรเชิงแคนอนิกคู่แรก ซึ่งจะได้ตัวแปรเชิงแคนอนิกคู่ที่สองกระบวนการนี้สามารถดำเนินต่อไปได้จนถึงครั้ง

ชุดของเวกเตอร์เรียกว่าทิศทางมาตรฐานหรือเวกเตอร์น้ำหนักหรือเรียกง่ายๆ ว่าน้ำหนักชุดของเวกเตอร์ 'คู่' เรียกว่าเวกเตอร์โหลดมาตรฐานหรือเรียกง่ายๆ ว่าโหลดซึ่งมักจะตีความได้ตรงไปตรงมามากกว่าน้ำหนัก[ 8 ]

การคำนวณ

อนุพันธ์

ให้เป็นเมทริกซ์ความแปรปรวนร่วมไขว้สำหรับตัวแปรสุ่ม (รูปทรงเวกเตอร์) สองตัวใดๆและฟังก์ชันเป้าหมายที่ต้องการเพิ่มค่าให้สูงสุดคือ

ขั้นตอนแรกคือการกำหนดการเปลี่ยนแปลงฐานและกำหนด

โดยที่และสามารถหาได้จากการแยกส่วนประกอบค่าลักษณะเฉพาะ (หรือโดยการหาค่าเฉพาะ ):

และ

ดังนั้น

โดยอาศัยอสมการโคชี-ชวาร์

ความเท่าเทียมกันจะเกิดขึ้นได้ก็ต่อเมื่อเวกเตอร์และอยู่บนเส้นตรงเดียวกัน นอกจากนี้ ค่าสหสัมพันธ์สูงสุดจะเกิดขึ้นได้ก็ต่อเมื่อเป็นเวกเตอร์ลักษณะเฉพาะที่มีค่าลักษณะเฉพาะสูงสุดสำหรับเมทริกซ์(ดูอัตราส่วนเรย์ลี ) คู่ถัดไปจะหาได้โดยใช้ค่าลักษณะเฉพาะที่มีขนาดลดลง ความตั้งฉากกันนั้นรับประกันได้จากความสมมาตรของเมทริกซ์สหสัมพันธ์

อีกวิธีหนึ่งในการมองการคำนวณนี้คือและ เป็น เวกเตอร์เอกพจน์ด้านซ้ายและด้านขวาของเมทริกซ์สหสัมพันธ์ของ X และ Y ที่สอดคล้องกับค่าเอกพจน์สูงสุด

สารละลาย

ดังนั้นคำตอบคือ:

  • เป็นเวกเตอร์ลักษณะเฉพาะของ
  • เป็นสัดส่วนกับ

ในทางกลับกันก็มีเช่นกัน:

  • เป็นเวกเตอร์ลักษณะเฉพาะของ
  • เป็นสัดส่วนกับ

เมื่อกลับทิศทางการเปลี่ยนพิกัด เราจะได้ว่า

  • เป็นเวกเตอร์ลักษณะเฉพาะของ
  • เป็นสัดส่วนกับ
  • เป็นเวกเตอร์ลักษณะเฉพาะของ
  • เป็นสัดส่วนกับ

ตัวแปรมาตรฐานถูกกำหนดโดย:

การดำเนินการ

CCA สามารถคำนวณได้โดยใช้การแยกส่วนค่าเอกลักษณ์บนเมทริกซ์สหสัมพันธ์[ 9 ]มีให้ใช้งานเป็นฟังก์ชันใน[ 10 ]

  • MATLABใช้ฟังก์ชันcanoncorr ( และ ในOctave ด้วย )
  • Rมีฟังก์ชันมาตรฐานคือcancorและแพ็กเกจอื่นๆ อีกหลายแพ็กเกจ รวมถึงcandisc , CCAและveganส่วนCCPใช้สำหรับการทดสอบสมมติฐานทางสถิติในการวิเคราะห์ความสัมพันธ์แบบแคนอนิก
  • SASเป็นproc cancorr
  • Pythonในไลบรารีscikit-learnเช่นการแยกส่วนแบบไขว้และใน statsmodels เช่นCanCorrไลบรารี CCA-Zoo [ 11 ]ดำเนินการส่วนขยาย CCA เช่น CCA แบบความน่าจะเป็น CCA แบบเบาบาง CCA แบบหลายมุมมอง และ CCA แบบลึก
  • SPSSในรูปแบบมาโคร CanCorr มาพร้อมกับซอฟต์แวร์หลัก
  • Julia (ภาษาโปรแกรม)ในแพ็กเกจMultivariateStats.jl

การคำนวณ CCA โดยใช้การแยกส่วนค่าเอกลักษณ์บนเมทริกซ์สหสัมพันธ์เกี่ยวข้องกับโคไซน์ของมุมระหว่างระนาบ ฟังก์ชัน โคไซน์มีสภาพไม่ดี สำหรับมุมเล็ก ๆ ซึ่งนำไปสู่การคำนวณเวกเตอร์หลักที่มีความสัมพันธ์สูงใน การคำนวณเลขคณิตคอมพิวเตอร์ ที่มี ความแม่นยำ จำกัดที่ไม่แม่นยำมากเพื่อแก้ไขปัญหานี้มีอัลกอริทึมทางเลือก[ 12 ]ให้เลือกใช้ใน

  • SciPyเป็นฟังก์ชันพีชคณิตเชิงเส้น subspace_angles
  • MATLABเป็นฟังก์ชัน FileExchange subspacea

การทดสอบสมมติฐาน

แต่ละแถวสามารถทดสอบความสำคัญได้ด้วยวิธีต่อไปนี้ เนื่องจากค่าสหสัมพันธ์ถูกเรียงลำดับแล้ว การบอกว่าแถวนั้นเป็นศูนย์หมายความว่าค่าสหสัมพันธ์ในแถวถัดไปทั้งหมดก็เป็นศูนย์เช่นกัน หากเรามีการสังเกตที่เป็นอิสระในตัวอย่าง และคือค่าสหสัมพันธ์โดยประมาณสำหรับสำหรับแถวที่ th ค่าสถิติการทดสอบคือ:

ซึ่งมีการกระจายแบบอะซิมโทติกเป็นไคกำลังสองที่มีองศาอิสระสำหรับค่ามาก[ 13 ] เนื่องจาก ความสัมพันธ์ทั้งหมดจากถึงเป็นศูนย์เชิงตรรกะ (และประมาณค่าด้วยวิธีนั้นเช่นกัน) ผลคูณสำหรับเงื่อนไขหลังจากจุดนี้จึงไม่เกี่ยวข้อง

โปรดทราบว่าในขีดจำกัดขนาดตัวอย่างเล็ก ๆนั้น เรารับประกันได้ว่าค่าสหสัมพันธ์สูงสุดจะเป็น 1 อย่างแน่นอน ดังนั้นการทดสอบจึงไม่มีความหมาย[ 14 ]

การใช้งานจริง

การใช้งานทั่วไปของการหาความสัมพันธ์เชิงแคนอนในบริบทการทดลองคือการนำตัวแปรสองชุดมาดูว่ามีอะไรที่เหมือนกันในสองชุดนั้น[ 15 ]ตัวอย่างเช่น ในการทดสอบทางจิตวิทยา เราสามารถใช้แบบทดสอบบุคลิกภาพ หลายมิติที่ได้รับการยอมรับอย่างดีสองแบบ เช่น แบบทดสอบบุคลิกภาพ Minnesota Multiphasic Personality Inventory (MMPI-2) และNEOโดยการดูว่าปัจจัยของ MMPI-2 เกี่ยวข้องกับปัจจัยของ NEO อย่างไร เราสามารถเข้าใจได้ว่ามิติใดบ้างที่เหมือนกันระหว่างแบบทดสอบ และความแปรปรวนที่ใช้ร่วมกันมีมากน้อยเพียงใด ตัวอย่างเช่น เราอาจพบว่า มิติของ การเปิดเผยตัวตนหรือความวิตกกังวลมีส่วนในการอธิบายความแปรปรวนที่ใช้ร่วมกันระหว่างแบบทดสอบทั้งสองอย่างมีนัยสำคัญ

นอกจากนี้ยังสามารถใช้การวิเคราะห์สหสัมพันธ์แบบแคนอนิกเพื่อสร้างสมการแบบจำลองที่เชื่อมโยงตัวแปรสองชุดเข้าด้วยกัน เช่น ชุดมาตรวัดประสิทธิภาพและชุดตัวแปรอธิบาย หรือชุดผลลัพธ์และชุดข้อมูลนำเข้า สามารถกำหนดข้อจำกัดให้กับแบบจำลองดังกล่าวเพื่อให้แน่ใจว่าแบบจำลองสะท้อนถึงข้อกำหนดทางทฤษฎีหรือเงื่อนไขที่ชัดเจนโดยสัญชาตญาณ แบบจำลองประเภทนี้เรียกว่าแบบจำลองสหสัมพันธ์สูงสุด[ 16 ]

การแสดงผลลัพธ์ของการหาความสัมพันธ์แบบแคนอนิกมักจะแสดงด้วยแผนภูมิแท่งของสัมประสิทธิ์ของตัวแปรสองชุดสำหรับคู่ของตัวแปรแคนอนิกที่แสดงความสัมพันธ์อย่างมีนัยสำคัญ ผู้เขียนบางคนแนะนำว่าควรแสดงผลลัพธ์ด้วยแผนภูมิแบบเฮลิโอกราฟ ซึ่งเป็นรูปแบบวงกลมที่มีแท่งคล้ายรังสี โดยแต่ละครึ่งแทนตัวแปรสองชุด[ 17 ]

ตัวอย่าง

ให้มีค่าคาดหวัง เป็นศูนย์ นั่นคือ.

  1. ถ้าและมีความสัมพันธ์กันอย่างสมบูรณ์แบบ เช่นและดังนั้นคู่ตัวแปรเชิงมาตรฐานคู่แรก (และคู่เดียวในตัวอย่างนี้คือและ
  2. ถ้าเช่นและมีความสัมพันธ์แบบผกผันอย่างสมบูรณ์แล้ว เช่นและดังนั้นคู่ตัวแปรเชิงมาตรฐานคู่แรก (และคู่เดียวในตัวอย่างนี้คือและ)

เราสังเกตเห็นว่าในทั้งสองกรณีซึ่งแสดงให้เห็นว่าการวิเคราะห์ความสัมพันธ์แบบแคนอนิกนั้นปฏิบัติต่อตัวแปรที่มีความสัมพันธ์กันและตัวแปรที่มีความสัมพันธ์ผกผันกันในลักษณะเดียวกัน

ความเชื่อมโยงกับมุมหลัก

สมมติว่าและมีค่าคาดหวังเป็น ศูนย์ นั่น คือ เมทริกซ์ความแปรปรวนร่วมและสามารถมองได้ว่าเป็นเมทริกซ์แกรมในผลคูณภายในสำหรับค่าใน และตามลำดับ ในการตีความนี้ ตัวแปรสุ่ม ค่าใน และจะ ถูกมอง ว่า เป็นองค์ประกอบของปริภูมิเวกเตอร์ที่มีผลคูณภายในที่กำหนดโดยความแปรปรวนร่วมดูCovariance#Relationship to inner products

นิยามของตัวแปรแคนอนิกและนั้นเทียบเท่ากับนิยามของเวกเตอร์หลักสำหรับคู่ของปริภูมิย่อยที่เกิดจากสมาชิกของ และโดยสัมพันธ์กับ ผลคูณภายใน นี้ ความสัมพันธ์แคนอนิกเท่ากับ โคไซน์ของมุมหลัก

การทำให้ขาวและการวิเคราะห์ความสัมพันธ์เชิงแคนอนิกแบบความน่าจะเป็น

CCA ยังสามารถมองได้ว่าเป็นการแปลงไวท์เทนนิ่ง แบบพิเศษ โดยที่เวกเตอร์สุ่มและจะถูกแปลงพร้อมกันในลักษณะที่ความสัมพันธ์ไขว้ระหว่างเวกเตอร์ไวท์เทนนิ่งและจะเป็นแนวทแยง[ 18 ] จากนั้นความสัมพันธ์แบบแคนอนิกจะถูกตีความว่าเป็นสัมประสิทธิ์การถดถอยที่เชื่อมโยงและและอาจเป็นค่าลบได้ มุมมองการถดถอยของ CCA ยังให้วิธีการสร้างแบบจำลองความน่าจะเป็นของตัวแปรแฝงสำหรับ CCA โดยมีตัวแปรซ่อนเร้นที่ไม่สัมพันธ์กันซึ่งแสดงถึงความแปรปรวนร่วมกันและไม่ร่วมกัน[ 19 ]

ดูเพิ่มเติม

  • การวิเคราะห์ความสัมพันธ์แบบจำแนก (DCA) [ 1 ] ( MATLAB )
  • Hardoon, DR; Szedmak, S.; Shawe-Taylor, J. (2004). "การวิเคราะห์ความสัมพันธ์แบบแคนอนิก: ภาพรวมพร้อมการประยุกต์ใช้กับวิธีการเรียนรู้". Neural Computation . 16 (12): 2639– 2664. CiteSeerX  10.1.1.14.6452 . doi : 10.1162/0899766042321814 . PMID  15516276 . S2CID  202473 .
  • หมายเหตุเกี่ยวกับการวิเคราะห์ความสัมพันธ์เชิงลำดับแบบแคนอนิกของคะแนนการจัดอันดับสองชุด (มี โปรแกรม FORTRAN ให้ด้วย ) - ใน Journal of Quantitative Economics 7(2), 2009, หน้า 173–199
  • การวิเคราะห์ความสัมพันธ์เชิงแคนอนิกที่ถูกจำกัดด้วยการแสดงแทน: การผสมผสานระหว่างการวิเคราะห์ความสัมพันธ์เชิงแคนอนิกและการวิเคราะห์องค์ประกอบหลัก (มีโปรแกรม FORTRANด้วย) - ในวารสารวิทยาศาสตร์เศรษฐศาสตร์ประยุกต์ 4(1), 2009, หน้า 115–124

  1. ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "การวิเคราะห์ความสัมพันธ์แบบจำแนก: การหลอมรวมระดับคุณลักษณะแบบเรียลไทม์สำหรับการจดจำไบโอเมตริกแบบหลายโมดอล" . IEEE Transactions on Information Forensics and Security . 11 (9): 1984– 1996. doi : 10.1109/TIFS.2016.2569061 . S2CID 15624506 . 
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Canonical_correlation&oldid=1353699415 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ความสัมพันธ์เชิงแคนอนิก

ในทางสถิติการวิเคราะห์ความสัมพันธ์เชิงแคนอน ( CCA ) หรือที่เรียกว่าการวิเคราะห์ตัวแปรเชิงแคนอนเป็นวิธีการอนุมานข้อมูลจากเมทริกซ์ความแปรปรวนร่วมหากเรามีเวกเตอร์สองตัวX = ( X 1 , ...

นิยาม CCA ของประชากรผ่านความสัมพันธ์

เมื่อกำหนด เวกเตอร์คอลัมน์ สองตัวคือ และซึ่งประกอบด้วย ตัวแปรสุ่ม ที่มี โมเมนต์อันดับสอง จำกัดเราอาจกำหนดเมท ริกซ์ความแปรปรวนร่วมไขว้ เป็น เมทริกซ์ ที่มีค่า ความแปรปรวนร่วม เท่ากับ ในทางปฏิบัติ...

อนุพันธ์

ให้เป็น เมทริกซ์ความแปรปรวนร่วมไขว้ สำหรับตัวแปรสุ่ม (รูปทรงเวกเตอร์) สองตัวใดๆและฟังก์ชันเป้าหมายที่ต้องการเพิ่มค่าให้สูงสุดคือ Σ X วาย {\displaystyle \Sigma _{XY}} X {\displaystyle X} วาย {\displaystyle Y}

การดำเนินการ

CCA สามารถคำนวณได้โดยใช้ การแยกส่วนค่าเอกลักษณ์ บนเมทริกซ์สหสัมพันธ์ [ 9 ] มีให้ใช้งานเป็นฟังก์ชันใน [ 10 ]