อ่าน 5 นาที
การเรียนรู้ซับสเปซเชิงเส้นหลายตัว
การเรียนรู้ซับสเปซเชิงเส้นหลายตัวเป็นแนวทางในการแยกแยะปัจจัยเชิงสาเหตุของการก่อตัวของข้อมูลและดำเนินการลดมิติ การลดมิติสามารถทำได้กับเทนเซอร์ ข้อมูล
การเรียนรู้ซับสเปซเชิงเส้นหลายตัว

การเรียนรู้ซับสเปซเชิงเส้นหลายตัวเป็นแนวทางในการแยกแยะปัจจัยเชิงสาเหตุของการก่อตัวของข้อมูลและดำเนินการลดมิติ[ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] การลดมิติสามารถทำได้กับเทนเซอร์ ข้อมูล ที่มีชุดของการสังเกตที่ถูกแปลงเป็นเวกเตอร์[ 1 ]หรือการสังเกตที่ได้รับการจัดการเป็นเมทริกซ์และเชื่อมต่อกันเป็นเทนเซอร์ข้อมูล[ 6 ] [ 7 ] ต่อไปนี้เป็นตัวอย่างของเทนเซอร์ข้อมูลที่มีการสังเกตที่ถูกแปลงเป็นเวกเตอร์หรือการสังเกตที่เป็นเมทริกซ์ที่เชื่อมต่อกันเป็นภาพ เทนเซอร์ข้อมูล (2D/3D) ลำดับ วิดีโอ (3D/4D) และคิวบ์ไฮเปอร์สเปกตรัม (3D/4D)
การแมปจากปริภูมิเวกเตอร์มิติสูงไปยังเซตของปริภูมิเวกเตอร์ มิติต่ำกว่า เป็นการฉายภาพเชิงเส้นหลายมิติ[ 4 ]เมื่อการสังเกตถูกเก็บรักษาไว้ในโครงสร้างองค์กรเดียวกันกับเมทริกซ์หรือเทนเซอร์ลำดับสูงกว่า การแสดงผลของพวกมันจะถูกคำนวณโดยการฉายภาพเชิงเส้นไปยังปริภูมิคอลัมน์ ปริภูมิแถว และปริภูมิไฟเบอร์[ 6 ]
อัลกอริทึมการเรียนรู้ซับสเปซแบบหลายเชิงเส้นเป็นการขยายลำดับที่สูงกว่าของ วิธีการเรียนรู้ ซับสเปซเชิงเส้นเช่นการวิเคราะห์ส่วนประกอบหลัก (PCA), การวิเคราะห์ส่วนประกอบอิสระ (ICA), การวิเคราะห์จำแนกเชิงเส้น (LDA) และการวิเคราะห์ความสัมพันธ์แบบแคนอนิก (CCA)
พื้นหลัง
วิธีการเชิงเส้นหลายตัวแปรอาจมีลักษณะเป็นเหตุเป็นผลและทำการอนุมานเชิงสาเหตุ หรืออาจเป็นเพียงวิธีการถดถอยอย่างง่ายซึ่งไม่ได้ให้ข้อสรุปเชิงสาเหตุใดๆ
อัลกอริทึมการเรียนรู้ แบบเชิงเส้นในปริภูมิย่อยเป็นเทคนิคการลดมิติแบบดั้งเดิมที่เหมาะสมกับชุดข้อมูลที่เกิดจากการเปลี่ยนแปลงปัจจัยสาเหตุเพียงปัจจัยเดียว แต่โชคร้ายที่มักจะใช้ไม่ได้ผลเมื่อต้องจัดการกับชุดข้อมูลที่เกิดจากปัจจัยสาเหตุหลายปัจจัย
การเรียนรู้ซับสเปซเชิงเส้นหลายตัวสามารถนำไปใช้กับการสังเกตที่มีการวัดค่าเป็นเวกเตอร์และจัดระเบียบเป็นเทนเซอร์ข้อมูลเพื่อลดมิติที่คำนึงถึงสาเหตุ[ 1 ] วิธีการเหล่านี้อาจถูกนำมาใช้ในการลดความซ้ำซ้อนในแนวนอนและแนวตั้งโดยไม่คำนึงถึงปัจจัยเชิงสาเหตุเมื่อการสังเกตถูกมองว่าเป็น "เมทริกซ์" (เช่น ชุดของการสังเกตคอลัมน์/แถวที่เป็นอิสระ) และเชื่อมต่อกันเป็นเทนเซอร์[ 8 ] [ 9 ]
อัลกอริทึม
การวิเคราะห์ส่วนประกอบหลักเชิงเส้นหลายตัว
ในอดีตการวิเคราะห์ส่วนประกอบหลักแบบหลายเชิงเส้นถูกเรียกว่า "M-mode PCA" ซึ่งเป็นศัพท์ที่คิดค้นโดย Peter Kroonenberg [ 10 ] ในปี 2548 Vasilescu และTerzopoulosได้แนะนำศัพท์ Multilinear PCA [ 11 ]เพื่อแยกแยะความแตกต่างระหว่างการแยกส่วนเทนเซอร์แบบหลายเชิงเส้นที่คำนวณสถิติลำดับที่ 2 ที่เกี่ยวข้องกับโหมดเทนเซอร์ข้อมูลแต่ละโหมด[ 1 ] [ 2 ] [ 3 ] [ 12 ] [ 13 ]และงานต่อมาเกี่ยวกับการวิเคราะห์ส่วนประกอบอิสระแบบหลายเชิงเส้น[ 11 ] ที่คำนวณสถิติลำดับที่สูงกว่าสำหรับแต่ละโหมดเทนเซอร์ MPCA เป็นส่วน ขยาย ของPCA
การวิเคราะห์ส่วนประกอบอิสระเชิงเส้นหลายตัว
การวิเคราะห์ส่วนประกอบอิสระเชิงเส้นหลายตัว[ 11 ]เป็นส่วนขยายของ ICA
การวิเคราะห์จำแนกเชิงเส้นหลายเส้น
- การขยายLDA แบบหลายเชิงเส้น
การวิเคราะห์ความสัมพันธ์เชิงเส้นหลายตัวแปรแบบแคนอนิก
- การขยายแบบหลายเส้นของCCA
- TTP คือการฉายภาพโดยตรงของเทนเซอร์มิติสูงไปยังเทนเซอร์มิติต่ำที่มีลำดับเดียวกัน โดยใช้เมทริก ซ์การฉายภาพ Nสำหรับ เทนเซอร์ลำดับที่ Nสามารถดำเนินการได้ในNขั้นตอน โดยแต่ละขั้นตอนจะทำการคูณ (ผลคูณ) เทนเซอร์กับเมทริกซ์ ขั้นตอนทั้ง Nสามารถสลับกันได้[ 19 ]การฉายภาพนี้เป็นการขยายการแยกส่วนค่าเอกพจน์ลำดับสูง[ 19 ] (HOSVD) ไปสู่การเรียนรู้พื้นที่ย่อย[ 13 ]ดังนั้น ต้นกำเนิดของมันจึงสืบย้อนไปถึงการแยกส่วนของ Tucker [ 20 ]ในช่วงทศวรรษ 1960
- TVP คือการฉายภาพโดยตรงของเทนเซอร์มิติสูงไปยังเวกเตอร์มิติต่ำ ซึ่งเรียกอีกอย่างว่าการฉายภาพอันดับหนึ่ง เนื่องจาก TVP ฉายเทนเซอร์ไปยังเวกเตอร์ จึงสามารถมองได้ว่าเป็นการฉายภาพหลายครั้งจากเทนเซอร์ไปยังสเกลาร์ ดังนั้น TVP ของเทนเซอร์ไปยัง เวกเตอร์ Pมิติ จึงประกอบด้วย การฉายภาพ Pครั้งจากเทนเซอร์ไปยังสเกลาร์ การฉายภาพจากเทนเซอร์ไปยังสเกลาร์เป็นการฉายภาพหลายเส้นตรงพื้นฐาน (EMP) ใน EMP เทนเซอร์จะถูกฉายไปยังจุดหนึ่งผ่าน เวกเตอร์การฉายภาพหน่วย Nตัว เป็นการฉายภาพของเทนเซอร์บนเส้นเดียว (ส่งผลให้ได้สเกลาร์) โดยมีเวกเตอร์การฉายภาพหนึ่งตัวในแต่ละโหมด ดังนั้น TVP ของวัตถุเทนเซอร์ไปยังเวกเตอร์ในปริภูมิ เวกเตอร์ Pมิติ จึงประกอบด้วย EMP Pครั้ง การฉายภาพนี้เป็นการขยายการแยกส่วนแบบแคนอนิก [ 21 ] หรือที่รู้จักกันในชื่อ การแยก ส่วนปัจจัยขนาน (PARAFAC) [ 22 ]
แนวทางทั่วไปใน MSL
มีชุดพารามิเตอร์N ชุดที่ต้องแก้ไข โดยแต่ละชุดอยู่ในโหมดใดโหมดหนึ่ง การแก้ปัญหาของชุดหนึ่งมักจะขึ้นอยู่กับชุดอื่นๆ (ยกเว้นเมื่อ N=1 ซึ่งเป็นกรณีเชิงเส้น) ดังนั้นจึง ปฏิบัติตาม ขั้นตอนการวนซ้ำที่ไม่เหมาะสมใน[ 23 ]
- การเริ่มต้นการฉายภาพในแต่ละโหมด
- สำหรับแต่ละโหมด ให้กำหนดค่าการฉายภาพในโหมดอื่นๆ ทั้งหมดให้คงที่ แล้วจึงหาค่าการฉายภาพในโหมดปัจจุบัน
- ทำการปรับแต่งตามโหมดไปเรื่อยๆ สักสองสามรอบ หรือจนกว่าจะได้ผลลัพธ์ที่เสถียร
สิ่งนี้มีต้นกำเนิดมาจากวิธีกำลังสองน้อยที่สุดแบบสลับสำหรับการวิเคราะห์ข้อมูลหลายมิติ[ 10 ]
รหัส
- MATLAB Tensor ToolboxโดยSandia National Laboratories
- อัลกอริทึม MPCA ที่เขียนด้วย Matlab (รวม MPCA+LDA ไว้ด้วย )
- อัลกอริทึม UMPCA ที่เขียนด้วย Matlab (มีข้อมูลให้แล้ว )
- อัลกอริทึม UMLDA ที่เขียนด้วย Matlab (มีข้อมูลให้แล้ว )
ชุดข้อมูลเทนเซอร์
- ข้อมูลการเดินแบบ 3 มิติ (เทนเซอร์ลำดับที่สาม): 128x88x20(21.2M) ; 64x44x20(9.9M) ; 32x22x10(3.2M) ;
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การเรียนรู้ซับสเปซเชิงเส้นหลายตัว
การเรียนรู้ซับสเปซเชิงเส้นหลายตัวเป็นแนวทางในการแยกแยะปัจจัยเชิงสาเหตุของการก่อตัวของข้อมูลและดำเนินการลดมิติ การลดมิติสามารถทำได้กับเทนเซอร์ ข้อมูล
พื้นหลัง
วิธีการเชิงเส้นหลายตัวแปรอาจมีลักษณะเป็นเหตุเป็นผลและทำการอนุมานเชิงสาเหตุ หรืออาจเป็นเพียงวิธีการถดถอยอย่างง่ายซึ่งไม่ได้ให้ข้อสรุปเชิงสาเหตุใดๆ
การวิเคราะห์ส่วนประกอบหลักเชิงเส้นหลายตัว
ในอดีต การวิเคราะห์ส่วนประกอบหลักแบบหลายเชิงเส้น ถูกเรียกว่า "M-mode PCA" ซึ่งเป็นศัพท์ที่คิดค้นโดย Peter Kroonenberg [ 10 ] ในปี 2548 Vasilescu และ Terzopoulos ได้แนะนำศัพท์ Multilinear PCA [ 11 ]...
การวิเคราะห์ส่วนประกอบอิสระเชิงเส้นหลายตัว
การวิเคราะห์ส่วนประกอบอิสระเชิงเส้นหลายตัว [ 11 ] เป็นส่วนขยายของ ICA