การจัดเรียงท่อร่วม

การจัดเรียงแมนิโฟลด์เป็นกลุ่มของ อัลกอริธึม การเรียนรู้ของเครื่องที่สร้างการฉายภาพระหว่างชุดข้อมูล โดยที่ชุดข้อมูลดั้งเดิมอยู่บนแมนิโฟลด์ ร่วมกัน แนวคิดนี้ได้รับการแนะนำครั้งแรกโดย Ham, Lee และ Saul ในปี 2546 ^{[ 1 ]}โดยเพิ่มข้อจำกัดของแมนิโฟลด์ให้กับปัญหาทั่วไปของการหาความสัมพันธ์ของชุดเวกเตอร์มิติสูง^{[ 2 ]}

ภาพรวม

การจัดเรียงแบบแมนิโฟลด์ (Manifold alignment) ตั้งอยู่บนสมมติฐานที่ว่า ชุดข้อมูลที่แตกต่างกันซึ่งสร้างขึ้นจากกระบวนการสร้างที่คล้ายคลึงกัน จะมี ตัวแทน แมนิโฟลด์ พื้นฐานที่คล้ายคลึงกัน โดยการเรียนรู้การฉายภาพจากแต่ละปริภูมิเดิมไปยังแมนิโฟลด์ที่ใช้ร่วมกัน จะสามารถกู้คืนความสัมพันธ์และถ่ายทอดความรู้จากโดเมนหนึ่งไปยังอีกโดเมนหนึ่งได้ เทคนิคการจัดเรียงแบบแมนิโฟลด์ส่วนใหญ่พิจารณาเพียงสองชุดข้อมูล แต่แนวคิดนี้สามารถขยายไปสู่ชุดข้อมูลเริ่มต้นจำนวนมากได้ตามต้องการ

พิจารณากรณีของการจัดเรียงชุดข้อมูลสองชุดคือ และโดยที่ และ $X$ $Y$ $X_{i}\in \mathbb {R} ^{m}$ $Y_{i}\in \mathbb {R} ^{n}$

อัลกอริทึมการจัดเรียงแมนิโฟลด์พยายามฉายภาพทั้งและ ลงในพื้นที่ d มิติ ใหม่โดยที่การฉายภาพทั้งสองจะลดระยะห่างระหว่างจุดที่สอดคล้องกันให้เหลือน้อยที่สุด และรักษาโครงสร้างแมนิโฟลด์เฉพาะที่ของข้อมูลเดิมไว้ ฟังก์ชันการฉายภาพจะถูกกำหนดโดย: $X$ $Y$

$\phi _{X}:\,\mathbb {R} ^{m}\rightarrow \mathbb {R} ^{d}$

$\phi _{Y}:\,\mathbb {R} ^{n}\rightarrow \mathbb {R} ^{d}$

ให้แทนเมทริกซ์การจับคู่แบบไบนารีระหว่างจุดในและ: $W$ $X$ $Y$

$W_{i,j}={\begin{cases}1&if\,X_{i}\leftrightarrow Y_{j}\\0&otherwise\end{cases}}$

ให้และแทนความคล้ายคลึงกันแบบจุดต่อจุดภายในชุดข้อมูล ซึ่งโดยปกติจะเข้ารหัสเป็นเคอร์เนลความร้อนของเมทริกซ์ประชิดของกราฟเพื่อนบ้านที่ใกล้ที่สุด kตัว $S_{X}$ $S_{Y}$

สุดท้ายนี้ ให้เพิ่มค่าสัมประสิทธิ์ซึ่งสามารถปรับแต่งได้เพื่อปรับน้ำหนักของเป้าหมาย "รักษาสภาพโครงสร้างของแมนิโฟลด์" เทียบกับเป้าหมาย "ลดระยะห่างระหว่างจุดที่สอดคล้องกันให้น้อยที่สุด" $0\leq \mu \leq 1$

เมื่อกำหนดคำจำกัดความเหล่านี้แล้วฟังก์ชันความสูญเสียสำหรับการจัดเรียงแมนิโฟลด์สามารถเขียนได้ดังนี้:

$\arg \min _{\phi _{X},\phi _{Y}}\mu \sum _{i,j}\left\Vert \phi _{X}\left(X_{i}\right)-\phi _{X}\left(X_{j}\right)\right\Vert ^{2}S_{X,i,j}+\mu \sum _{i,j}\left\Vert \phi _{Y}\left(Y_{i}\right)-\phi _{Y}\left(Y_{j}\right)\right\Vert ^{2}S_{Y,i,j}+\left(1-\mu \right)\sum _{i,j}\Vert \phi _{X}\left(X_{i}\right)-\phi _{Y}\left(Y_{j}\right)\Vert ^{2}W_{i,j}$

การแก้ ปัญหาการเพิ่มประสิทธิภาพนี้เทียบเท่ากับการแก้ปัญหาค่าลักษณะเฉพาะทั่วไปโดยใช้กราฟลาปลาเซียน^{[ 3 ]}ของเมทริกซ์ร่วมG :

$G=\left[{\begin{array}{cc}\mu S_{X}&\left(1-\mu \right)W\\\left(1-\mu \right)W^{T}&\mu S_{Y}\end{array}}\right]$

ความสอดคล้องกันระหว่างข้อมูล

อัลกอริทึมที่อธิบายไว้ข้างต้นต้องการข้อมูลการจับคู่แบบคู่ที่สมบูรณ์ระหว่างชุดข้อมูลอินพุต ซึ่งเป็น กระบวนทัศน์ การเรียนรู้แบบมีผู้กำกับดูแลอย่างไรก็ตาม ข้อมูลนี้มักจะยากหรือเป็นไปไม่ได้ที่จะได้รับในการใช้งานจริง งานวิจัยล่าสุดได้ขยายอัลกอริทึมการจัดเรียงแมนิโฟลด์หลักไปสู่ การตั้งค่า แบบกึ่งมีผู้กำกับดูแล^{[ 4 ]} แบบ ไม่มีผู้กำกับดูแล^{[ 5 ]} และแบบหลายอินสแตนซ์^{[ 6 ]}

การจัดแนวแบบขั้นตอนเดียวเทียบกับการจัดแนวแบบสองขั้นตอน

อัลกอริทึมที่อธิบายไว้ข้างต้นจะทำการจัดเรียงแบบ "ขั้นตอนเดียว" โดยค้นหาการฝังข้อมูลสำหรับชุดข้อมูลทั้งสองชุดในเวลาเดียวกัน ผลลัพธ์ที่คล้ายกันนี้สามารถทำได้ด้วยการจัดเรียงแบบ "สองขั้นตอน" ^{[ 7 ]}^{[ 8 ]} โดยทำตามขั้นตอนที่ปรับเปลี่ยนเล็กน้อย:

แปลงชุดข้อมูลอินพุตแต่ละชุดไปยังพื้นที่มิติที่ต่ำกว่าอย่างอิสระ โดยใช้ อัลกอริธึมลดมิติที่หลากหลาย
ทำการจัดเรียงข้อมูลฝังตัวบนแมนิโฟลด์เชิงเส้น โดยคงชุดข้อมูลแรกไว้ และแมปชุดข้อมูลเพิ่มเติมแต่ละชุดลงบนแมนิโฟลด์ของชุดแรก วิธีการนี้มีข้อดีคือช่วยแบ่งการคำนวณที่จำเป็นออกเป็นส่วนย่อย ซึ่งช่วยลดภาระด้านหน่วยความจำและช่วยให้สามารถใช้งานแบบขนานได้

การฉายภาพระดับอินสแตนซ์เทียบกับการฉายภาพระดับคุณลักษณะ

การจัดเรียงแบบแมนิโฟลด์สามารถใช้เพื่อค้นหาการฉายภาพเชิงเส้น (ระดับคุณลักษณะ) หรือการฝังข้อมูลแบบไม่เชิงเส้น (ระดับอินสแตนซ์) ในขณะที่เวอร์ชันระดับอินสแตนซ์โดยทั่วไปให้ผลลัพธ์การจัดเรียงที่แม่นยำกว่า แต่ก็ต้องแลกมาด้วยความยืดหยุ่นที่ลดลงอย่างมาก เนื่องจากพารามิเตอร์ของการฝังข้อมูลที่เรียนรู้มานั้นมักจะยาก การฉายภาพระดับคุณลักษณะช่วยให้สามารถฝังอินสแตนซ์ใหม่ ๆ ลงในพื้นที่แมนิโฟลด์ได้อย่างง่ายดาย และสามารถรวมการฉายภาพเข้าด้วยกันเพื่อสร้างการจับคู่โดยตรงระหว่างการแสดงข้อมูลดั้งเดิม คุณสมบัติเหล่านี้มีความสำคัญอย่างยิ่งสำหรับการประยุกต์ใช้ในการถ่ายทอดความรู้

แอปพลิเคชัน

การจัดเรียงแบบแมนิโฟลด์เหมาะสำหรับปัญหาที่มีคลังข้อมูลหลายชุดที่อยู่บนแมนิโฟลด์เดียวกัน แม้ว่าแต่ละคลังข้อมูลจะมีมิติที่แตกต่างกันก็ตาม ปัญหาในโลกแห่งความเป็นจริงหลายอย่างตรงกับคำอธิบายนี้ แต่เทคนิคแบบดั้งเดิมไม่สามารถใช้ประโยชน์จากคลังข้อมูลทั้งหมดได้พร้อมกัน การจัดเรียงแบบแมนิโฟลด์ยังช่วยอำนวยความสะดวก ใน การเรียนรู้แบบถ่ายโอนซึ่งความรู้ในโดเมนหนึ่งจะถูกนำมาใช้เพื่อเริ่มต้นการเรียนรู้ในโดเมนที่เกี่ยวข้องกัน

การประยุกต์ใช้การจัดเรียงท่อร่วม ได้แก่:

การดึงข้อมูลข้ามภาษา / การแปลอัตโนมัติ^{[ 8 ]}
- ด้วยการแสดงเอกสารในรูปแบบเวกเตอร์ของจำนวนคำ การจัดเรียงแบบหลายมิติสามารถกู้คืนการจับคู่ระหว่างเอกสารที่มีภาษาต่างกันได้
- การติดต่อสื่อสารด้วยเอกสารข้ามภาษาค่อนข้างง่าย โดยเฉพาะอย่างยิ่งจากองค์กรที่ใช้หลายภาษา เช่นสหภาพยุโรป
การเรียนรู้การถ่ายโอนนโยบายและการแสดงสถานะสำหรับการเรียนรู้แบบเสริมแรง^{[ 8 ]}
การจัดเรียงโครงสร้างNMR ของโปรตีน^{[ 8 ]}
การเร่งการเรียนรู้โมเดลในหุ่นยนต์โดยการแบ่งปันข้อมูลที่สร้างโดยหุ่นยนต์ตัวอื่น^{[ 9 ]}

ดูเพิ่มเติม

สมมติฐานหลายมิติ

อ่านเพิ่มเติม

Xiong, L.; F. Wang; C. Zhang (2007). "การจัดเรียงแมนิโฟลด์กึ่งกำหนด". รายงานการประชุม European Conference on Machine Learning ครั้งที่ 18. CiteSeerX 10.1.1.91.7346 .
Wang, Chang; Sridhar Mahadevan (2009). "กรอบงานทั่วไปสำหรับการจัดเรียงแมนิโฟลด์" (PDF) . AAAI Fall Symposium on Manifold Learning and Its Applications .
Wang, Chang; Sridhar Mahadevan (2010). "Multiscale Manifold Alignment" (PDF) . Univ. Of Massachusetts TR UM-CS-2010-049 .
Ma, Yunqian (15 เมษายน 2555). ทฤษฎีการเรียนรู้แบบหลายมิติและการประยุกต์ใช้ . Taylor & Francis Group. หน้า 376. ISBN 978-1-4398-7109-6.
ภาพรวมการจัดเรียง Manifold ของ Chang Wang

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]