แผนที่ภูมิประเทศแบบสร้างขึ้นเอง

Q: การเปรียบเทียบกับแผนที่จัดระเบียบตนเองของโคโฮเน็น

ในขณะที่โหนดใน แผนที่จัดระเบียบตนเอง (SOM) สามารถเคลื่อนที่ไปมาได้อย่างอิสระ โหนด GTM จะถูกจำกัดด้วยการแปลงที่อนุญาตและความน่าจะเป็นของการแปลงเหล่านั้น หากการเปลี่ยนแปลงรูปร่างเป็นไปอย่างเหมาะสม โครงสร้างทางโทโพโลยีของพื้นที่แฝงก็จะยังคงอยู่

แผนที่ภูมิประเทศเชิงกำเนิด (Generative Topographic Map : GTM ) เป็น วิธี การเรียนรู้ของเครื่องจักรที่เป็นแบบจำลองเชิงความน่าจะเป็นของแผนที่จัดระเบียบตนเอง (Self-Organizing Map : SOM) มีแนวโน้มที่จะลู่เข้า และไม่จำเป็นต้องใช้พื้นที่ใกล้เคียง ที่แคบลง หรือขนาดขั้นตอนที่ลดลง เป็นแบบจำลองเชิงกำเนิด : ข้อมูลจะเกิดขึ้นโดยการเลือกจุดในพื้นที่มิติที่ต่ำกว่าโดยใช้ความน่าจะเป็นก่อน จากนั้นทำการแมปจุดนั้นไปยังพื้นที่อินพุตที่มีมิติสูงกว่าที่สังเกตได้ (ผ่านฟังก์ชันเรียบ) แล้วจึงเพิ่มสัญญาณรบกวนในพื้นที่นั้น พารามิเตอร์ของการกระจายความน่าจะเป็นในมิติที่ต่ำกว่า แผนที่เรียบ และสัญญาณรบกวนทั้งหมดจะถูกเรียนรู้จากข้อมูลการฝึกอบรมโดยใช้อัลกอริธึมการคาดการณ์และการทำให้สูงสุด (Expectation–Maximization: EM) GTM ถูกนำเสนอครั้งแรกในปี 1996 ในบทความของChristopher Bishop , Markus Svensen และ Christopher KI Williams

รายละเอียดของอัลกอริทึม

แนวทางนี้มีความเกี่ยวข้องอย่างมากกับเครือข่ายความหนาแน่นซึ่งใช้การสุ่มตัวอย่างแบบสำคัญและเพอร์เซปตรอนหลายชั้น เพื่อสร้าง แบบจำลองตัวแปรแฝงที่ไม่เป็นเชิงเส้นใน GTM พื้นที่แฝงคือตารางจุดแบบไม่ต่อเนื่องซึ่งสันนิษฐานว่าถูกฉายภาพแบบไม่เป็นเชิงเส้นไปยังพื้นที่ข้อมูล จากนั้น จึงตั้งสมมติฐานว่ามีสัญญาณ รบกวนแบบเกาส์เซียนในพื้นที่ข้อมูลเพื่อให้แบบจำลองกลายเป็นส่วนผสมของเกาส์เซียน ที่มีข้อจำกัด จากนั้นความน่าจะเป็นของแบบจำลองสามารถเพิ่มขึ้นสูงสุดได้โดยใช้ EM

ในทางทฤษฎีแล้ว สามารถใช้การเปลี่ยนรูปพารามิเตอร์แบบไม่เชิงเส้นใดๆ ก็ได้ โดยสามารถค้นหาพารามิเตอร์ที่เหมาะสมที่สุดได้โดยใช้การลดระดับความชัน เป็นต้น

แนวทางที่แนะนำสำหรับการแมปแบบไม่เชิงเส้นคือการใช้เครือข่ายฟังก์ชันฐานรัศมี (RBF) เพื่อสร้างการแมปแบบไม่เชิงเส้นระหว่างพื้นที่แฝงและพื้นที่ข้อมูล โหนดของเครือข่าย RBF จะก่อตัวเป็นพื้นที่คุณลักษณะและการแมปแบบไม่เชิงเส้นสามารถถือได้ว่าเป็นการแปลงเชิงเส้นของพื้นที่คุณลักษณะนี้ แนวทางนี้มีข้อดีเหนือกว่าแนวทางเครือข่ายความหนาแน่นที่แนะนำไว้คือสามารถปรับให้เหมาะสมที่สุดได้ด้วยวิธีการวิเคราะห์

การใช้งาน

ในการวิเคราะห์ข้อมูล โมเดล GTM เปรียบเสมือนเวอร์ชันที่ไม่เป็นเชิงเส้นของการวิเคราะห์ส่วนประกอบหลักซึ่งช่วยให้สามารถจำลองข้อมูลที่มีมิติสูงได้โดยมองว่าเป็นผลมาจากสัญญาณรบกวนแบบเกาส์เซียนที่เพิ่มเข้าไปในแหล่งข้อมูลในพื้นที่แฝงที่มีมิติต่ำกว่า ตัวอย่างเช่น เพื่อระบุตำแหน่งของหุ้นในพื้นที่ 2 มิติที่สามารถพล็อตได้ โดยพิจารณาจากรูปร่างของอนุกรมเวลาที่มีมิติสูง แอปพลิเคชันอื่นๆ อาจต้องการแหล่งข้อมูลน้อยกว่าจำนวนจุดข้อมูล เช่น โมเดลแบบผสม

ในการสร้างแบบจำลองการเปลี่ยนรูปเชิงกำเนิด พื้นที่แฝงและพื้นที่ข้อมูลจะมีมิติเท่ากัน ตัวอย่างเช่น ภาพ 2 มิติ หรือคลื่นเสียง 1 มิติ มีการเพิ่มมิติ 'ว่าง' พิเศษเข้าไปในแหล่งที่มา (เรียกว่า 'แม่แบบ' ในรูปแบบการสร้างแบบจำลองนี้) ตัวอย่างเช่น การวางคลื่นเสียง 1 มิติในพื้นที่ 2 มิติ จากนั้นจึงเพิ่มมิติที่ไม่เป็นเชิงเส้นเพิ่มเติม โดยการรวมมิติเดิมเข้าด้วยกัน พื้นที่แฝงที่ขยายใหญ่ขึ้นจะถูกฉายกลับไปยังพื้นที่ข้อมูล 1 มิติ ความน่าจะเป็นของการฉายภาพที่กำหนดจะเหมือนกับที่กล่าวมาแล้ว คือ ได้จากผลคูณของความน่าจะเป็นของข้อมูลภายใต้แบบจำลองสัญญาณรบกวนแบบเกาส์เซียนกับค่าความน่าจะเป็นก่อนหน้าของพารามิเตอร์การเปลี่ยนรูป ซึ่งแตกต่างจากการสร้างแบบจำลองการเปลี่ยนรูปโดยใช้สปริงแบบดั้งเดิม วิธีนี้มีข้อดีคือสามารถปรับให้เหมาะสมที่สุดได้ด้วยวิธีวิเคราะห์ ข้อเสียคือมันเป็นวิธีการ "ขุดค้นข้อมูล" กล่าวคือ รูปทรงของแบบจำลองการเปลี่ยนแปลงรูปร่างเบื้องต้นนั้นไม่น่าจะมีความหมายในฐานะคำอธิบายของการเปลี่ยนแปลงรูปร่างที่เป็นไปได้ เพราะมันขึ้นอยู่กับปริภูมิแฝงที่ไม่เป็นเชิงเส้นที่สร้างขึ้นอย่างประดิษฐ์และตามอำเภอใจ ด้วยเหตุนี้ แบบจำลองเบื้องต้นจึงเรียนรู้จากข้อมูลแทนที่จะสร้างโดยผู้เชี่ยวชาญที่เป็นมนุษย์ ดังเช่นที่สามารถทำได้ในแบบจำลองที่ใช้สปริง

การเปรียบเทียบกับแผนที่จัดระเบียบตนเองของโคโฮเน็น

ในขณะที่โหนดในแผนที่จัดระเบียบตนเอง (SOM)สามารถเคลื่อนที่ไปมาได้อย่างอิสระ โหนด GTM จะถูกจำกัดด้วยการแปลงที่อนุญาตและความน่าจะเป็นของการแปลงเหล่านั้น หากการเปลี่ยนแปลงรูปร่างเป็นไปอย่างเหมาะสม โครงสร้างทางโทโพโลยีของพื้นที่แฝงก็จะยังคงอยู่

SOM ถูกสร้างขึ้นเป็นแบบจำลองทางชีววิทยาของเซลล์ประสาทและเป็นอัลกอริทึมแบบฮิวริสติก ในทางตรงกันข้าม GTM ไม่มีส่วนเกี่ยวข้องกับประสาทวิทยาหรือการรับรู้ และเป็นแบบจำลองที่มีหลักการเชิงความน่าจะเป็น ดังนั้นจึงมีข้อดีหลายประการเหนือกว่า SOM ได้แก่:

โดยจะกำหนดแบบจำลองความหนาแน่นของข้อมูลอย่างชัดเจน
มันใช้ฟังก์ชันต้นทุนที่วัดประสิทธิภาพการฝึกฝนแผนที่
โดยใช้กระบวนการปรับแต่งเสียงให้เหมาะสมที่สุด ( อัลกอริธึม EM )

GTM ถูกนำเสนอโดย Bishop, Svensen และ Williams ในรายงานทางเทคนิคของพวกเขาในปี 1997 (รายงานทางเทคนิค NCRG/96/015, มหาวิทยาลัยแอสตัน สหราชอาณาจักร) ซึ่งตีพิมพ์ในวารสาร Neural Computation ในภายหลัง นอกจากนี้ยังมีการกล่าวถึงใน วิทยานิพนธ์ ปริญญาเอกของ Markus Svensen (แอสตัน, 1998) ด้วย

ดูเพิ่มเติม

แผนที่จัดระเบียบตนเอง (SOM)
โครงข่ายประสาทเทียม (การเรียนรู้ของเครื่อง)หรือเรียกอีกอย่างว่า โครงข่ายประสาทเทียมประดิษฐ์ (ANN)
การเชื่อมโยง
การขุดข้อมูล
การเรียนรู้ของเครื่อง
การลดมิติแบบไม่เชิงเส้น
ซอฟต์แวร์เครือข่ายประสาทเทียม
การจดจำรูปแบบ

ลิงก์ภายนอก

บทความเรื่อง Generative Topographic Mapping ของ Bishop, Svensen และ Williams
การสร้างแผนที่ภูมิประเทศแบบสร้างสรรค์ (Generative topographic mapping)พัฒนาขึ้นที่กลุ่มวิจัยการคำนวณทางประสาท (Neural Computing Research Group) ของมหาวิทยาลัยแอสตัน (สหราชอาณาจักร) (โดยใช้ Matlab toolbox)