อ่าน 34 นาที
การวิเคราะห์ข้อมูลเชิงโทโพโลยี
ในคณิตศาสตร์ประยุกต์การวิเคราะห์ข้อมูลเชิงทอพอโลยี ( TDA ) เป็นวิธีการวิเคราะห์ชุดข้อมูลโดยใช้เทคนิคจากทอพอโลยีการสกัดข้อมูลจากชุดข้อมูลที่มีมิติสูง ไม่สมบูรณ์...
การวิเคราะห์ข้อมูลเชิงโทโพโลยี
ในคณิตศาสตร์ประยุกต์การวิเคราะห์ข้อมูลเชิงทอพอโลยี ( TDA ) เป็นวิธีการวิเคราะห์ชุดข้อมูลโดยใช้เทคนิคจากทอพอโลยีการสกัดข้อมูลจากชุดข้อมูลที่มีมิติสูง ไม่สมบูรณ์ และมีสัญญาณรบกวนนั้นโดยทั่วไปเป็นเรื่องท้าทาย TDA ให้กรอบการทำงานทั่วไปในการวิเคราะห์ข้อมูลดังกล่าวในลักษณะที่ไม่ขึ้นอยู่กับตัวชี้วัด เฉพาะ ที่เลือกใช้ และให้การลดมิติและความทนทานต่อสัญญาณรบกวน นอกจากนี้ ยังสืบทอด คุณสมบัติ เชิงฟังก์ชันซึ่งเป็นแนวคิดพื้นฐานของคณิตศาสตร์สมัยใหม่ จากธรรมชาติเชิงทอพอโลยี ทำให้สามารถปรับตัวให้เข้ากับเครื่องมือทางคณิตศาสตร์ใหม่ๆ ได้
แรงจูงใจเริ่มต้นคือการศึกษาลักษณะของข้อมูล TDA ได้ผสมผสานโทโพโลยีเชิงพีชคณิตและเครื่องมืออื่นๆ จากคณิตศาสตร์บริสุทธิ์ เพื่อให้สามารถศึกษา "รูปร่าง" ได้อย่างเข้มงวดทางคณิตศาสตร์ เครื่องมือหลักคือเพอร์ซิสเตนต์โฮโมโลยีซึ่งเป็นการปรับใช้โฮโมโลยีกับ ข้อมูล จุดเมฆ เพอร์ซิสเตนต์โฮโมโลยีถูกนำไปใช้กับข้อมูลหลายประเภทในหลายสาขา นอกจากนี้ พื้นฐานทางคณิตศาสตร์ของมันยังมีความสำคัญทางทฤษฎีอีกด้วย คุณสมบัติเฉพาะของ TDA ทำให้มันเป็นสะพานเชื่อมที่น่าสนใจระหว่างโทโพโลยีและเรขาคณิต
ทฤษฎีพื้นฐาน
ปรีชา
TDA ตั้งอยู่บนแนวคิดที่ว่ารูปร่างของชุดข้อมูลมีข้อมูลที่เกี่ยวข้อง ข้อมูลที่มีมิติสูงในความเป็นจริงมักจะกระจัดกระจาย และมีแนวโน้มที่จะมีคุณลักษณะที่มีมิติต่ำที่เกี่ยวข้อง งานหนึ่งของ TDA คือการให้ลักษณะเฉพาะที่แม่นยำของข้อเท็จจริงนี้ ตัวอย่างเช่น วิถีของระบบผู้ล่า-เหยื่ออย่างง่ายที่ควบคุมโดยสมการ Lotka–Volterra [ 1 ]ก่อให้เกิดวงกลมปิดในปริภูมิสถานะ TDA มีเครื่องมือในการตรวจจับและวัดปริมาณการเคลื่อนไหวแบบวนซ้ำดังกล่าว[ 2 ]
อัลกอริทึมสำหรับการวิเคราะห์ข้อมูลจำนวนมาก รวมถึงอัลกอริทึมที่ใช้ใน TDA จำเป็นต้องตั้งค่าพารามิเตอร์ต่างๆ หากไม่มีความรู้เกี่ยวกับโดเมน มาก่อน การเลือกชุดพารามิเตอร์ที่ถูกต้องสำหรับชุดข้อมูลจึงเป็นเรื่องยาก แนวคิดหลักของpersistent homologyคือการใช้ข้อมูลที่ได้จากค่าพารามิเตอร์ทั้งหมดโดยการเข้ารหัสข้อมูลจำนวนมหาศาลนี้ให้อยู่ในรูปแบบที่เข้าใจได้และง่ายต่อการนำเสนอ ใน TDA จะมีการตีความทางคณิตศาสตร์เมื่อข้อมูลเป็นกลุ่ม homologyโดยทั่วไปแล้ว สมมติฐานคือคุณลักษณะที่คงอยู่สำหรับพารามิเตอร์ที่หลากหลายถือเป็นคุณลักษณะ "ที่แท้จริง" คุณลักษณะที่คงอยู่สำหรับพารามิเตอร์ที่แคบเท่านั้นจะถือว่าเป็นสัญญาณรบกวน แม้ว่าเหตุผลทางทฤษฎีสำหรับเรื่องนี้จะไม่ชัดเจนก็ตาม[ 3 ]
ประวัติศาสตร์ยุคแรก
แนวคิดเบื้องต้นของโฮโมโลยีแบบคงอยู่ปรากฏขึ้นทีละน้อยเมื่อเวลาผ่านไป[ 4 ]ในปี 1990 Patrizio Frosini ได้แนะนำระยะทางเสมือนระหว่างซับแมนิโฟลด์ และต่อมาฟังก์ชันขนาดซึ่งบนเส้นโค้ง 1 มิติเทียบเท่ากับโฮโมโลยีแบบคงอยู่ลำดับที่ 0 [ 5 ] [ 6 ]เกือบหนึ่งทศวรรษต่อมาVanessa Robinsได้ศึกษาภาพของโฮโมมอร์ฟิซึมที่เกิดจากการรวม[ 7 ]ในที่สุด ไม่นานหลังจากนั้นHerbert Edelsbrunnerและคณะได้แนะนำแนวคิดของโฮโมโลยีแบบคงอยู่พร้อมกับอัลกอริทึมที่มีประสิทธิภาพและการแสดงภาพเป็นแผนภาพความคงอยู่[ 8 ] Gunnar Carlssonและคณะได้ปรับปรุงคำจำกัดความเริ่มต้นและให้วิธีการแสดงภาพที่เทียบเท่ากันเรียกว่าบาร์โค้ดความคงอยู่ [ 9 ]โดยตีความความคงอยู่ด้วยภาษาของพีชคณิตเชิงสลับเปลี่ยน[ 10 ]
ในโทโพโลยีเชิงพีชคณิต โฮโมโลยีที่คงอยู่ได้เกิดขึ้นจากการทำงานของ Sergey Barannikov ในทฤษฎีมอร์ส เซตของค่าวิกฤตของฟังก์ชันมอร์สเรียบถูกแบ่งออกเป็นคู่ "เกิด-ตาย" ตามหลักการ คอมเพล็กซ์ที่กรองแล้วถูกจำแนกประเภท ตัวแปรคงที่ ซึ่งเทียบเท่ากับไดอะแกรมความคงอยู่และบาร์โค้ดความคงอยู่ พร้อมด้วยอัลกอริทึมที่มีประสิทธิภาพสำหรับการคำนวณ ได้รับการอธิบายภายใต้ชื่อรูปแบบมาตรฐานในปี 1994 โดย Barannikov [ 11 ] [ 12 ]
แนวคิด
แนวคิดที่ใช้กันอย่างแพร่หลายบางส่วนได้ถูกนำเสนอไว้ด้านล่างนี้ โปรดทราบว่าคำจำกัดความบางอย่างอาจแตกต่างกันไปในแต่ละผู้เขียน
กลุ่มจุดมักถูกนิยามว่าเป็นเซตของจุดจำนวนจำกัดในปริภูมิยูคลิดแต่ก็อาจนิยามว่าเป็นปริภูมิเมตริกจำนวนจำกัดใดๆ ก็ได้
กลุ่มจุดČech คือ โครงข่ายประสาทเทียมที่ประกอบด้วยทรงกลมรัศมีคงที่ล้อมรอบแต่ละจุดในกลุ่มจุดนั้น
โมดูลความคงทน ที่จัดทำดัชนีโดยเป็นปริภูมิเวกเตอร์สำหรับแต่ละและแผนที่เชิงเส้นเมื่อใดก็ตามที่ โดยที่สำหรับทุกและเมื่อใดก็ตามที่[ 13 ]คำจำกัดความที่เทียบเท่ากันคือฟังก์ชันจากที่ถือว่าเป็นเซตที่มีลำดับบางส่วนไปยังหมวดหมู่ของปริภูมิเวกเตอร์
กลุ่มโฮโมโลยีแบบคงที่ ของกลุ่มจุดคือโมดูลความคงที่ซึ่งกำหนดโดย โดยที่คือคอมเพล็กซ์ Čech ที่มีรัศมีของกลุ่มจุดและคือกลุ่มโฮโมโลยี
บาร์โค้ดความคงทนคือมัลติเซตของช่วงเวลาในและไดอะแกรมความคงทนคือมัลติเซตของจุดใน( )
ระยะทาง Wassersteinระหว่างไดอะแกรมความคงทนสองอันและถูกกำหนดเป็น โดยที่และครอบคลุมการจับคู่แบบหนึ่งต่อหนึ่งระหว่างและโปรดดูรูปที่ 3.1 ใน Munch [ 14 ]สำหรับภาพประกอบ
ระยะทางคอขวดระหว่างและคือนี่เป็นกรณีพิเศษของระยะทาง Wasserstein โดยกำหนดให้
คุณสมบัติพื้นฐาน
ทฤษฎีโครงสร้าง
ทฤษฎีบทการจำแนกประเภทแรกสำหรับโฮโมโลยีแบบคงอยู่ปรากฏขึ้นในปี 1994 [ 11 ]ผ่านรูปแบบแคนอนิกของ Barannikov ทฤษฎีบท การจำแนกประเภทที่ตีความความคงอยู่ในภาษาของพีชคณิตเชิงสลับปรากฏขึ้นในปี 2005: [ 10 ]สำหรับโมดูลความคงอยู่ที่สร้างขึ้นอย่างจำกัดด้วยสัมประสิทธิ์ ฟิลด์ ตามสัญชาตญาณ ส่วนที่เป็นอิสระจะสอดคล้องกับตัวสร้างโฮโมโลยีที่ปรากฏในระดับการกรองและไม่เคยหายไป ในขณะที่ส่วนที่บิดเบี้ยวจะสอดคล้องกับส่วนที่ปรากฏในระดับการกรองและคงอยู่เป็นขั้นตอนของการกรอง (หรือเทียบเท่ากับหายไปในระดับการกรอง) [ 11 ]
โฮโมโลจีแบบคงอยู่ (Persistent homology) สามารถมองเห็นได้ด้วยบาร์โค้ดหรือแผนภาพความคงอยู่ บาร์โค้ดมีรากฐานมาจากคณิตศาสตร์นามธรรม กล่าวคือ หมวดหมู่ของคอมเพล็กซ์แบบกรองจำกัดเหนือฟิลด์นั้นเป็นแบบกึ่งง่าย (semi-simple) คอมเพล็กซ์แบบกรองใดๆ ก็ตามจะสม isomorphic กับรูปแบบมาตรฐาน (canonical form) ซึ่งเป็นผลรวมโดยตรงของคอมเพล็กซ์แบบกรองแบบง่ายหนึ่งมิติและสองมิติ
ความเสถียร
ความเสถียรเป็นสิ่งที่พึงปรารถนาเพราะให้ความทนทานต่อสัญญาณรบกวน หากเป็นพื้นที่ใดๆ ที่เป็นโฮโมมอร์ฟิกกับคอมเพล็กซ์ซิมพลิเชียล และเป็นฟังก์ชัน tame ต่อเนื่อง[ 15 ]แล้ว พื้นที่เวกเตอร์ความคงทนและจะถูกนำเสนออย่างจำกัด และโดยที่หมายถึงระยะทางคอขวด[ 16 ]และเป็นแผนที่ที่นำฟังก์ชัน tame ต่อเนื่องไปยังไดอะแกรมความคงทนของโฮโมโลจีลำดับที่ -th ของมัน
ขั้นตอนการทำงาน
ขั้นตอนการทำงานพื้นฐานใน TDA คือ: [ 17 ]
| จุดเมฆ | คอมเพล็กซ์แบบซ้อนกัน | โมดูลความคงทน | บาร์โค้ดหรือแผนภาพ |
- ถ้าเป็นกลุ่มจุด ให้แทนที่ด้วยตระกูลของซิมพลิเชียลคอมเพล็กซ์ แบบซ้อนกัน (เช่น คอมเพล็กซ์ Čech หรือ Vietoris-Rips) กระบวนการนี้จะแปลงกลุ่มจุดให้เป็นฟิลเทรชันของซิมพลิเชียลคอมเพล็กซ์ การหาโฮโมโลจีของแต่ละคอมเพล็กซ์ในฟิลเทรชันนี้จะให้โมดูลความคงทน
- ใช้ทฤษฎีโครงสร้างเพื่อหาจำนวนเบ็ตติคงที่แผนภาพความคงที่หรือเทียบเท่ากับบาร์โค้ด
ในเชิงกราฟิก

การคำนวณ
อัลกอริทึมแรกสำหรับโฮโมโลยีแบบคงที่ในทุกฟิลด์ในการตั้งค่าโทโพโลยีเชิงพีชคณิตได้รับการอธิบายโดย Barannikov [ 11 ]ผ่านการลดรูปเป็นรูปแบบมาตรฐานโดยเมทริกซ์สามเหลี่ยมบน อัลกอริทึมสำหรับโฮโมโลยีแบบคงที่ได้รับการเสนอโดย Edelsbrunner et al. [ 8 ] Afra Zomorodian และ Carlsson ได้เสนออัลกอริทึมเชิงปฏิบัติเพื่อคำนวณโฮโมโลยีแบบคงที่ในทุกฟิลด์[ 10 ]หนังสือของ Edelsbrunner และ Harer ให้คำแนะนำทั่วไปเกี่ยวกับโทโพโลยีเชิงคำนวณ[ 19 ]
ปัญหาหนึ่งที่เกิดขึ้นในการคำนวณคือการเลือกคอมเพล็กซ์คอมเพล็กซ์ Čechและคอมเพล็กซ์ Vietoris–Ripsดูเหมือนจะเป็นธรรมชาติที่สุดเมื่อมองแวบแรก อย่างไรก็ตาม ขนาดของพวกมันจะเพิ่มขึ้นอย่างรวดเร็วตามจำนวนจุดข้อมูล คอมเพล็กซ์ Vietoris–Rips เป็นที่นิยมมากกว่าคอมเพล็กซ์ Čech เนื่องจากนิยามของมันง่ายกว่า และคอมเพล็กซ์ Čech ต้องใช้ความพยายามเพิ่มเติมในการกำหนดในปริภูมิเมตริกจำกัดทั่วไป มีการศึกษาถึงวิธีการที่มีประสิทธิภาพในการลดต้นทุนการคำนวณของโฮโมโลยี ตัวอย่างเช่น คอมเพล็กซ์ α และคอมเพล็กซ์พยานถูกใช้เพื่อลดมิติและขนาดของคอมเพล็กซ์[ 20 ]
เมื่อเร็วๆ นี้ทฤษฎีมอร์สแบบไม่ต่อเนื่องได้แสดงให้เห็นถึงศักยภาพในการคำนวณโฮโมโลยี เนื่องจากสามารถลดคอมเพล็กซ์ซิมพลิเชียลที่กำหนดให้เป็นคอมเพล็กซ์เซลลูลาร์ที่เล็กกว่ามาก ซึ่งเป็นโฮโมโทปิกกับคอมเพล็กซ์ดั้งเดิม[ 21 ]การลดขนาดนี้สามารถทำได้จริงในขณะที่คอมเพล็กซ์ถูกสร้างขึ้นโดยใช้ทฤษฎีแมทรอยด์ซึ่งนำไปสู่การเพิ่มประสิทธิภาพเพิ่มเติม[ 22 ]อัลกอริทึมล่าสุดอีกตัวหนึ่งช่วยประหยัดเวลาโดยการละเว้นคลาสโฮโมโลยีที่มีความคงทนต่ำ[ 23 ]
มีซอฟต์แวร์แพ็กเกจต่างๆ ให้เลือกใช้งาน เช่นjavaPlex , Dionysus , Perseus , PHAT , DIPHA , GUDHI , RipserและTDAstats Otter et al. [ 24 ] ได้ทำการเปรียบเทียบเครื่องมือเหล่านี้Giotto-tdaเป็นแพ็กเกจ Python ที่ออกแบบมาเพื่อบูรณาการ TDA เข้ากับเวิร์กโฟลว์การเรียนรู้ของเครื่องโดยใช้API ของscikit-learn [1] แพ็กเกจ R ชื่อ TDAสามารถคำนวณแนวคิดที่เพิ่งคิดค้นขึ้นมาใหม่ เช่น landscape และตัวประมาณระยะทางเคอร์เนลได้[ 25 ] Topology ToolKitมีความเชี่ยวชาญสำหรับข้อมูลต่อเนื่องที่กำหนดบนแมนิโฟลด์มิติต่ำ (1, 2 หรือ 3) ซึ่งมักพบใน การแสดงภาพ ทางวิทยาศาสตร์Cubicle ได้รับการปรับให้เหมาะสมสำหรับข้อมูล ภาพระดับสีเทาขนาดใหญ่ (ระดับกิกะไบต์) ในมิติ 1, 2 หรือ 3 โดยใช้cubical complexesและทฤษฎี Morse แบบไม่ต่อเนื่องแพ็กเกจ R อีกตัวหนึ่งคือTDAstatsใช้ไลบรารี Ripser ในการคำนวณ persistent homology [ 26 ]
การแสดงภาพ
ข้อมูลที่มีมิติสูงนั้นไม่สามารถแสดงภาพโดยตรงได้ มีวิธีการมากมายที่ถูกคิดค้นขึ้นเพื่อแยกโครงสร้างที่มีมิติต่ำออกจากชุดข้อมูล เช่นการวิเคราะห์ส่วนประกอบหลักและการปรับขนาดหลายมิติ[ 27 ]อย่างไรก็ตาม สิ่งสำคัญคือต้องสังเกตว่าปัญหาดังกล่าวเป็นปัญหาที่ไม่สมบูรณ์ เนื่องจากคุณลักษณะทางโทโพโลยีที่แตกต่างกันมากมายสามารถพบได้ในชุดข้อมูลเดียวกัน ดังนั้น การศึกษาเกี่ยวกับการแสดงภาพพื้นที่ที่มีมิติสูงจึงมีความสำคัญอย่างยิ่งต่อ TDA แม้ว่าจะไม่จำเป็นต้องใช้โฮโมโลยีแบบถาวรก็ตาม อย่างไรก็ตาม มีความพยายามล่าสุดในการใช้โฮโมโลยีแบบถาวรในการแสดงภาพข้อมูล[ 28 ]
Carlsson และคณะได้เสนอวิธีการทั่วไปที่เรียกว่าMAPPER [ 29 ] ซึ่งสืบทอดแนวคิดของJean-Pierre Serreที่ว่าการครอบคลุมจะรักษาโฮโมโทปี[ 30 ]การกำหนดสูตรทั่วไปของ MAPPER มีดังนี้:
ให้และเป็นปริภูมิเชิงทอพอโลยี และให้เป็นแผนที่ต่อเนื่อง ให้เป็นการคลุมแบบเปิดจำกัดของผลลัพธ์ของ MAPPER คือเส้นประสาทของการคลุมแบบดึงกลับโดยที่ภาพก่อนหน้าแต่ละภาพจะถูกแยกออกเป็นส่วนประกอบที่เชื่อมต่อกัน[ 28 ]นี่เป็นแนวคิดทั่วไปมาก ซึ่งกราฟ Reeb [ 31 ]และต้นไม้ผสานเป็นกรณีพิเศษ
นี่ไม่ใช่คำจำกัดความดั้งเดิมเสียทีเดียว[ 29 ] Carlsson และคณะเลือกที่จะเป็นหรือและครอบคลุมด้วยเซตเปิดที่ตัดกันไม่เกินสองเซต[ 3 ]ข้อจำกัดนี้หมายความว่าผลลัพธ์อยู่ในรูปแบบของเครือข่ายที่ซับซ้อนเนื่องจากโทโพโลยีของกลุ่มจุดจำกัดนั้นเรียบง่าย วิธีการจัดกลุ่ม (เช่นการเชื่อมโยงเดี่ยว ) จึงถูกใช้เพื่อสร้างสิ่งที่เทียบเคียงได้กับเซตที่เชื่อมต่อกันในภาพก่อนหน้าเมื่อใช้ MAPPER กับข้อมูลจริง
ในทางคณิตศาสตร์ MAPPER เป็นรูปแบบหนึ่งของกราฟ Reebถ้ามีมิติไม่เกินหนึ่งมิติ สำหรับแต่ละ[ 32 ]ความยืดหยุ่นที่เพิ่มเข้ามานี้ก็มีข้อเสียเช่นกัน ปัญหาหนึ่งคือความไม่เสถียร กล่าวคือ การเปลี่ยนแปลงบางอย่างในการเลือกปกคลุมอาจนำไปสู่การเปลี่ยนแปลงครั้งใหญ่ของผลลัพธ์ของอัลกอริทึม[ 33 ] มีการดำเนินการเพื่อเอาชนะปัญหานี้[ 28 ]
แอปพลิเคชันที่ประสบความสำเร็จสามรายการของ MAPPER สามารถพบได้ใน Carlsson et al. [ 34 ]ความคิดเห็นเกี่ยวกับแอปพลิเคชันในเอกสารนี้โดย J. Curry คือ "คุณลักษณะทั่วไปที่น่าสนใจในแอปพลิเคชันคือการมีอยู่ของแฟลร์หรือเทนดริล" [ 35 ]
สามารถดาวน์โหลดโปรแกรม MAPPER เวอร์ชันฟรีที่เขียนโดย Daniel Müllner และ Aravindakshan Babu ได้ทางออนไลน์นอกจากนี้ MAPPER ยังเป็นพื้นฐานของแพลตฟอร์ม AI ของ Ayasdi อีกด้วย
ความคงอยู่แบบหลายมิติ
ความคงอยู่แบบหลายมิติมีความสำคัญต่อ TDA แนวคิดนี้เกิดขึ้นทั้งในทางทฤษฎีและการปฏิบัติ การตรวจสอบความคงอยู่แบบหลายมิติครั้งแรกเกิดขึ้นในช่วงแรกของการพัฒนา TDA [ 36 ] Carlsson-Zomorodian ได้นำเสนอทฤษฎีความคงอยู่แบบหลายมิติใน[ 37 ]และร่วมกับ Singh [ 38 ]ได้นำเสนอการใช้เครื่องมือจากพีชคณิตเชิงสัญลักษณ์ (วิธีการพื้นฐานของ Gröbner) เพื่อคำนวณโมดูล MPH คำจำกัดความของพวกเขานำเสนอความคงอยู่แบบหลายมิติที่มีพารามิเตอร์ n ตัวเป็นโมดูลแบบแบ่งระดับเหนือวงแหวนพหุนามในตัวแปร n ตัว เครื่องมือจากพีชคณิตเชิงสลับและเชิงโฮโมโลยีถูกนำมาใช้ในการศึกษาความคงอยู่แบบหลายมิติในงานของ Harrington-Otter-Schenck-Tillman [ 39 ]การประยุกต์ใช้ครั้งแรกที่ปรากฏในวรรณกรรมคือวิธีการเปรียบเทียบรูปร่าง ซึ่งคล้ายกับการคิดค้น TDA [ 40 ]
นิยามของ โมดูลความ คงทน แบบ nมิติใน[ 35 ]
- ปริภูมิเวกเตอร์ถูกกำหนดให้กับแต่ละจุดใน
- แผนที่จะถูกกำหนดหาก(
- แผนที่ตอบสนองความต้องการของทุกคน
อาจเป็นที่น่าสังเกตว่ามีข้อโต้แย้งเกี่ยวกับคำจำกัดความของความคงอยู่แบบหลายมิติ[ 35 ]
ข้อดีประการหนึ่งของความคงทนแบบหนึ่งมิติคือสามารถแสดงได้ด้วยแผนภาพหรือบาร์โค้ด อย่างไรก็ตาม ไม่มีตัวแปรคงที่ที่สมบูรณ์แบบไม่ต่อเนื่องของโมดูลความคงทนแบบหลายมิติ[ 41 ]เหตุผลหลักคือโครงสร้างของชุดที่ไม่สามารถแยกส่วนได้นั้นซับซ้อนอย่างมากตามทฤษฎีบทของกาเบรียลในทฤษฎีการแสดงแทน ควีเวอร์ [ 42 ]แม้ว่าโมดูลความคงทน n มิติที่สร้างขึ้นอย่างจำกัดจะสามารถแยกส่วนได้อย่างไม่ซ้ำกันเป็นผลรวมโดยตรงของสิ่งที่ไม่สามารถแยกส่วนได้เนื่องจากทฤษฎีบทของครูลล์-ชมิดท์[ 43 ]
อย่างไรก็ตาม ผลลัพธ์หลายอย่างได้รับการพิสูจน์แล้ว คาร์ลสันและโซโมโรเดียนได้แนะนำค่าคงที่อันดับ ซึ่งกำหนดเป็น โดยที่เป็นโมดูล n-graded ที่สร้างขึ้นอย่างจำกัด ในมิติเดียว มันเทียบเท่ากับบาร์โค้ด ในวรรณกรรม ค่าคงที่อันดับมักถูกอ้างถึงว่าเป็นจำนวนเบ็ตติที่คงอยู่ (PBNs) [ 19 ]ในงานทฤษฎีหลายชิ้น ผู้เขียนได้ใช้คำจำกัดความที่จำกัดมากขึ้น ซึ่งเป็นแบบอย่างจากความคงอยู่ของเซตระดับย่อย โดยเฉพาะอย่างยิ่ง จำนวนเบ็ตติที่คงอยู่ของฟังก์ชันจะได้รับจากฟังก์ชันโดยที่แต่ละไปยังโดย ที่และ
คุณสมบัติพื้นฐานบางประการ ได้แก่ ความเป็นเอกรูปและการกระโดดแนวทแยง[ 44 ]จำนวน Betti ที่คงอยู่จะมีค่าจำกัดหากเป็นปริภูมิย่อยที่กระชับและหดตัวได้ในระดับท้องถิ่นของ[ 45 ]
การใช้วิธีการแบ่งชั้นทำให้ PBN แบบ k มิติสามารถแยกย่อยเป็นตระกูลของ PBN แบบ 1 มิติได้โดยการหักล้างมิติ[ 46 ]วิธีนี้ยังนำไปสู่การพิสูจน์ว่า PBN แบบหลายมิติมีเสถียรภาพ[ 47 ]ความไม่ต่อเนื่องของ PBN เกิดขึ้นเฉพาะที่จุดที่เป็นจุดไม่ต่อเนื่องของหรือ เป็นจุดไม่ต่อเนื่องของภายใต้สมมติฐานที่ว่าและเป็นปริภูมิเชิงทอพอโลยีแบบกะทัดรัดและสามารถสร้างสามเหลี่ยมได้[ 48 ]
พื้นที่คงอยู่ (Persistent space) ซึ่งเป็นการวางนัยทั่วไปของแผนภาพคงอยู่ (Persistent diagram) ถูกกำหนดให้เป็นเซตของจุดทั้งหมดที่มีความซ้ำซ้อนมากกว่า 0 และเส้นทแยงมุม[ 49 ]ซึ่งให้การแสดง PBN ที่เสถียรและสมบูรณ์ งานที่กำลังดำเนินการอยู่โดย Carlsson et al. กำลังพยายามให้การตีความทางเรขาคณิตของโฮโมโลยีคงอยู่ ซึ่งอาจให้ข้อมูลเชิงลึกเกี่ยวกับวิธีการรวมทฤษฎีการเรียนรู้ของเครื่องเข้ากับการวิเคราะห์ข้อมูลเชิงโทโพโลยี[ 50 ]
อัลกอริทึมเชิงปฏิบัติแรกในการคำนวณความคงทนแบบหลายมิติถูกคิดค้นขึ้นตั้งแต่ช่วงแรกๆ[ 51 ]หลังจากนั้น ได้มีการเสนออัลกอริทึมอื่นๆ อีกมากมาย โดยอิงจากแนวคิดต่างๆ เช่น ทฤษฎีมอร์สแบบไม่ต่อเนื่อง[ 52 ]และการประมาณค่าตัวอย่างจำกัด[ 53 ]
ความคงอยู่อื่นๆ
รูปแบบมาตรฐานใน TDA มักถูกเรียกว่าการคงอยู่ระดับย่อย (sublevel persistence ) นอกเหนือจากการคงอยู่หลายมิติแล้ว ยังมีงานวิจัยมากมายที่ขยายกรณีพิเศษนี้ออกไป
ความต่อเนื่องแบบซิกแซก
แผนที่ที่ไม่เป็นศูนย์ในโมดูลความคงทนถูกจำกัดโดยความสัมพันธ์ลำดับก่อนในหมวดหมู่ อย่างไรก็ตาม นักคณิตศาสตร์พบว่าความเป็นเอกฉันท์ของทิศทางไม่จำเป็นต่อผลลัพธ์หลายอย่าง “ประเด็นเชิงปรัชญาคือทฤษฎีการแยกส่วนของการแสดงกราฟค่อนข้างเป็นอิสระจากทิศทางของขอบกราฟ” [ 54 ]ความคงทนแบบซิกแซกมีความสำคัญต่อด้านทฤษฎี ตัวอย่างที่ให้ไว้ในบทความวิจารณ์ของ Carlsson เพื่อแสดงให้เห็นถึงความสำคัญของฟังก์ชันล้วนมีคุณสมบัติบางอย่างร่วมกัน[ 3 ]
ความคงทนแบบขยายและความคงทนของชุดระดับ
มีความพยายามบางประการที่จะผ่อนคลายข้อจำกัดที่เข้มงวดกว่าของฟังก์ชัน[ 55 ]โปรดดูส่วนการจัดหมวดหมู่และโคชีฟและผลกระทบต่อคณิตศาสตร์สำหรับข้อมูลเพิ่มเติม
การขยายโฮโมโลยีแบบคงอยู่ไปสู่แนวคิดพื้นฐานอื่นๆ ในโทโพโลยีเชิงพีชคณิต เช่น โคโฮโมโลยีและโฮโมโลยี/โคโฮโมโลยีเชิงสัมพันธ์ เป็นเรื่องปกติ[ 56 ]การประยุกต์ใช้ที่น่าสนใจอย่างหนึ่งคือการคำนวณพิกัดวงกลมสำหรับชุดข้อมูลผ่านกลุ่มโคโฮโมโลยีแบบคงอยู่กลุ่มแรก[ 57 ]
ความคงอยู่แบบวงกลม
การศึกษาโฮโมโลยีความคงตัวปกติจะศึกษาฟังก์ชันค่าจริง แผนที่ค่าวงกลมอาจมีประโยชน์ "ทฤษฎีความคงตัวสำหรับแผนที่ค่าวงกลมสัญญาว่าจะทำหน้าที่สำหรับฟิลด์เวกเตอร์บางฟิลด์ เช่นเดียวกับทฤษฎีความคงตัวมาตรฐานสำหรับฟิลด์สเกลาร์" ดังที่Dan Burgheleaและคณะ ได้แสดงความคิดเห็นไว้ [ 58 ]ความแตกต่างหลักคือเซลล์จอร์แดน (มีรูปแบบคล้ายกับบล็อกจอร์แดนในพีชคณิตเชิงเส้นมาก) ไม่เป็นศูนย์ในฟังก์ชันค่าวงกลม ซึ่งจะเป็นศูนย์ในกรณีค่าจริง และการรวมกับบาร์โค้ดจะให้ค่าคงที่ของแผนที่ที่เชื่อง ภายใต้เงื่อนไขปานกลาง[ 58 ]
เทคนิคสองอย่างที่พวกเขาใช้คือทฤษฎี Morse-Novikov [ 59 ]และทฤษฎีการแสดงกราฟ[ 60 ]ผลลัพธ์ล่าสุดสามารถพบได้ใน D. Burghelea et al. [ 61 ]ตัวอย่างเช่น ข้อกำหนดด้านความเชื่องสามารถแทนที่ด้วยเงื่อนไขที่อ่อนกว่ามาก นั่นคือความต่อเนื่อง
ความต่อเนื่องกับการบิด
การพิสูจน์ทฤษฎีบทโครงสร้างอาศัยโดเมนฐานเป็นฟิลด์ ดังนั้นจึงไม่มีความพยายามมากนักในการสร้างโฮโมโลยีความคงทนด้วยทอร์ชั่น Frosini ได้กำหนดเมตริกเทียมบนโมดูลเฉพาะนี้และพิสูจน์ความเสถียร[ 62 ]หนึ่งในความแปลกใหม่คือไม่ขึ้นอยู่กับทฤษฎีการจำแนกประเภทบางอย่างในการกำหนดเมตริก[ 63 ]
การจัดหมวดหมู่และโคชีฟ
ข้อดีประการหนึ่งของทฤษฎีหมวดหมู่คือความสามารถในการยกระดับผลลัพธ์ที่เป็นรูปธรรมไปสู่ระดับที่สูงขึ้น โดยแสดงความสัมพันธ์ระหว่างวัตถุที่ดูเหมือนไม่เกี่ยวข้องกัน Peter Bubenik และคณะ[ 64 ]นำเสนอการแนะนำสั้นๆ เกี่ยวกับทฤษฎีหมวดหมู่ที่เหมาะสมกับ TDA
ทฤษฎีหมวดหมู่เป็นภาษาของพีชคณิตสมัยใหม่ และถูกนำมาใช้กันอย่างแพร่หลายในการศึกษาเรขาคณิตพีชคณิตและโทโพโลยี มีข้อสังเกตว่า "ข้อสังเกตที่สำคัญของ[ 10 ]คือแผนภาพความคงทนที่สร้างโดย[ 8 ]ขึ้นอยู่กับโครงสร้างพีชคณิตที่แผนภาพนี้มีอยู่เท่านั้น" [ 65 ]การใช้ทฤษฎีหมวดหมู่ใน TDA ได้พิสูจน์แล้วว่ามีประโยชน์[ 64 ] [ 65 ]
ตามสัญลักษณ์ที่ทำใน Bubenik et al. [ 65 ]หมวดหมู่การจัดทำดัชนี คือเซตที่มีลำดับล่วงหน้า ใดๆ (ไม่จำเป็นต้องเป็นหรือ) หมวดหมู่เป้าหมายคือหมวดหมู่ใดๆ (แทนที่จะเป็น ที่ใช้กันทั่วไป) และฟังก์ชันเรียกว่าโมดูลความคงทนทั่วไป ในเหนือ
ข้อดีประการหนึ่งของการใช้ทฤษฎีหมวดหมู่ใน TDA คือความเข้าใจแนวคิดที่ชัดเจนยิ่งขึ้นและการค้นพบความสัมพันธ์ใหม่ระหว่างการพิสูจน์ ยกตัวอย่างสองตัวอย่างเพื่อประกอบการอธิบาย ความเข้าใจเกี่ยวกับความสอดคล้องกันระหว่างการสลับและการจับคู่มีความสำคัญอย่างยิ่ง เนื่องจากการจับคู่เป็นวิธีการที่ใช้ตั้งแต่เริ่มต้น (ดัดแปลงมาจากทฤษฎีมอร์ส) สามารถดูสรุปผลงานได้ใน Vin de Silva et al. [ 66 ]ทฤษฎีบทหลายข้อสามารถพิสูจน์ได้ง่ายขึ้นมากในสภาพแวดล้อมที่เข้าใจง่ายกว่า[ 63 ]อีกตัวอย่างหนึ่งคือความสัมพันธ์ระหว่างการสร้างคอมเพล็กซ์ที่แตกต่างกันจากกลุ่มจุด เป็นที่สังเกตกันมานานแล้วว่าคอมเพล็กซ์ Čech และ Vietoris-Rips มีความสัมพันธ์กัน โดยเฉพาะอย่างยิ่ง[ 67 ] ความสัมพันธ์ที่สำคัญระหว่างคอมเพล็กซ์ Cech และ Rips สามารถมองเห็นได้ชัดเจนยิ่งขึ้นในภาษาเชิงหมวดหมู่[ 66 ]
ภาษาของทฤษฎีหมวดหมู่ยังช่วยกำหนดผลลัพธ์ให้อยู่ในรูปแบบที่ชุมชนคณิตศาสตร์ในวงกว้างสามารถเข้าใจได้ ระยะทางแบบคอขวดถูกใช้กันอย่างแพร่หลายใน TDA เนื่องจากผลลัพธ์เกี่ยวกับเสถียรภาพที่เกี่ยวข้องกับระยะทางแบบคอขวด[ 13 ] [ 16 ]ในความเป็นจริง ระยะทางแบบสลับกันเป็นวัตถุปลายทางในหมวดหมู่โพเซตของเมตริกที่เสถียรบนโมดูลความคงทนหลายมิติในฟิลด์จำนวนเฉพาะ[ 63 ] [ 68 ]
ชีฟซึ่งเป็นแนวคิดหลักในเรขาคณิตพีชคณิต สมัยใหม่ มีความสัมพันธ์โดยตรงกับทฤษฎีหมวดหมู่ กล่าวโดยคร่าวๆชีฟเป็นเครื่องมือทางคณิตศาสตร์สำหรับการทำความเข้าใจว่าข้อมูลท้องถิ่นกำหนดข้อมูลทั่วโลกได้อย่างไร จัสติน เคอร์รี ถือว่า การคงอยู่ ของเซตระดับเป็นการศึกษาไฟเบอร์ของฟังก์ชันต่อเนื่อง วัตถุที่เขาศึกษานั้นคล้ายคลึงกับวัตถุของ MAPPER มาก แต่มีทฤษฎีชีฟเป็นพื้นฐานทางทฤษฎี[ 35 ]แม้ว่าจะยังไม่มีความก้าวหน้าใดๆ ในทฤษฎี TDA ที่ใช้ทฤษฎีชีฟ แต่ก็มีแนวโน้มที่ดี เนื่องจากมีทฤษฎีบทที่สวยงามมากมายในเรขาคณิตพีชคณิตที่เกี่ยวข้องกับทฤษฎีชีฟ ตัวอย่างเช่น คำถามทางทฤษฎีที่เป็นธรรมชาติคือ วิธีการกรองที่แตกต่างกันจะให้ผลลัพธ์เดียวกันหรือไม่[ 69 ]
ความเสถียร
ความเสถียรมีความสำคัญอย่างยิ่งต่อการวิเคราะห์ข้อมูล เนื่องจากข้อมูลจริงมีสัญญาณรบกวน Bubenik และคณะได้ใช้ทฤษฎีหมวดหมู่เพื่อแยกแยะทฤษฎีความเสถียรแบบอ่อนและแบบแข็ง และพิสูจน์ว่ากรณีแบบอ่อนเป็นแบบทางการ[ 65 ]โดยเฉพาะอย่างยิ่ง ขั้นตอนการทำงานทั่วไปของ TDA คือ
| ข้อมูล | โมดูลความคงอยู่ทางโทโพโลยี | โมดูลความคงทนเชิงพีชคณิต | ตัวแปรไม่ต่อเนื่อง |
ทฤษฎีบทเสถียรภาพแบบอ่อนกล่าวว่าเป็นฟังก์ชันลิปชิตซ์ต่อเนื่องและทฤษฎีบทเสถียรภาพแบบแข็งกล่าวว่าเป็นฟังก์ชันลิปชิตซ์ต่อเนื่อง
ระยะทางคอขวดถูกใช้กันอย่างแพร่หลายใน TDA ทฤษฎีบทไอโซเมตรีระบุว่าระยะทางสลับ เท่ากับระยะทางคอขวด[ 63 ] Bubenik และคณะได้สรุปนิยามให้เป็นระหว่างฟังก์ชัน เมื่อติดตั้งด้วยการฉายภาพย่อยเชิงเส้นหรือตระกูลซูเปอร์เชิงเส้น ซึ่งยังคงเป็นซูโดเมตริก[ 65 ]เมื่อพิจารณาถึงคุณลักษณะอันน่าทึ่งของระยะทางสลับ[ 70 ]ในที่นี้เราขอแนะนำนิยามทั่วไปของระยะทางสลับ (แทนที่จะเป็นนิยามแรกที่แนะนำ): [ 13 ]ให้(ฟังก์ชันจากไปยังซึ่งเป็นโมโนโทนและสอดคล้อง กับ สำหรับทุก) การสลับ - ระหว่าง F และ G ประกอบด้วยการแปลงธรรมชาติและเช่นนั้น และ
ผลลัพธ์หลักสองประการคือ[ 65 ]
- ให้เป็นเซตที่มีลำดับก่อนหน้าที่มีการฉายภาพแบบซับลิเนียร์หรือตระกูลแบบซูเปอร์ลิเนียร์ ให้เป็นฟังก์ชันระหว่างหมวดหมู่ใดๆก็ได้ แล้วสำหรับฟังก์ชันสองตัวใดๆเราจะได้
- ให้เป็นเซตลำดับบางส่วนของปริภูมิเมตริกและเป็นปริภูมิเชิงทอพอโลยี และให้(ไม่จำเป็นต้องต่อเนื่อง) เป็นฟังก์ชัน และเป็นแผนภาพความคงอยู่ที่สอดคล้องกันแล้ว
ผลลัพธ์ทั้งสองนี้สรุปผลการศึกษามากมายเกี่ยวกับเสถียรภาพของแบบจำลองความคงทนที่แตกต่างกัน
สำหรับทฤษฎีความเสถียรของการคงอยู่แบบหลายมิติ โปรดดูที่หัวข้อการคงอยู่
ทฤษฎีโครงสร้าง
ทฤษฎีบทโครงสร้างมีความสำคัญอย่างยิ่งต่อ TDA ดังที่ G. Carlsson ได้แสดงความคิดเห็นไว้ว่า "สิ่งที่ทำให้โฮโมโลยีมีประโยชน์ในฐานะตัวแยกแยะระหว่างปริภูมิเชิงทอพอโลยีคือข้อเท็จจริงที่ว่ามีทฤษฎีบทการจำแนกประเภทสำหรับกลุ่มอาเบเลียนที่สร้างขึ้นอย่างจำกัด" [ 3 ] (ดูทฤษฎีบทพื้นฐานของกลุ่มอาเบเลียนที่สร้างขึ้นอย่างจำกัด )
ข้อโต้แย้งหลักที่ใช้ในการพิสูจน์ทฤษฎีบทโครงสร้างดั้งเดิมคือทฤษฎีบทโครงสร้างมาตรฐาน สำหรับโมดูลที่สร้างขึ้น อย่างจำกัดเหนือโดเมนอุดมคติหลัก[ 10 ] อย่างไรก็ตาม ข้อโต้แย้งนี้ล้มเหลวหากเซตดัชนีคือ[ 3 ]
โดยทั่วไปแล้ว โมดูลความคงทนไม่สามารถแยกย่อยออกเป็นช่วงได้ทั้งหมด[ 71 ]มีความพยายามหลายครั้งในการผ่อนคลายข้อจำกัดของทฤษฎีบทโครงสร้างดั้งเดิม กรณีของโมดูลความคงทนแบบจุดต่อจุดที่มีมิติจำกัดซึ่งจัดทำดัชนีโดยเซตย่อยที่มีมิติจำกัดเฉพาะที่ได้รับการแก้ไขโดยอาศัยงานของ Webb [ 72 ]ผลลัพธ์ที่โดดเด่นที่สุดคือผลงานของ Crawley-Boevey ซึ่งได้แก้ไขกรณีของทฤษฎีบทของ Crawley-Boevey ระบุว่าโมดูลความคงทนแบบจุดต่อจุดที่มีมิติจำกัดใดๆ เป็นผลรวมโดยตรงของโมดูลช่วง[ 73 ]
เพื่อให้เข้าใจนิยามของทฤษฎีบทนี้ จำเป็นต้องแนะนำแนวคิดบางอย่างช่วงในถูกกำหนดให้เป็นเซตย่อยที่มีคุณสมบัติว่า ถ้าและถ้ามีที่ทำให้แล้วก็เช่นกันโมดูลช่วง จะกำหนด ปริมาณเวกเตอร์ให้กับแต่ละองค์ประกอบและกำหนดปริมาณเวกเตอร์ศูนย์ให้กับองค์ประกอบในแผนที่ทั้งหมดเป็นแผนที่ศูนย์ เว้นแต่และซึ่งในกรณีนี้จะเป็นแผนที่เอกลักษณ์[ 35 ]โมดูลช่วงไม่สามารถแยกส่วนได้[ 74 ]
แม้ว่าผลลัพธ์ของ Crawley-Boevey จะเป็นทฤษฎีบทที่มีประสิทธิภาพมาก แต่ก็ยังไม่สามารถขยายไปถึงกรณี q-tame ได้[ 71 ]โมดูลความคงทนเป็นq-tameหากอันดับของมีค่าจำกัดสำหรับทุกมีตัวอย่างของโมดูลความคงทน q-tame ที่ไม่มีค่าจำกัดแบบจุดต่อจุด[ 75 ]อย่างไรก็ตาม ปรากฏว่าทฤษฎีบทโครงสร้างที่คล้ายกันยังคงใช้ได้หากคุณสมบัติที่มีอยู่เฉพาะที่ค่าดัชนีเดียวถูกลบออก[ 74 ]สิ่งนี้เป็นจริงเพราะส่วนที่มีมิติอนันต์ที่ค่าดัชนีแต่ละค่าจะไม่คงอยู่เนื่องจากเงื่อนไขอันดับจำกัด[ 76 ]ในทางรูปธรรม หมวดหมู่ที่สังเกตได้ถูกกำหนดเป็น โดยที่หมายถึงหมวดหมู่ย่อยแบบเต็มของซึ่งวัตถุคือโมดูลชั่วคราว ( เมื่อใดก็ตามที่) [ 74 ]
โปรดทราบว่าผลลัพธ์เพิ่มเติมที่แสดงไว้ในที่นี้ใช้ไม่ได้กับความคงทนแบบซิกแซก เนื่องจากสิ่งที่เทียบเคียงได้กับโมดูลความคงทนแบบซิกแซกนั้นไม่ชัดเจนในทันที
สถิติ
ข้อมูลจริงมีจำนวนจำกัดเสมอ ดังนั้นการศึกษาข้อมูลจึงจำเป็นต้องคำนึงถึงความสุ่ม การวิเคราะห์ทางสถิติทำให้เราสามารถแยกคุณลักษณะที่แท้จริงของข้อมูลออกจากสิ่งรบกวนที่เกิดจากสัญญาณรบกวนแบบสุ่มได้ แต่ Persistent Homology ไม่มีกลไกโดยธรรมชาติที่จะแยกแยะระหว่างคุณลักษณะที่มีความน่าจะเป็นต่ำและคุณลักษณะที่มีความน่าจะเป็นสูง
วิธีหนึ่งในการประยุกต์ใช้สถิติกับการวิเคราะห์ข้อมูลเชิงโทโพโลยีคือการศึกษาคุณสมบัติทางสถิติของลักษณะเชิงโทโพโลยีของกลุ่มจุด การศึกษาคอมเพล็กซ์ซิมพลิเชียลแบบสุ่มให้ข้อมูลเชิงลึกบางอย่างเกี่ยวกับโทโพโลยีเชิงสถิติ Katharine Turner และคณะ[ 77 ]นำเสนอสรุปงานในแนวทางนี้
วิธีที่สองคือการศึกษาการกระจายความน่าจะเป็นบนพื้นที่ความคงอยู่ พื้นที่ความคงอยู่คือ โดยที่ คือพื้นที่ของบาร์โค้ดทั้งหมดที่มีช่วงเวลาที่แน่นอน และความเท่าเทียมกันคือ ถ้า [ 78 ] พื้นที่นี้ค่อนข้างซับซ้อนตัวอย่างเช่นมันไม่สมบูรณ์ภายใต้เมตริกแบบคอขวด ความพยายามครั้งแรกในการศึกษาคือโดย Yuriy Mileyko และคณะ[ 79 ]พื้นที่ของไดอะแกรมความคงอยู่ในบทความของพวกเขาถูกกำหนดเป็น โดยที่คือเส้นทแยงมุมในคุณสมบัติที่ดีคือสมบูรณ์และแยกได้ในเมตริก Wasserstein ความคาดหวัง ความแปรปรวน และความน่าจะเป็นแบบมีเงื่อนไขสามารถกำหนดได้ในความหมายของ Fréchetสิ่งนี้ทำให้เครื่องมือทางสถิติหลายอย่างสามารถนำไปใช้กับ TDA ได้ งานเกี่ยวกับ การทดสอบนัยสำคัญ ของสมมติฐานว่าง[ 80 ]ช่วงความเชื่อมั่น [ 81 ]และการประมาณค่าที่แข็งแกร่ง[ 82 ] เป็นขั้นตอน ที่น่าสนใจ
วิธีที่สามคือการพิจารณาโคฮอโมโลยีของปริภูมิความน่าจะเป็นหรือระบบสถิติโดยตรง เรียกว่าโครงสร้างข้อมูลและโดยพื้นฐานแล้วประกอบด้วยสามสิ่ง ( ) ปริภูมิของตัวอย่างตัวแปรสุ่ม และกฎความน่าจะเป็น[ 83 ] [ 84 ]ตัวแปรสุ่มถือเป็นพาร์ติชันของความน่าจะเป็นอะตอม n (มองเห็นเป็นซิมเพล็กซ์ความน่าจะเป็น (n-1) ) บนแลตทิซของพาร์ติชัน ( ) ตัวแปรสุ่มหรือโมดูลของฟังก์ชันที่วัดได้ให้คอมเพล็กซ์โคเชน ในขณะที่โคบาวน์ดารีถือเป็นพีชคณิตโฮโมโลยีทั่วไปที่ค้นพบครั้งแรกโดยGerhard Hochschildด้วยการกระทำด้านซ้ายที่ใช้การกระทำของการปรับสภาพ เงื่อนไขโคไซเคิลแรกสอดคล้องกับกฎลูกโซ่ของเอนโทรปี ทำให้สามารถอนุมานเอนโทรปีของ Shannon ได้อย่างไม่ซ้ำกันจนถึงค่าคงที่การคูณ ในฐานะคลาสโคฮอโมโลยีแรก การพิจารณาการกระทำด้านซ้ายที่ผิดรูปทำให้กรอบงานเป็นแบบทั่วไปสำหรับเอนโทรปีของ Tsallis โคฮอโมโลยีข้อมูลเป็นตัวอย่างของโทโพสแบบวงแหวนข้อมูลร่วม k แบบหลายตัวแปรปรากฏในนิพจน์โคบาวน์ดารี และการหายไปของข้อมูลร่วมเหล่านี้ ซึ่งเกี่ยวข้องกับเงื่อนไขโคไซเคิล จะให้เงื่อนไขที่เทียบเท่ากันสำหรับความเป็นอิสระทางสถิติ[ 85 ]ค่าต่ำสุดของข้อมูลร่วม หรือที่เรียกว่าซินเนอร์จี ก่อให้เกิดการกำหนดค่าความเป็นอิสระที่น่าสนใจ ซึ่งคล้ายกับลิงก์โฮโมโทปิก เนื่องจากความซับซ้อนเชิงการจัดเรียง จึงมีการตรวจสอบเฉพาะกรณีย่อยซิมพลิเชียลของโคโฮโมโลยีและโครงสร้างข้อมูลบนข้อมูลเท่านั้น เมื่อนำไปใช้กับข้อมูล เครื่องมือโคโฮโมโลยีเหล่านี้จะวัดปริมาณการพึ่งพาและความเป็นอิสระทางสถิติ รวมถึงลูกโซ่มาร์คอฟและความเป็นอิสระแบบมีเงื่อนไขในกรณีหลายตัวแปร[ 86 ]ที่น่าสังเกตคือ ข้อมูลร่วมจะขยายสัมประสิทธิ์สหสัมพันธ์และความแปรปรวนร่วมไปสู่การพึ่งพาทางสถิติแบบไม่เชิงเส้น แนวทางเหล่านี้ได้รับการพัฒนาอย่างอิสระและเกี่ยวข้องกับวิธีการคงอยู่โดยอ้อมเท่านั้น แต่สามารถเข้าใจได้คร่าวๆ ในกรณีซิมพลิเชียลโดยใช้ทฤษฎีบท Hu Kuo Tin ซึ่งสร้างการจับคู่แบบหนึ่งต่อหนึ่งระหว่างฟังก์ชันข้อมูลร่วมกันและฟังก์ชันที่วัดได้ จำกัด ของเซตที่มีตัวดำเนินการตัดกัน เพื่อสร้าง โครงร่าง คอมเพล็กซ์ Čech โคฮอโมโลยีข้อมูลนำเสนอการตีความและการประยุกต์ใช้โดยตรงในแง่ของประสาทวิทยาศาสตร์ (ทฤษฎีการประกอบประสาทและการรับรู้เชิงคุณภาพ[ 87 ] ) ฟิสิกส์เชิงสถิติ และเครือข่ายประสาทลึกซึ่งโครงสร้างและอัลกอริธึมการเรียนรู้ถูกกำหนดโดยคอมเพล็กซ์ของตัวแปรสุ่มและกฎลูกโซ่ข้อมูล[88 ]
ภูมิทัศน์ความคงอยู่ ซึ่งนำเสนอโดยปีเตอร์ บูเบนิก เป็นวิธีการแสดงบาร์โค้ดที่แตกต่างออกไป ซึ่งเหมาะสมกับการวิเคราะห์ทางสถิติมากกว่า[ 89 ]ภูมิทัศน์ความคงอยู่ของโมดูลที่คงอยู่จะถูกกำหนดเป็นฟังก์ชัน, , โดยที่แทนเส้นจำนวนจริงที่ขยายและพื้นที่ของภูมิทัศน์ความคงอยู่นั้นดีมาก กล่าวคือ มันสืบทอดคุณสมบัติที่ดีทั้งหมดของการแสดงบาร์โค้ด (ความเสถียร การแสดงที่ง่าย ฯลฯ) แต่ปริมาณทางสถิติสามารถกำหนดได้ง่าย และปัญหาบางอย่างในงานของ Y. Mileyko และคณะ เช่น ความไม่เป็นเอกลักษณ์ของความคาดหวัง[ 79 ]สามารถแก้ไขได้ มีอัลกอริธึมที่มีประสิทธิภาพสำหรับการคำนวณด้วยภูมิทัศน์ความคงอยู่[ 90 ]อีกแนวทางหนึ่งคือการใช้ความคงอยู่ที่ได้รับการแก้ไข ซึ่งก็คือความคงอยู่ของภาพ เคอร์เนล และโคเคอร์เนล[ 91 ]
แอปพลิเคชัน
การจำแนกประเภทของแอปพลิเคชัน
มีหลายวิธีในการจำแนกประเภทการประยุกต์ใช้ TDA บางทีวิธีที่เป็นธรรมชาติที่สุดคือการจำแนกตามสาขา รายการแอปพลิเคชันที่ประสบความสำเร็จซึ่งไม่สมบูรณ์มาก ได้แก่[ 92 ] การสร้างโครงร่าง ข้อมูล[ 93 ]การศึกษารูปร่าง[ 94 ]การสร้างกราฟใหม่[ 95 ] [ 96 ] [ 97 ] [ 98 ] [ 99 ] การวิเคราะห์ภาพ [ 100 ] [ 101 ]วัสดุ[ 102 ] [ 103 ]การวิเคราะห์ความก้าวหน้าของโรค[ 104 ] [ 105 ]เครือข่ายเซ็นเซอร์[ 67 ]การวิเคราะห์สัญญาณ[ 106 ]เว็บจักรวาล[ 107 ]เครือข่ายที่ซับซ้อน[ 108 ] [ 109 ] [ 110 ] [ 111 ]เรขาคณิตแฟรกทัล[ 112 ]วิวัฒนาการของไวรัส[ 113 ]การแพร่กระจายของโรคติดต่อบนเครือข่าย[ 114 ]การจำแนกแบคทีเรียโดยใช้สเปกโทรสโกปีโมเลกุล[ 115 ]ความละเอียดสูงพิเศษ กล้องจุลทรรศน์[ 116 ]การถ่ายภาพไฮเปอร์สเปกตรัมในเคมีกายภาพ[ 117 ]การสำรวจระยะไกล[ 118 ]การเลือกคุณลักษณะ[ 119 ]และสัญญาณเตือนล่วงหน้าของวิกฤตการณ์ทางการเงิน[ 120 ]
อีกวิธีหนึ่งคือการแยกแยะเทคนิคโดย G. Carlsson [ 78 ]
ประเด็นหนึ่งคือการศึกษาค่าคงที่เชิงโฮโมโลยีของข้อมูลในชุดข้อมูลแต่ละชุด และอีกประเด็นหนึ่งคือการใช้ค่าคงที่เชิงโฮโมโลยีในการศึกษาฐานข้อมูลที่จุดข้อมูลมีโครงสร้างทางเรขาคณิต
ผลกระทบต่อคณิตศาสตร์
การวิเคราะห์ข้อมูลเชิงโทโพโลยีและโฮโมโลยีแบบคงที่มีผลกระทบต่อทฤษฎีมอร์ส [ 121 ] ทฤษฎีมอร์สมีบทบาทสำคัญมากในทฤษฎี TDA รวมถึงการคำนวณ งานบางอย่างในโฮโมโลยีแบบคงที่ได้ขยายผลลัพธ์เกี่ยวกับฟังก์ชันมอร์สไปสู่ฟังก์ชันควบคุมหรือแม้กระทั่งฟังก์ชันต่อเนื่อง ผลลัพธ์ที่ถูกลืมของ R. Deheuvels นานก่อนการคิดค้นโฮโมโลยีแบบคงที่ได้ขยายทฤษฎีมอร์สไปสู่ฟังก์ชันต่อเนื่องทั้งหมด[ 122 ]
ผลลัพธ์ล่าสุดประการหนึ่งคือ หมวดหมู่ของกราฟ Reebเทียบเท่ากับคลาสเฉพาะของ cosheaf [ 123 ]สิ่งนี้ได้รับแรงบันดาลใจจากงานเชิงทฤษฎีใน TDA เนื่องจากกราฟ Reeb เกี่ยวข้องกับทฤษฎี Morse และ MAPPER ได้มาจากทฤษฎีดังกล่าว การพิสูจน์ทฤษฎีบทนี้อาศัยระยะทางการสลับ
ความคงอยู่ของโฮโมโลยีมีความเกี่ยวข้องอย่างใกล้ชิดกับลำดับสเปกตรัม[ 124 ] [ 125 ]โดยเฉพาะอย่างยิ่งอัลกอริทึมที่นำคอมเพล็กซ์ที่กรองแล้วไปสู่รูปแบบมาตรฐาน[ 11 ]ช่วยให้การคำนวณลำดับสเปกตรัมเร็วกว่าขั้นตอนมาตรฐานในการคำนวณกลุ่มทีละหน้ามาก ความคงอยู่แบบซิกแซกอาจมีความสำคัญทางทฤษฎีต่อลำดับสเปกตรัม
โดนัท: ฐานข้อมูลแอปพลิเคชัน TDA
ฐานข้อมูลการใช้โทโพโลยีแบบดั้งเดิมและไม่ใช่เชิงทฤษฎี (DONUT)เป็นฐานข้อมูลบทความวิชาการที่มีการประยุกต์ใช้การวิเคราะห์ข้อมูลโทโพโลยีในทางปฏิบัติในสาขาวิทยาศาสตร์ต่างๆ DONUT เริ่มต้นในปี 2017 โดย Barbara Giunti, Janis Lazovskis และ Bastian Rieck [ 126 ]และ ณ เดือนตุลาคม 2023 มีบทความอยู่ 447 บทความ[ 127 ] DONUT ได้รับการนำเสนอในวารสารNotices of the American Mathematical Societyฉบับ เดือนพฤศจิกายน 2023 [ 128 ]
การประยุกต์ใช้กับแมชชีนเลิร์นนิงเชิงต่อต้าน
คุณสมบัติความเสถียรของคุณลักษณะทางโทโพโลยีต่อการรบกวนเล็กน้อยได้รับการนำไปใช้เพื่อให้เครือข่ายประสาทกราฟมีความทนทานต่อศัตรู Arafat และคณะ[ 129 ]เสนอกรอบความทนทานที่บูรณาการการแสดงคุณลักษณะกราฟโทโพโลยีทั้งในระดับท้องถิ่นและระดับโลกอย่างเป็นระบบ ซึ่งผลกระทบจะถูกควบคุมโดยการสูญเสียโทโพโลยีแบบมีการควบคุมที่ทนทาน เมื่อพิจารณางบประมาณของผู้โจมตี พวกเขาได้กำหนดการรับประกันความเสถียรในการแสดงโหนด สร้างความเชื่อมโยงที่สำคัญระหว่างความเสถียรทางโทโพโลยีและ การเรียนรู้ของเครื่องจักรแบบต่อต้าน
ดูเพิ่มเติม
- การลดมิติ
- การขุดข้อมูล
- คอมพิวเตอร์วิชั่น
- โทโพโลยีเชิงคำนวณ
- ทฤษฎีมอร์สแบบไม่ต่อเนื่อง
- การวิเคราะห์รูปทรง (เรขาคณิตดิจิทัล)
- ทฤษฎีขนาด
- โทโพโลยีเชิงพีชคณิต
- การเรียนรู้เชิงลึกเชิงทอพอโลยี
อ่านเพิ่มเติม
แนะนำตัวโดยสังเขป
- เลสนิก, ไมเคิล (2013). "การศึกษาลักษณะของข้อมูลโดยใช้โทโพโลยี"สถาบันเพื่อการศึกษาขั้นสูง
- เอกสารต้นฉบับสำหรับการวิเคราะห์ข้อมูลเชิงโทโพโลยีโดย Mikael Vejdemo-Johansson
เอกสาร
- Oudot, Steve Y. (2015). ทฤษฎีความคงทน: จากการแสดงแบบ Quiver ไปสู่การวิเคราะห์ข้อมูล . สมาคมคณิตศาสตร์อเมริกัน. ISBN 978-1-4704-2545-6.
ตำราเรียนเกี่ยวกับโทโพโลยี
- Hatcher, Allen (2002). โทโพโลยีเชิงพีชคณิต . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 0-521-79540-0.พร้อมให้ดาวน์โหลดแล้ว
- เอเดลส์บรุนเนอร์, เฮอร์เบิร์ต; ฮาเรอร์, จอห์น (2010). โทโพโลยีเชิงคำนวณ: บทนำ . สมาคมคณิตศาสตร์อเมริกัน. ISBN 978-0-8218-4925-5.
- หนังสือ Elementary Applied Topologyโดย Robert Ghrist
ลิงก์ภายนอก
- ฐานข้อมูลการใช้งานโทโพโลยีแบบดั้งเดิมและไม่เชิงทฤษฎี (DONUT)
วิดีโอการบรรยาย
- บทนำสู่ Persistent HomologyและTopology สำหรับการวิเคราะห์ข้อมูลโดย Matthew Wright
- รูปทรงของข้อมูลโดย กุนนาร์ คาร์ลสัน
แหล่งข้อมูลอื่นๆ ของ TDA
- โทโพโลยีประยุกต์โดย สแตนฟอร์ด
- เครือข่ายวิจัยด้านโทโพโลยีเชิงพีชคณิตประยุกต์เก็บถาวรเมื่อ 31 มกราคม 2016 ที่Wayback Machineโดยสถาบันคณิตศาสตร์และการประยุกต์
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การวิเคราะห์ข้อมูลเชิงโทโพโลยี
ในคณิตศาสตร์ประยุกต์การวิเคราะห์ข้อมูลเชิงทอพอโลยี ( TDA ) เป็นวิธีการวิเคราะห์ชุดข้อมูลโดยใช้เทคนิคจากทอพอโลยีการสกัดข้อมูลจากชุดข้อมูลที่มีมิติสูง ไม่สมบูรณ์...
ปรีชา
TDA ตั้งอยู่บนแนวคิดที่ว่ารูปร่างของชุดข้อมูลมีข้อมูลที่เกี่ยวข้อง ข้อมูลที่มีมิติสูงในความเป็นจริงมักจะกระจัดกระจาย และมีแนวโน้มที่จะมีคุณลักษณะที่มีมิติต่ำที่เกี่ยวข้อง งานหนึ่งของ TDA คือการให้ลักษณะเฉพาะที่แม่นยำของข้อเท็จจริงนี้ ตัวอย่างเช่น...
ประวัติศาสตร์ยุคแรก
แนวคิดเบื้องต้นของโฮโมโลยีแบบคงอยู่ปรากฏขึ้นทีละน้อยเมื่อเวลาผ่านไป [ 4 ] ในปี 1990 Patrizio Frosini ได้แนะนำระยะทางเสมือนระหว่างซับแมนิโฟลด์ และต่อมา ฟังก์ชันขนาด ซึ่งบนเส้นโค้ง 1 มิติเทียบเท่ากับโฮโมโลยีแบบคงอยู่ลำดับที่ 0 [ 5 ] [ 6 ] เกือบหนึ่งทศวรรษต่อมา...
แนวคิด
แนวคิดที่ใช้กันอย่างแพร่หลายบางส่วนได้ถูกนำเสนอไว้ด้านล่างนี้ โปรดทราบว่าคำจำกัดความบางอย่างอาจแตกต่างกันไปในแต่ละผู้เขียน