ตัวดำเนินการประสาท

ตัวดำเนินการประสาท เป็นสถาปัตยกรรม การเรียนรู้เชิงลึกประเภทหนึ่ง ที่ออกแบบมาเพื่อเรียนรู้แผนที่ระหว่าง ปริภูมิฟังก์ชันมิติอนันต์ตัวดำเนินการประสาทแสดงถึงส่วนขยายของเครือข่ายประสาทเทียม แบบดั้งเดิม ซึ่งเป็นการเปลี่ยนแปลงจากการมุ่งเน้นทั่วไปในการเรียนรู้แผนที่ระหว่างปริภูมิยูคลิดมิติจำกัดหรือเซตจำกัด ตัวดำเนินการประสาทเรียนรู้ตัวดำเนินการระหว่างปริภูมิฟังก์ชันโดยตรง พวกมันสามารถรับฟังก์ชันอินพุต และฟังก์ชันเอาต์พุตสามารถประเมินได้ที่การแบ่งส่วนย่อยใดๆ^{[ 1 ]}^{[ 2 ]}

การประยุกต์ใช้หลักของตัวดำเนินการโครงข่ายประสาทเทียมคือการเรียนรู้แผนที่ตัวแทนสำหรับตัวดำเนินการแก้ปัญหาของสมการเชิงอนุพันธ์ย่อย (PDEs) ^{[ 1 ]}^{[ 2 ]}ซึ่งเป็นเครื่องมือสำคัญในการสร้างแบบจำลองสภาพแวดล้อมทางธรรมชาติ^{[ 3 ]}^{[ 4 ]}ตัวแก้ PDE มาตรฐานอาจใช้เวลานานและต้องใช้การคำนวณมาก โดยเฉพาะอย่างยิ่งสำหรับระบบที่ซับซ้อน ตัวดำเนินการโครงข่ายประสาทเทียมได้แสดงให้เห็นถึงประสิทธิภาพที่ดีขึ้นในการแก้ PDEs ^{[ 5 ]}^{[ 6 ]}เมื่อเทียบกับวิธีการเรียนรู้ของเครื่องที่มีอยู่ ในขณะที่เร็วกว่าตัวแก้เชิงตัวเลขอย่างมีนัยสำคัญ^{[ 7 ]}^{[ 8 ]}^{[ 9 ]}ตัวดำเนินการโครงข่ายประสาทเทียมยังถูกนำไปใช้ในสาขาวิทยาศาสตร์และวิศวกรรมต่างๆ เช่น การสร้างแบบจำลองการไหลแบบปั่นป่วนกลศาสตร์เชิงคำนวณ ข้อมูลที่มีโครงสร้างกราฟ^{[ 10 ]}และธรณีศาสตร์^{[ 11 ]}โดยเฉพาะอย่างยิ่ง ได้มีการนำไปประยุกต์ใช้ในการเรียนรู้สนามความเค้น-ความเครียดในวัสดุ การจำแนกข้อมูลที่ซับซ้อน เช่น ทรานสคริปโตมิกส์เชิงพื้นที่ การทำนายการไหลหลายเฟสในตัวกลางที่มีรูพรุน^{[ 12 ]}และการจำลองการเคลื่อนย้ายคาร์บอนไดออกไซด์ สุดท้ายนี้ รูปแบบการเรียนรู้ตัวดำเนินการช่วยให้สามารถเรียนรู้แผนที่ระหว่างพื้นที่ฟังก์ชัน และแตกต่างจากแนวคิดคู่ขนานของการเรียนรู้แผนที่จากพื้นที่มิติจำกัดไปยังพื้นที่ฟังก์ชัน^{[ 13 ]}^{[ 14 ]}และรวมการตั้งค่าเหล่านี้เป็นกรณีพิเศษเมื่อจำกัดไว้ที่ความละเอียดอินพุตคงที่

การเรียนรู้ของผู้ปฏิบัติงาน

การทำความเข้าใจและการสร้างแผนที่ความสัมพันธ์ระหว่างพื้นที่ฟังก์ชันมีการประยุกต์ใช้มากมายในด้านวิศวกรรมและวิทยาศาสตร์ โดยเฉพาะอย่างยิ่งเราสามารถกำหนดปัญหาการแก้สมการเชิงอนุพันธ์ย่อยเป็นการระบุแผนที่ระหว่างพื้นที่ฟังก์ชัน เช่น จากเงื่อนไขเริ่มต้นไปยังสถานะที่เปลี่ยนแปลงตามเวลา ในสมการเชิงอนุพันธ์ย่อยอื่นๆ แผนที่นี้จะรับฟังก์ชันสัมประสิทธิ์อินพุตและส่งออกฟังก์ชันคำตอบ การเรียนรู้ตัวดำเนินการเป็น กระบวนทัศน์ การเรียนรู้ของเครื่องจักร เพื่อ เรียน รู้ตัวดำเนินการคำตอบที่แมปฟังก์ชันอินพุตไปยังฟังก์ชันเอาต์พุต^{[ 15 ]}^{[ 16 ]}^{[ 17 ]}

ด้วยวิธีการเรียนรู้ของเครื่องแบบดั้งเดิม การแก้ปัญหาดังกล่าวจะต้องทำโดยการแบ่งพื้นที่ฟังก์ชันอินพุตและเอาต์พุตที่มีมิติอนันต์ออกเป็นตารางที่มีมิติจำกัด และใช้แบบจำลองการเรียนรู้มาตรฐาน เช่น โครงข่ายประสาทเทียม วิธีการนี้จะลดการเรียนรู้ตัวดำเนินการลงเหลือเพียงการเรียนรู้ฟังก์ชันที่มีมิติจำกัด และมีข้อจำกัดบางประการ เช่น การวางนัยทั่วไปไปยังการแบ่งพื้นที่ที่นอกเหนือจากตารางที่ใช้ในการฝึกอบรม

คุณสมบัติหลักของตัวดำเนินการประสาทที่แตกต่างจากเครือข่ายประสาทแบบดั้งเดิมคือ ความไม่แปรผันของการแบ่งส่วนย่อยและการบรรจบกันของการแบ่งส่วนย่อย^{[ 1 ]}ต่างจากเครือข่ายประสาททั่วไปซึ่งยึดติดกับการแบ่งส่วนย่อยของข้อมูลการฝึกอบรม ตัวดำเนินการประสาทสามารถปรับให้เข้ากับการแบ่งส่วนย่อยต่างๆ ได้โดยไม่ต้องฝึกอบรมใหม่ คุณสมบัตินี้ช่วยเพิ่มความทนทานและความสามารถในการใช้งานของตัวดำเนินการประสาทในสถานการณ์ต่างๆ ทำให้ได้ประสิทธิภาพที่สม่ำเสมอในความละเอียดและกริดที่แตกต่างกัน

คำจำกัดความและสูตร

ในเชิงสถาปัตยกรรม ตัวดำเนินการประสาทมีความคล้ายคลึงกับเครือข่ายประสาทแบบฟีดฟอร์เวิร์ดในแง่ที่ว่าประกอบด้วยแผนที่เชิงเส้น สลับ กับฟังก์ชันไม่เชิงเส้น เนื่องจากตัวดำเนินการประสาททำงานบนและส่งออกฟังก์ชัน ตัวดำเนินการประสาทจึงถูกกำหนดสูตรเป็นลำดับของตัวดำเนินการปริพันธ์เชิง เส้นสลับ บนปริภูมิฟังก์ชันและฟังก์ชันไม่เชิงเส้นแบบจุดต่อจุด^{[ 1 ]}การใช้สถาปัตยกรรมที่คล้ายคลึงกับเครือข่ายประสาทมิติจำกัดทฤษฎีบทการประมาณค่าสากล ที่คล้ายกันได้ รับการพิสูจน์แล้วสำหรับตัวดำเนินการประสาท โดยเฉพาะอย่างยิ่ง ได้แสดงให้เห็นว่าตัวดำเนินการประสาทสามารถประมาณค่าตัวดำเนินการต่อเนื่องใดๆ บนเซตกระชับได้^{[ 1 ]}

ตัวดำเนินการโครงข่ายประสาทเทียมพยายามประมาณค่าตัวดำเนินการบางอย่างระหว่างปริภูมิฟังก์ชันโดยการสร้างแผนที่พารามิเตอร์แผนที่พารามิเตอร์ดังกล่าวโดยทั่วไปสามารถกำหนดได้ในรูปแบบ ${\mathcal {G}}:{\mathcal {A}}\to {\mathcal {U}}$ ${\mathcal {A}}$ ${\คณิตศาสตร์ {U}}$ ${\mathcal {G}__{\phi }:{\mathcal {A}}\to {\mathcal {U}}$ ${\mathcal {G}__{\phi }$

${\mathcal {G}}_{\phi }:={\mathcal {Q}}\circ \sigma (W_{T}+{\mathcal {K}}_{T}+b_{T})\circ \cdots \circ \sigma (W_{1}+{\mathcal {K}}_{1}+b_{1})\circ {\mathcal {P}},$

โดยที่ตัวดำเนินการยก (ยกโคโดเมนของฟังก์ชันอินพุตไปยังพื้นที่มิติที่สูงกว่า) และตัวดำเนินการฉายภาพ (ฉายโคโดเมนของฟังก์ชันระดับกลางไปยังมิติเอาต์พุต) คือตัวดำเนินการตามลำดับ ตัวดำเนินการเหล่านี้ทำงานแบบจุดต่อจุดกับฟังก์ชัน และโดยทั่วไปจะกำหนดพารามิเตอร์เป็น โครงข่าย ประสาท เทียม แบบหลายชั้นคือฟังก์ชันไม่เชิงเส้นแบบจุดต่อจุด เช่นหน่วยเชิงเส้นแบบปรับแก้ (ReLU)หรือหน่วยเชิงเส้นแบบข้อผิดพลาดเกาส์เซียน (GeLU)แต่ละชั้นมีตัวดำเนินการเฉพาะที่(โดยปกติจะกำหนดพารามิเตอร์โดยโครงข่ายประสาทเทียมแบบจุดต่อจุด) ตัวดำเนินการอินทิกรัลเคอร์เนลและฟังก์ชันไบแอสเมื่อกำหนดการแสดงฟังก์ชันระดับกลางที่มีโดเมนในชั้นซ่อนที่ ตัวดำเนินการอินทิกรัลเคอร์เนลจะถูกกำหนดดังนี้ ${\mathcal {P}},{\mathcal {Q}}$ $\sigma$ $t=1,\dots ,T$ $W_{t}$ ${\mathcal {K}}_{t}$ $b_{t}$ $v_{t}$ $D$ $t$ ${\mathcal {K}}_{\phi }$

$({\mathcal {K}}_{\phi }v_{t})(x):=\int _{D}\kappa _{\phi }(x,y,v_{t}(x),v_{t}(y))v_{t}(y)dy,$

โดยที่เคอร์เนลเป็นโครงข่ายประสาทเทียมแบบเรียนรู้ได้โดยปริยาย ซึ่งมีพารามิเตอร์เป็น. $\kappa _{\phi }$ $\phi$

ในทางปฏิบัติ มักจะมีการกำหนดฟังก์ชันอินพุตให้กับตัวดำเนินการโครงข่ายประสาทเทียมที่ความละเอียดเฉพาะเจาะจง ตัวอย่างเช่น พิจารณาสถานการณ์ที่กำหนดการประเมินค่าของที่จุดต่างๆ โดยอาศัย วิธีการประมาณค่าอินทิกรัลของ Nyström เช่นการอินทิเกรตผลรวมของ Riemannและการอินทิเกรตแบบ Gaussianการดำเนินการอินทิกรัลข้างต้นสามารถคำนวณได้ดังนี้: $v_{t}$ $n$ $\{y_{j}\}_{j}^{n}$

$\int _{D}\kappa _{\phi }(x,y,v_{t}(x),v_{t}(y))v_{t}(y)dy\approx \sum _{j}^{n}\kappa _{\phi }(x,y_{j},v_{t}(x),v_{t}(y_{j}))v_{t}(y_{j})\Delta _{y_{j}},$

โดยที่ปริมาตรพื้นที่ย่อยหรือน้ำหนักการคำนวณเชิงตัวเลขเกี่ยวข้องกับจุดนั้นดังนั้น ชั้นข้อมูลแบบง่ายสามารถคำนวณได้ดังนี้ $\Delta _{y_{j}}$ $y_{j}$

$v_{t+1}(x)\approx \sigma \left(\sum _{j}^{n}\kappa _{\phi }(x,y_{j},v_{t}(x),v_{t}(y_{j}))v_{t}(y_{j})\Delta _{y_{j}}+W_{t}(v_{t}(y_{j}))+b_{t}(x)\right).$

การประมาณข้างต้น พร้อมกับการกำหนดพารามิเตอร์เป็นเครือข่ายประสาทโดยปริยาย ส่งผลให้ได้ตัวดำเนินการเครือข่ายประสาทกราฟ (GNO) ^[¹⁸^] $\kappa _{\phi }$

มีการกำหนดพารามิเตอร์ของตัวดำเนินการประสาทหลายแบบสำหรับการใช้งานที่แตกต่างกัน^{[ 7 ]}^{[ 18 ]}โดยทั่วไปจะแตกต่างกันในการกำหนดพารามิเตอร์ของตัวอย่างที่นิยมใช้มากที่สุดคือตัวดำเนินการประสาทฟูริเยร์ (FNO) FNO ใช้และโดยการใช้ทฤษฎีบทการสังเคราะห์จะได้การกำหนดพารามิเตอร์ของตัวดำเนินการอินทิกรัลเคอร์เนลดังต่อไปนี้: $\kappa$ $\kappa _{\phi }(x,y,v_{t}(x),v_{t}(y)):=\kappa _{\phi }(x-y)$

$({\mathcal {K}}_{\phi }v_{t})(x)={\mathcal {F}}^{-1}(R_{\phi }\cdot ({\mathcal {F}}v_{t}))(x),$

โดยที่แทนการแปลงฟูริเยร์ และแทนการแปลงฟูริเยร์ของฟังก์ชันคาบ ใด ๆ นั่นคือ FNO กำหนดพารามิเตอร์การอินทิเกรตเคอร์เนลโดยตรงในปริภูมิฟูริเยร์ โดยใช้จำนวนโหมดฟูริเยร์ที่กำหนดไว้ เมื่อกริดที่นำเสนอฟังก์ชันอินพุตเป็นแบบสม่ำเสมอ การแปลงฟูริเยร์สามารถประมาณได้โดยใช้การแปลงฟูริเยร์แบบไม่ต่อเนื่อง (DFT)ที่มีความถี่ต่ำกว่าเกณฑ์ที่กำหนด การแปลงฟูริเยร์แบบไม่ต่อเนื่องสามารถคำนวณได้โดยใช้การใช้งาน การแปลงฟูริเยร์แบบเร็ว (FFT) ${\mathcal {F}}$ $R_{\phi }$ $\kappa _{\phi }$

การฝึกอบรม

การฝึกตัวดำเนินการโครงข่ายประสาทเทียมนั้นคล้ายคลึงกับกระบวนการฝึกโครงข่ายประสาทเทียมแบบดั้งเดิม โดยทั่วไปแล้ว ตัวดำเนินการโครงข่ายประสาทเทียมจะถูกฝึกในบรรทัดฐาน Lpหรือบรรทัดฐาน Sobolevโดยเฉพาะอย่างยิ่ง สำหรับชุดข้อมูลขนาด ตัวดำเนินการโครงข่ายประสาทเทียมจะลดค่า (การแบ่งส่วนย่อยของ) ให้เหลือน้อยที่สุด $\{(a_{i},u_{i})\}_{i=1}^{N}$ $N$

${\mathcal {L}}_{\mathcal {U}}(\{(a_{i},u_{i})\}_{i=1}^{N}):=\sum _{i=1}^{N}\|u_{i}-{\mathcal {G}}_{\theta }(a_{i})\|_{\mathcal {U}}^{2}$ ,

โดยที่เป็นค่ามาตรฐานบนพื้นที่ฟังก์ชันเอาต์พุต ตัว ดำเนินการ โครงข่ายประสาทสามารถฝึกฝนได้โดยตรงโดยใช้วิธีการย้อนกลับ การแพร่กระจายและการไล่ระดับความชัน $\|\cdot \|_{\mathcal {U}}$ ${\mathcal {U}}$

รูปแบบการฝึกอบรมอีกรูปแบบหนึ่งเกี่ยวข้องกับการเรียนรู้ของเครื่องจักรที่ได้รับข้อมูลทางฟิสิกส์ โดยเฉพาะอย่างยิ่งเครือข่ายประสาทเทียมที่ได้รับข้อมูลทางฟิสิกส์ (PINNs) ใช้กฎทางฟิสิกส์ที่สมบูรณ์เพื่อปรับเครือข่ายประสาทเทียมให้เข้ากับคำตอบของ PDE การขยายรูปแบบนี้ไปสู่การเรียนรู้ตัวดำเนินการโดยทั่วไปเรียกว่าตัวดำเนินการประสาทเทียมที่ได้รับข้อมูลทางฟิสิกส์ (PINO) ^{[ 19 ]}ซึ่งฟังก์ชันการสูญเสียสามารถรวมสมการทางฟิสิกส์ทั้งหมดหรือกฎทางฟิสิกส์บางส่วนได้ ตรงกันข้ามกับ PINNs มาตรฐาน รูปแบบ PINO จะรวมการสูญเสียข้อมูล (ตามที่กำหนดไว้ข้างต้น) นอกเหนือจากการสูญเสียทางฟิสิกส์การสูญเสียทางฟิสิกส์ จะวัดปริมาณว่าคำตอบที่คาดการณ์ไว้ละเมิดสมการ PDE สำหรับ อินพุตมากน้อยเพียงใด ${\mathcal {L}}_{PDE}(a,{\mathcal {G}}_{\theta }(a))$ ${\mathcal {L}}_{PDE}(a,{\mathcal {G}}_{\theta }(a))$ ${\mathcal {G}}_{\theta }(a)$ $a$

ดูเพิ่มเติม

ลิงก์ภายนอก

neuralop – ไลบรารี Python สำหรับสถาปัตยกรรมตัวดำเนินการโครงข่ายประสาทเทียมหลากหลายรูปแบบ

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[

[ 19 ]